在一个项目中,我需要获取当前页面的htm【本文受版权保护】【转载请注明来源】l字符串,然后发送到worker中,对h【未经授权禁止转载】【版权所有】唐霜 www.tangshuang.nettml进行编辑、对比等。和在DOM环境下本文作者:唐霜,转载请注明出处。【版权所有】唐霜 www.tangshuang.net可以方便的编辑DOM不同,如果只有字符串【版权所有,侵权必究】【本文受版权保护】,想要编辑,而且还要对两个html进行d【关注微信公众号:wwwtangshuangnet】本文作者:唐霜,转载请注明出处。iff操作,其实还是有点难度。在virt【本文首发于唐霜的博客】原创内容,盗版必究。ual dom中,我们可以通过node的【关注微信公众号:wwwtangshuangnet】【本文受版权保护】type来知道这个节点是否是同一个,但是转载请注明出处:www.tangshuang.net著作权归作者所有,禁止商业用途转载。如果只有纯字符串,这个确认动作就会比较麻【原创不易,请尊重版权】【本文受版权保护】烦。我想,我已经对ast有一定了解了,能【关注微信公众号:wwwtangshuangnet】【版权所有】唐霜 www.tangshuang.net不能把html抽象为ast,然后对ast【本文首发于唐霜的博客】【版权所有,侵权必究】对象进行编辑,再由ast还原为html呢【版权所有,侵权必究】【未经授权禁止转载】?于是,我开动脑筋,写了一个叫做abs-本文版权归作者所有,未经授权不得转载。原创内容,盗版必究。html的库,用于对html转化为基于H本文作者:唐霜,转载请注明出处。【版权所有,侵权必究】yperJSON的ast对象,并且提供了原创内容,盗版必究。【版权所有】唐霜 www.tangshuang.net两个对象的diff和patch方法,以及【本文首发于唐霜的博客】转载请注明出处:www.tangshuang.net重新生成html字符串的rebuild方【版权所有】唐霜 www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】法。
本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net本文版权归作者所有,未经授权不得转载。著作权归作者所有,禁止商业用途转载。原创内容,盗版必究。生成HTML的AST著作权归作者所有,禁止商业用途转载。
【版权所有,侵权必究】原创内容,盗版必究。【作者:唐霜】在转载请注明出处:www.tangshuang.netRobust第25期转载请注明出处:www.tangshuang.net中,我详细阐述了简单的编译原理,基于这一【原创内容,转载请注明出处】【本文受版权保护】原理,我可以将html字符串转化为一个t【版权所有,侵权必究】【版权所有】唐霜 www.tangshuang.netoken序列,并拼成一个ast。由于我并原创内容,盗版必究。著作权归作者所有,禁止商业用途转载。不需要一个完整的编译逻辑,我的目标是一个【作者:唐霜】本文作者:唐霜,转载请注明出处。编译的子集。而且html是xml的子集,转载请注明出处:www.tangshuang.net【原创内容,转载请注明出处】天然具有非常强的数据结构特征,因此,遍历【未经授权禁止转载】【关注微信公众号:wwwtangshuangnet】过程中可以很快生成ast,不需要分多步。
本文版权归作者所有,未经授权不得转载。【原创内容,转载请注明出处】【本文受版权保护】未经授权,禁止复制转载。本文作者:唐霜,转载请注明出处。今年年初我发布了【版权所有】唐霜 www.tangshuang.netHyperJSON协议【版权所有,侵权必究】,它是一个基于hyperscript衍生本文版权归作者所有,未经授权不得转载。本文版权归作者所有,未经授权不得转载。的布局描述协议,具有极小的体积,和完备的本文版权归作者所有,未经授权不得转载。【本文受版权保护】布局特性描述数据。而用HyperJSON未经授权,禁止复制转载。【转载请注明来源】来描述html具有非常大的优势:体积可以【访问 www.tangshuang.net 获取更多精彩内容】【访问 www.tangshuang.net 获取更多精彩内容】变的特别小,阅读也很方便。因此,我生成的本文作者:唐霜,转载请注明出处。【本文首发于唐霜的博客】ast是一个基于该协议的对象。
【转载请注明来源】【转载请注明来源】本文版权归作者所有,未经授权不得转载。【作者:唐霜】你可以通过下面的代码快速尝试一下这个效果本文作者:唐霜,转载请注明出处。本文版权归作者所有,未经授权不得转载。:
原创内容,盗版必究。【作者:唐霜】【转载请注明来源】著作权归作者所有,禁止商业用途转载。<script type="module">
import { parseHTMLToHyperJSON } from 'https://unpkg.com/abs-html/src/index.js'
const json = parseHTMLToHyperJSON(`
<!DOCTYPE html>
<main>
<article>
<h1>Title</h1>
<p>content</p>
</article>
</main>
`)
console.log(json)
</script>
得到的对象会是一个阅读起来非常容易的对象著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。。你甚至可以在不同线程,或者客户端与服务【版权所有】唐霜 www.tangshuang.net本文作者:唐霜,转载请注明出处。端之间,随意的传输这个对象(当然,不推荐著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。,因为字符串性能会更好)。
未经授权,禁止复制转载。【版权所有,侵权必究】【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。【版权所有】唐霜 www.tangshuang.net原本我还想封装几个查询方法,但是由于考虑【未经授权禁止转载】转载请注明出处:www.tangshuang.net到暂时没有这个需求,所以就没有开放查找方著作权归作者所有,禁止商业用途转载。【原创不易,请尊重版权】法。你可以通过HyperJSON协议,方本文版权归作者所有,未经授权不得转载。【本文首发于唐霜的博客】便的通过路径找到一个节点对象。接下来,你原创内容,盗版必究。原创内容,盗版必究。可以随意编辑这个对象,但是需要注意,编辑未经授权,禁止复制转载。【作者:唐霜】后,它仍然需要符合HyperJSON协议著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net的要求。
【本文受版权保护】著作权归作者所有,禁止商业用途转载。【关注微信公众号:wwwtangshuangnet】从AST回到HTML本文版权归作者所有,未经授权不得转载。
【原创内容,转载请注明出处】著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。【原创内容,转载请注明出处】【作者:唐霜】利用HyperJSON协议对象,我们可以【作者:唐霜】本文作者:唐霜,转载请注明出处。非常方便的通过遍历生成新的HTML字符串【本文首发于唐霜的博客】【版权所有,侵权必究】。
【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。原创内容,盗版必究。import { rebuildHyperJSONToHTML } from 'abs-html'
const html = rebuildHyperJSONToHTML(json)
不过在这里还是有一些坑的,主要是html【本文首发于唐霜的博客】【版权所有,侵权必究】中有一些强制的自关闭标签,比如<l【本文受版权保护】未经授权,禁止复制转载。ink /> <img /&【版权所有】唐霜 www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】gt;等。这些标签在HyperJSON中未经授权,禁止复制转载。【未经授权禁止转载】没有特意强调,但是我规定,当一个节点没有著作权归作者所有,禁止商业用途转载。【原创不易,请尊重版权】children部分时,就代表它是一个自【本文受版权保护】【本文首发于唐霜的博客】关闭标签。例如:
【本文首发于唐霜的博客】【作者:唐霜】著作权归作者所有,禁止商业用途转载。【作者:唐霜】['div', null, ''] // 闭合标签,一定存在children,虽然是一个空字符串 ['img'] // 自关闭标签,不存在children,可以存在props
还有一点,为了小HyperJSON的体积【未经授权禁止转载】【作者:唐霜】,纯文本节点直接用字符串,而非用#tex【未经授权禁止转载】【未经授权禁止转载】t类型节点,例如:
转载请注明出处:www.tangshuang.net【原创内容,转载请注明出处】【转载请注明来源】['div', 0, 'content'] // 本来应该写成 ['div', null, ['#text', null, 'content']]
我们每一个设计,都有它独特的地方,有些设【转载请注明来源】【原创不易,请尊重版权】计是为了追求完备性,而有些设计则是在理想未经授权,禁止复制转载。著作权归作者所有,禁止商业用途转载。与现实之间平衡。
【版权所有,侵权必究】【本文首发于唐霜的博客】【版权所有,侵权必究】Diff两个AST【访问 www.tangshuang.net 获取更多精彩内容】
【作者:唐霜】著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。当我拿到两个html字符串之后,通过pa【版权所有,侵权必究】【版权所有,侵权必究】rse操作得到两个ast,接下来的事,就原创内容,盗版必究。本文版权归作者所有,未经授权不得转载。是对比这两个纯js对象。市面上有很多di未经授权,禁止复制转载。原创内容,盗版必究。ff库,其中我比较喜欢的一个叫deep-未经授权,禁止复制转载。【未经授权禁止转载】diff,原因在于它的diff结果是非常本文版权归作者所有,未经授权不得转载。本文版权归作者所有,未经授权不得转载。易于阅读的数组形式。但是,我并没有用它来未经授权,禁止复制转载。【本文首发于唐霜的博客】diff两个ast,原因很简单,html【版权所有】唐霜 www.tangshuang.net【关注微信公众号:wwwtangshuangnet】的ast是有规律的结构化数据,而非无规律未经授权,禁止复制转载。【原创内容,转载请注明出处】的js对象。把ast当作纯对象对比,会多【原创内容,转载请注明出处】转载请注明出处:www.tangshuang.net出很多无用的信息,例如:
著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net【原创内容,转载请注明出处】【关注微信公众号:wwwtangshuangnet】本文版权归作者所有,未经授权不得转载。path: [3, 4, 1, 'name'] next: 'new name'
实际上它表达的是根节点的第1个child【版权所有】唐霜 www.tangshuang.net本文作者:唐霜,转载请注明出处。的第2个child的name prop发未经授权,禁止复制转载。【未经授权禁止转载】生变化。虽然用数字作为路径确实节省了一些【原创不易,请尊重版权】【未经授权禁止转载】空间,但是却无法让我们很轻松的阅读,所以【本文受版权保护】原创内容,盗版必究。,我自己提供了一个diff工具,这个di【原创不易,请尊重版权】【本文受版权保护】ff工具给出的结果是:
未经授权,禁止复制转载。转载请注明出处:www.tangshuang.net【转载请注明来源】【本文首发于唐霜的博客】【访问 www.tangshuang.net 获取更多精彩内容】path: div[1]/div[2] type: 'attribute' name: 'name' next: 'new name'
它比用deep-diff对纯js对象对比转载请注明出处:www.tangshuang.net【原创不易,请尊重版权】时多出一些信息,但是阅读起来却更方便。最原创内容,盗版必究。本文作者:唐霜,转载请注明出处。重要的是,它为patch做准备,因为pa【转载请注明来源】本文作者:唐霜,转载请注明出处。tch时,直接根据type来决定进行什么【原创不易,请尊重版权】原创内容,盗版必究。操作。
未经授权,禁止复制转载。【作者:唐霜】本文作者:唐霜,转载请注明出处。【本文受版权保护】相似算法本文作者:唐霜,转载请注明出处。
未经授权,禁止复制转载。【关注微信公众号:wwwtangshuangnet】未经授权,禁止复制转载。著作权归作者所有,禁止商业用途转载。在diff时,我需要确认,这个节点是新增本文版权归作者所有,未经授权不得转载。【关注微信公众号:wwwtangshuangnet】的,还是原来就有的(可能发生了一些细微变【原创不易,请尊重版权】【版权所有】唐霜 www.tangshuang.net化)。我想到了一种相似算法(目前还没有在【原创内容,转载请注明出处】【版权所有】唐霜 www.tangshuang.netabs-html中使用)。两个对象是否是【作者:唐霜】著作权归作者所有,禁止商业用途转载。对同一个HTML节点的描述呢?我主要看它原创内容,盗版必究。【版权所有,侵权必究】们的相似的,有些特征可以直接排除它们不是【本文首发于唐霜的博客】著作权归作者所有,禁止商业用途转载。同一个节点的描述,比如nodeName、【访问 www.tangshuang.net 获取更多精彩内容】原创内容,盗版必究。id、data-id不一样,那么这两个对本文作者:唐霜,转载请注明出处。【原创不易,请尊重版权】象不可能是对同一个节点的描述。我为不同节【版权所有,侵权必究】原创内容,盗版必究。点的相似度进行权重分类和分数划分,以节点【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。的属性、属性值的相似度、children本文作者:唐霜,转载请注明出处。原创内容,盗版必究。的相似度为维度,在每个维度上进行打分,每本文版权归作者所有,未经授权不得转载。【版权所有,侵权必究】个维度的权重不同,例如前面的nodeNa原创内容,盗版必究。【访问 www.tangshuang.net 获取更多精彩内容】me,因为它具有巨高的权重,所以直接作为著作权归作者所有,禁止商业用途转载。本文版权归作者所有,未经授权不得转载。特殊情况处理。当两个对象在nodeNam【作者:唐霜】【本文首发于唐霜的博客】e或id等一致的情况下,拥有相同的pro【本文首发于唐霜的博客】转载请注明出处:www.tangshuang.netps时,我认为它们具有较高的相似度,在p【作者:唐霜】【访问 www.tangshuang.net 获取更多精彩内容】rops这个维度上,给出了高分,但是它们著作权归作者所有,禁止商业用途转载。【原创内容,转载请注明出处】的children完全不同,那么在这个维【原创不易,请尊重版权】本文作者:唐霜,转载请注明出处。度上,我给出了0分。但是不同维度的权重是著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。不一样的,children不同,很有可能【本文受版权保护】【转载请注明来源】是同一个DOM节点,更换了childre【版权所有,侵权必究】转载请注明出处:www.tangshuang.netn而已,因此,它的权重低很多。完成这个打未经授权,禁止复制转载。【版权所有,侵权必究】分之后,我们就可以得出,一个对象描述的最本文作者:唐霜,转载请注明出处。【原创不易,请尊重版权】有可能是哪一个对象描述的节点,从而在di著作权归作者所有,禁止商业用途转载。【本文首发于唐霜的博客】ff的时候,把它们当作一个节点,并给予相【访问 www.tangshuang.net 获取更多精彩内容】本文版权归作者所有,未经授权不得转载。同的identifier,这样,它就不会【访问 www.tangshuang.net 获取更多精彩内容】未经授权,禁止复制转载。被移除,而只会被移动和更新。
本文版权归作者所有,未经授权不得转载。著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。【作者:唐霜】另外,在遍历时,我发现从尾往头遍历真的是【作者:唐霜】本文作者:唐霜,转载请注明出处。一个很不错的方法,特别是在这种有移动或插【本文首发于唐霜的博客】【版权所有,侵权必究】入的场景下,从末尾开始遍历可以有效的避免转载请注明出处:www.tangshuang.net本文版权归作者所有,未经授权不得转载。遍历过程中再去查找的逻辑,复杂度从O(n2著作权归作者所有,禁止商业用途转载。)~O(n原创内容,盗版必究。3【本文受版权保护】)降到了O(n)。【版权所有,侵权必究】
著作权归作者所有,禁止商业用途转载。【本文受版权保护】【访问 www.tangshuang.net 获取更多精彩内容】【未经授权禁止转载】未经授权,禁止复制转载。Path变化【访问 www.tangshuang.net 获取更多精彩内容】
【转载请注明来源】本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net【本文首发于唐霜的博客】【版权所有】唐霜 www.tangshuang.net把diff结果存起来之后,形成了一个关于未经授权,禁止复制转载。【版权所有】唐霜 www.tangshuang.netHTML变化的序列。我提供的patchH【本文首发于唐霜的博客】本文版权归作者所有,未经授权不得转载。yerJSON方法基于这一序列,可以重建著作权归作者所有,禁止商业用途转载。本文版权归作者所有,未经授权不得转载。HTML字符串。这样就可以做到对html原创内容,盗版必究。【本文受版权保护】的回放。因为保存的是比较小的diff的结【版权所有,侵权必究】著作权归作者所有,禁止商业用途转载。果,所以,占用的存储空间比保存html字未经授权,禁止复制转载。未经授权,禁止复制转载。符串小很多。
著作权归作者所有,禁止商业用途转载。【转载请注明来源】【未经授权禁止转载】纯计算【访问 www.tangshuang.net 获取更多精彩内容】
【本文首发于唐霜的博客】原创内容,盗版必究。转载请注明出处:www.tangshuang.net【作者:唐霜】【版权所有,侵权必究】这一系列的计算都是纯js计算,因此,它可【原创不易,请尊重版权】本文版权归作者所有,未经授权不得转载。以在worker中运行,我们将当前DOM【未经授权禁止转载】【本文首发于唐霜的博客】的outerHTML发送到worker中【本文受版权保护】【原创内容,转载请注明出处】,由worker中的程序完成parse和【原创内容,转载请注明出处】【版权所有,侵权必究】diff,再将diff结果发送到服务器保著作权归作者所有,禁止商业用途转载。【原创不易,请尊重版权】存。在服务器的另外一端,我们读取这些di转载请注明出处:www.tangshuang.net【原创内容,转载请注明出处】ff结果,并通过其他程序,还原html的【关注微信公众号:wwwtangshuangnet】【原创内容,转载请注明出处】变化,从而可以观看当前数据源一端的情况,【版权所有,侵权必究】【版权所有,侵权必究】这可以用在在线教育场景下,授课老师在基于未经授权,禁止复制转载。著作权归作者所有,禁止商业用途转载。html的编辑器(如codemirror【未经授权禁止转载】著作权归作者所有,禁止商业用途转载。)中撰写代码,学生可以立即在自己的电脑上【原创内容,转载请注明出处】原创内容,盗版必究。看到老师的写作过程,并且在条件允许的情况【版权所有,侵权必究】【原创不易,请尊重版权】下,我们可以加入协同能力,让学生参与到写【本文首发于唐霜的博客】【本文首发于唐霜的博客】作中。而由于这些计算全都在worker中【关注微信公众号:wwwtangshuangnet】【转载请注明来源】执行,只要机器性能良好,就不会对用户当前【本文首发于唐霜的博客】【原创内容,转载请注明出处】操作的页面产生任何性能上的影响。
【作者:唐霜】【访问 www.tangshuang.net 获取更多精彩内容】【访问 www.tangshuang.net 获取更多精彩内容】【本文受版权保护】【版权所有】唐霜 www.tangshuang.net结语原创内容,盗版必究。
【作者:唐霜】未经授权,禁止复制转载。【未经授权禁止转载】【本文受版权保护】有了abs-html这个利器之后,我可以本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net做很多事情,之前想到react-work【未经授权禁止转载】未经授权,禁止复制转载。er-dom这个库,我也可以实现了,我可原创内容,盗版必究。【关注微信公众号:wwwtangshuangnet】以在worker中使用react-rec本文版权归作者所有,未经授权不得转载。本文版权归作者所有,未经授权不得转载。onciler创建ast,并把diff结本文版权归作者所有,未经授权不得转载。【版权所有,侵权必究】果发送给主线程,再利用主线程的patch【转载请注明来源】原创内容,盗版必究。程序去更新对应的DOM,就可以做到一种新【转载请注明来源】【未经授权禁止转载】的类似小程序一样的架构。
【关注微信公众号:wwwtangshuangnet】【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】本文作者:唐霜,转载请注明出处。2021-06-12 3068


