基于ast思维的html字符串编辑-唐霜

在一个项目中，我需要获取当前页面的htm【转载请注明来源】本文版权归作者所有，未经授权不得转载。l字符串，然后发送到worker中，对h【转载请注明来源】原创内容，盗版必究。tml进行编辑、对比等。和在DOM环境下原创内容，盗版必究。著作权归作者所有，禁止商业用途转载。可以方便的编辑DOM不同，如果只有字符串本文版权归作者所有，未经授权不得转载。转载请注明出处：www.tangshuang.net，想要编辑，而且还要对两个html进行d【版权所有，侵权必究】转载请注明出处：www.tangshuang.netiff操作，其实还是有点难度。在virt【转载请注明来源】【未经授权禁止转载】ual dom中，我们可以通过node的【转载请注明来源】著作权归作者所有，禁止商业用途转载。type来知道这个节点是否是同一个，但是【版权所有】唐霜 www.tangshuang.net原创内容，盗版必究。如果只有纯字符串，这个确认动作就会比较麻本文作者：唐霜，转载请注明出处。未经授权，禁止复制转载。烦。我想，我已经对ast有一定了解了，能【访问 www.tangshuang.net 获取更多精彩内容】【未经授权禁止转载】不能把html抽象为ast，然后对ast本文作者：唐霜，转载请注明出处。【原创不易，请尊重版权】对象进行编辑，再由ast还原为html呢【本文首发于唐霜的博客】【本文受版权保护】？于是，我开动脑筋，写了一个叫做abs-未经授权，禁止复制转载。【访问 www.tangshuang.net 获取更多精彩内容】html的库，用于对html转化为基于H本文版权归作者所有，未经授权不得转载。转载请注明出处：www.tangshuang.netyperJSON的ast对象，并且提供了【转载请注明来源】转载请注明出处：www.tangshuang.net两个对象的diff和patch方法，以及未经授权，禁止复制转载。转载请注明出处：www.tangshuang.net重新生成html字符串的rebuild方未经授权，禁止复制转载。原创内容，盗版必究。法。

生成HTML的AST

在Robust第25期中，我详细阐述了简单的编译原理，基于这一【作者：唐霜】【转载请注明来源】原理，我可以将html字符串转化为一个t【本文首发于唐霜的博客】本文版权归作者所有，未经授权不得转载。oken序列，并拼成一个ast。由于我并【原创不易，请尊重版权】【版权所有】唐霜 www.tangshuang.net不需要一个完整的编译逻辑，我的目标是一个【关注微信公众号：wwwtangshuangnet】【版权所有，侵权必究】编译的子集。而且html是xml的子集，本文作者：唐霜，转载请注明出处。本文版权归作者所有，未经授权不得转载。天然具有非常强的数据结构特征，因此，遍历本文版权归作者所有，未经授权不得转载。本文作者：唐霜，转载请注明出处。过程中可以很快生成ast，不需要分多步。

著作权归作者所有，禁止商业用途转载。【本文受版权保护】转载请注明出处：www.tangshuang.net

今年年初我发布了HyperJSON协议，它是一个基于hyperscript衍生【本文受版权保护】【版权所有】唐霜 www.tangshuang.net的布局描述协议，具有极小的体积，和完备的本文作者：唐霜，转载请注明出处。【原创内容，转载请注明出处】布局特性描述数据。而用HyperJSON【作者：唐霜】未经授权，禁止复制转载。来描述html具有非常大的优势：体积可以转载请注明出处：www.tangshuang.net未经授权，禁止复制转载。变的特别小，阅读也很方便。因此，我生成的【本文首发于唐霜的博客】本文版权归作者所有，未经授权不得转载。ast是一个基于该协议的对象。

你可以通过下面的代码快速尝试一下这个效果【作者：唐霜】【未经授权禁止转载】：

未经授权，禁止复制转载。【未经授权禁止转载】

<script type="module">
  import { parseHTMLToHyperJSON } from 'https://unpkg.com/abs-html/src/index.js'
  const json = parseHTMLToHyperJSON(`
    <!DOCTYPE html>
    <main>
      <article>
        <h1>Title</h1>
        <p>content</p>
      </article>
    </main>
  `)
  console.log(json)
</script>

得到的对象会是一个阅读起来非常容易的对象【关注微信公众号：wwwtangshuangnet】【转载请注明来源】。你甚至可以在不同线程，或者客户端与服务著作权归作者所有，禁止商业用途转载。【原创不易，请尊重版权】端之间，随意的传输这个对象（当然，不推荐【本文受版权保护】【本文首发于唐霜的博客】，因为字符串性能会更好）。

【未经授权禁止转载】【本文受版权保护】

原本我还想封装几个查询方法，但是由于考虑【访问 www.tangshuang.net 获取更多精彩内容】未经授权，禁止复制转载。到暂时没有这个需求，所以就没有开放查找方本文版权归作者所有，未经授权不得转载。【本文首发于唐霜的博客】法。你可以通过HyperJSON协议，方【原创不易，请尊重版权】著作权归作者所有，禁止商业用途转载。便的通过路径找到一个节点对象。接下来，你原创内容，盗版必究。原创内容，盗版必究。可以随意编辑这个对象，但是需要注意，编辑【版权所有，侵权必究】原创内容，盗版必究。后，它仍然需要符合HyperJSON协议【本文受版权保护】【原创内容，转载请注明出处】的要求。

从AST回到HTML

【关注微信公众号：wwwtangshuangnet】【关注微信公众号：wwwtangshuangnet】【原创不易，请尊重版权】

import { rebuildHyperJSONToHTML } from 'abs-html'
const html = rebuildHyperJSONToHTML(json)

不过在这里还是有一些坑的，主要是html【本文受版权保护】原创内容，盗版必究。中有一些强制的自关闭标签，比如<l【版权所有】唐霜 www.tangshuang.net著作权归作者所有，禁止商业用途转载。ink /> <img /&著作权归作者所有，禁止商业用途转载。著作权归作者所有，禁止商业用途转载。gt;等。这些标签在HyperJSON中【未经授权禁止转载】未经授权，禁止复制转载。没有特意强调，但是我规定，当一个节点没有【未经授权禁止转载】【原创内容，转载请注明出处】children部分时，就代表它是一个自【作者：唐霜】【本文首发于唐霜的博客】关闭标签。例如：

【关注微信公众号：wwwtangshuangnet】【访问 www.tangshuang.net 获取更多精彩内容】【转载请注明来源】【转载请注明来源】

['div', null, ''] // 闭合标签，一定存在children，虽然是一个空字符串
['img'] // 自关闭标签，不存在children，可以存在props

还有一点，为了小HyperJSON的体积【原创内容，转载请注明出处】【原创不易，请尊重版权】，纯文本节点直接用字符串，而非用#tex未经授权，禁止复制转载。【访问 www.tangshuang.net 获取更多精彩内容】t类型节点，例如：

['div', 0, 'content'] // 本来应该写成 ['div', null, ['#text', null, 'content']]

本文作者：唐霜，转载请注明出处。【本文首发于唐霜的博客】未经授权，禁止复制转载。转载请注明出处：www.tangshuang.net

Diff两个AST

当我拿到两个html字符串之后，通过pa本文作者：唐霜，转载请注明出处。著作权归作者所有，禁止商业用途转载。rse操作得到两个ast，接下来的事，就【本文首发于唐霜的博客】【转载请注明来源】是对比这两个纯js对象。市面上有很多di【原创不易，请尊重版权】【本文受版权保护】ff库，其中我比较喜欢的一个叫deep-【本文受版权保护】【版权所有，侵权必究】diff，原因在于它的diff结果是非常本文版权归作者所有，未经授权不得转载。【本文受版权保护】易于阅读的数组形式。但是，我并没有用它来【转载请注明来源】【本文首发于唐霜的博客】diff两个ast，原因很简单，html【关注微信公众号：wwwtangshuangnet】【版权所有】唐霜 www.tangshuang.net的ast是有规律的结构化数据，而非无规律【作者：唐霜】【版权所有，侵权必究】的js对象。把ast当作纯对象对比，会多【未经授权禁止转载】【版权所有】唐霜 www.tangshuang.net出很多无用的信息，例如：

path: [3, 4, 1, 'name']
next: 'new name'

实际上它表达的是根节点的第1个child【访问 www.tangshuang.net 获取更多精彩内容】【关注微信公众号：wwwtangshuangnet】的第2个child的name prop发【原创内容，转载请注明出处】未经授权，禁止复制转载。生变化。虽然用数字作为路径确实节省了一些本文作者：唐霜，转载请注明出处。【未经授权禁止转载】空间，但是却无法让我们很轻松的阅读，所以转载请注明出处：www.tangshuang.net未经授权，禁止复制转载。，我自己提供了一个diff工具，这个di本文作者：唐霜，转载请注明出处。【原创内容，转载请注明出处】ff工具给出的结果是：

【作者：唐霜】【原创不易，请尊重版权】本文作者：唐霜，转载请注明出处。【原创内容，转载请注明出处】

path: div[1]/div[2]
type: 'attribute'
name: 'name'
next: 'new name'

它比用deep-diff对纯js对象对比【未经授权禁止转载】原创内容，盗版必究。时多出一些信息，但是阅读起来却更方便。最【访问 www.tangshuang.net 获取更多精彩内容】本文版权归作者所有，未经授权不得转载。重要的是，它为patch做准备，因为pa【作者：唐霜】【原创内容，转载请注明出处】tch时，直接根据type来决定进行什么本文作者：唐霜，转载请注明出处。【版权所有，侵权必究】操作。

本文作者：唐霜，转载请注明出处。著作权归作者所有，禁止商业用途转载。【转载请注明来源】【转载请注明来源】

相似算法

在diff时，我需要确认，这个节点是新增本文版权归作者所有，未经授权不得转载。【访问 www.tangshuang.net 获取更多精彩内容】的，还是原来就有的（可能发生了一些细微变原创内容，盗版必究。【本文首发于唐霜的博客】化）。我想到了一种相似算法（目前还没有在本文版权归作者所有，未经授权不得转载。【版权所有，侵权必究】abs-html中使用）。两个对象是否是本文作者：唐霜，转载请注明出处。【原创内容，转载请注明出处】对同一个HTML节点的描述呢？我主要看它未经授权，禁止复制转载。【版权所有】唐霜 www.tangshuang.net们的相似的，有些特征可以直接排除它们不是【作者：唐霜】【本文受版权保护】同一个节点的描述，比如nodeName、【作者：唐霜】【访问 www.tangshuang.net 获取更多精彩内容】id、data-id不一样，那么这两个对【版权所有】唐霜 www.tangshuang.net【原创不易，请尊重版权】象不可能是对同一个节点的描述。我为不同节转载请注明出处：www.tangshuang.net【原创内容，转载请注明出处】点的相似度进行权重分类和分数划分，以节点转载请注明出处：www.tangshuang.net本文作者：唐霜，转载请注明出处。的属性、属性值的相似度、children【版权所有】唐霜 www.tangshuang.net【作者：唐霜】的相似度为维度，在每个维度上进行打分，每【作者：唐霜】【原创不易，请尊重版权】个维度的权重不同，例如前面的nodeNa【原创内容，转载请注明出处】【原创不易，请尊重版权】me，因为它具有巨高的权重，所以直接作为【版权所有，侵权必究】【原创内容，转载请注明出处】特殊情况处理。当两个对象在nodeNam【版权所有，侵权必究】原创内容，盗版必究。e或id等一致的情况下，拥有相同的pro【本文受版权保护】未经授权，禁止复制转载。ps时，我认为它们具有较高的相似度，在p【作者：唐霜】未经授权，禁止复制转载。rops这个维度上，给出了高分，但是它们【本文受版权保护】本文作者：唐霜，转载请注明出处。的children完全不同，那么在这个维【版权所有，侵权必究】原创内容，盗版必究。度上，我给出了0分。但是不同维度的权重是转载请注明出处：www.tangshuang.net著作权归作者所有，禁止商业用途转载。不一样的，children不同，很有可能本文作者：唐霜，转载请注明出处。【版权所有，侵权必究】是同一个DOM节点，更换了childre【版权所有】唐霜 www.tangshuang.net本文版权归作者所有，未经授权不得转载。n而已，因此，它的权重低很多。完成这个打【本文首发于唐霜的博客】转载请注明出处：www.tangshuang.net分之后，我们就可以得出，一个对象描述的最原创内容，盗版必究。转载请注明出处：www.tangshuang.net有可能是哪一个对象描述的节点，从而在di【本文受版权保护】未经授权，禁止复制转载。ff的时候，把它们当作一个节点，并给予相原创内容，盗版必究。本文作者：唐霜，转载请注明出处。同的identifier，这样，它就不会【版权所有】唐霜 www.tangshuang.net本文版权归作者所有，未经授权不得转载。被移除，而只会被移动和更新。

【转载请注明来源】著作权归作者所有，禁止商业用途转载。

另外，在遍历时，我发现从尾往头遍历真的是转载请注明出处：www.tangshuang.net【作者：唐霜】一个很不错的方法，特别是在这种有移动或插【版权所有】唐霜 www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】入的场景下，从末尾开始遍历可以有效的避免原创内容，盗版必究。著作权归作者所有，禁止商业用途转载。遍历过程中再去查找的逻辑，复杂度从O(n²)~O(n³)降到了O(n)。

Path变化

把diff结果存起来之后，形成了一个关于原创内容，盗版必究。【版权所有】唐霜 www.tangshuang.netHTML变化的序列。我提供的patchH【作者：唐霜】【关注微信公众号：wwwtangshuangnet】yerJSON方法基于这一序列，可以重建转载请注明出处：www.tangshuang.net著作权归作者所有，禁止商业用途转载。HTML字符串。这样就可以做到对html原创内容，盗版必究。【访问 www.tangshuang.net 获取更多精彩内容】的回放。因为保存的是比较小的diff的结原创内容，盗版必究。著作权归作者所有，禁止商业用途转载。果，所以，占用的存储空间比保存html字未经授权，禁止复制转载。本文作者：唐霜，转载请注明出处。符串小很多。

纯计算

这一系列的计算都是纯js计算，因此，它可转载请注明出处：www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】以在worker中运行，我们将当前DOM本文版权归作者所有，未经授权不得转载。【原创内容，转载请注明出处】的outerHTML发送到worker中本文版权归作者所有，未经授权不得转载。【未经授权禁止转载】，由worker中的程序完成parse和【访问 www.tangshuang.net 获取更多精彩内容】【版权所有】唐霜 www.tangshuang.netdiff，再将diff结果发送到服务器保未经授权，禁止复制转载。【版权所有，侵权必究】存。在服务器的另外一端，我们读取这些di【原创不易，请尊重版权】未经授权，禁止复制转载。ff结果，并通过其他程序，还原html的著作权归作者所有，禁止商业用途转载。【关注微信公众号：wwwtangshuangnet】变化，从而可以观看当前数据源一端的情况，【关注微信公众号：wwwtangshuangnet】著作权归作者所有，禁止商业用途转载。这可以用在在线教育场景下，授课老师在基于未经授权，禁止复制转载。未经授权，禁止复制转载。html的编辑器（如codemirror著作权归作者所有，禁止商业用途转载。原创内容，盗版必究。）中撰写代码，学生可以立即在自己的电脑上【作者：唐霜】【作者：唐霜】看到老师的写作过程，并且在条件允许的情况【关注微信公众号：wwwtangshuangnet】【本文首发于唐霜的博客】下，我们可以加入协同能力，让学生参与到写转载请注明出处：www.tangshuang.net【未经授权禁止转载】作中。而由于这些计算全都在worker中未经授权，禁止复制转载。【关注微信公众号：wwwtangshuangnet】执行，只要机器性能良好，就不会对用户当前【访问 www.tangshuang.net 获取更多精彩内容】【本文受版权保护】操作的页面产生任何性能上的影响。

结语

有了abs-html这个利器之后，我可以原创内容，盗版必究。【版权所有，侵权必究】做很多事情，之前想到react-work【版权所有】唐霜 www.tangshuang.net【原创不易，请尊重版权】er-dom这个库，我也可以实现了，我可本文版权归作者所有，未经授权不得转载。本文版权归作者所有，未经授权不得转载。以在worker中使用react-rec【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.netonciler创建ast，并把diff结【转载请注明来源】【本文受版权保护】果发送给主线程，再利用主线程的patch【版权所有，侵权必究】【原创不易，请尊重版权】程序去更新对应的DOM，就可以做到一种新【本文首发于唐霜的博客】本文版权归作者所有，未经授权不得转载。的类似小程序一样的架构。

【转载请注明来源】【访问 www.tangshuang.net 获取更多精彩内容】著作权归作者所有，禁止商业用途转载。

【本文受版权保护】本文作者：唐霜，转载请注明出处。【本文首发于唐霜的博客】本文版权归作者所有，未经授权不得转载。【关注微信公众号：wwwtangshuangnet】转载请注明出处：www.tangshuang.net原创内容，盗版必究。【关注微信公众号：wwwtangshuangnet】转载请注明出处：www.tangshuang.net【原创内容，转载请注明出处】本文作者：唐霜，转载请注明出处。【原创不易，请尊重版权】【原创内容，转载请注明出处】转载请注明出处：www.tangshuang.net【转载请注明来源】转载请注明出处：www.tangshuang.net【未经授权禁止转载】未经授权，禁止复制转载。【本文首发于唐霜的博客】本文作者：唐霜，转载请注明出处。【版权所有】唐霜 www.tangshuang.net【作者：唐霜】【转载请注明来源】本文作者：唐霜，转载请注明出处。【作者：唐霜】未经授权，禁止复制转载。【转载请注明来源】原创内容，盗版必究。【版权所有，侵权必究】【转载请注明来源】【原创不易，请尊重版权】原创内容，盗版必究。本文作者：唐霜，转载请注明出处。未经授权，禁止复制转载。

2021-06-12 3465

唐霜

基于ast思维的html字符串编辑

生成HTML的AST

从AST回到HTML

Diff两个AST

相似算法

Path变化

纯计算

结语

为价值买单，打赏一杯咖啡

声明

关于

生态