Robust第22期:用AST实现简易的中文编程

广告位招租
扫码页面底部二维码联系

本文版权归作者所有,未经授权不得转载。著作权归作者所有,禁止商业用途转载。【作者:唐霜】

中文编程是件很有意思的事情,通过基于AS【作者:唐霜】【原创不易,请尊重版权】T的编译方法,可以让我们实现一种中文编程【版权所有,侵权必究】原创内容,盗版必究。语言。本期Robust主要聊一聊AST,【关注微信公众号:wwwtangshuangnet】本文作者:唐霜,转载请注明出处。顺带把基于AST的编译实现过程,以及以中【关注微信公众号:wwwtangshuangnet】【原创内容,转载请注明出处】文编程为例子,聊一聊AST的一些用法,让【转载请注明来源】本文作者:唐霜,转载请注明出处。你在工作中,遇到一些特殊语法时,可以快速【本文首发于唐霜的博客】本文版权归作者所有,未经授权不得转载。建立自己的解决方法。

本文作者:唐霜,转载请注明出处。未经授权,禁止复制转载。

勘误:本期是22期,音频中说成21期。

【未经授权禁止转载】【访问 www.tangshuang.net 获取更多精彩内容】【访问 www.tangshuang.net 获取更多精彩内容】

补充:AST可用于正式线上环境,不仅限于本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net编译器阶段。比如我音频中提到,我用AST【转载请注明来源】本文作者:唐霜,转载请注明出处。完成模板渲染,就是在生产环境使用,否则就【关注微信公众号:wwwtangshuangnet】【本文首发于唐霜的博客】没有意义了。

著作权归作者所有,禁止商业用途转载。【作者:唐霜】【原创内容,转载请注明出处】原创内容,盗版必究。

在线收听

网易云音乐:点击播放

著作权归作者所有,禁止商业用途转载。本文版权归作者所有,未经授权不得转载。

喜马拉雅:点击播放

【原创内容,转载请注明出处】【本文首发于唐霜的博客】原创内容,盗版必究。

你还可以在苹果自带的 Podcast 应本文版权归作者所有,未经授权不得转载。著作权归作者所有,禁止商业用途转载。用中搜“Robust”找到我们的节目收听【原创内容,转载请注明出处】著作权归作者所有,禁止商业用途转载。

原创内容,盗版必究。本文版权归作者所有,未经授权不得转载。【未经授权禁止转载】未经授权,禁止复制转载。

捐赠支持

求打赏🙇如果你觉得 Ro本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.netbust 这样一档技术类的谈话节目还不错【作者:唐霜】【转载请注明来源】,希望我继续做下去,不妨打赏支持。

【版权所有,侵权必究】本文版权归作者所有,未经授权不得转载。【版权所有】唐霜 www.tangshuang.net

【原创不易,请尊重版权】原创内容,盗版必究。本文作者:唐霜,转载请注明出处。

内容大纲

如果一等于一,那么显示“成功”。
【本文受版权保护】【本文首发于唐霜的博客】【关注微信公众号:wwwtangshuangnet】
著作权归作者所有,禁止商业用途转载。未经授权,禁止复制转载。未经授权,禁止复制转载。著作权归作者所有,禁止商业用途转载。
人有一双眼睛,我是人。
转载请注明出处:www.tangshuang.net著作权归作者所有,禁止商业用途转载。转载请注明出处:www.tangshuang.net
如果我有一双眼睛,那么显示“成功”。
本文作者:唐霜,转载请注明出处。著作权归作者所有,禁止商业用途转载。未经授权,禁止复制转载。【版权所有】唐霜 www.tangshuang.net
【作者:唐霜】【本文受版权保护】【转载请注明来源】【未经授权禁止转载】
我的名字是“否子戈”。
【未经授权禁止转载】原创内容,盗版必究。
我的学号是141446。
【原创不易,请尊重版权】【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。【未经授权禁止转载】
显示“我的名字和学号分别是「我的名字」、本文版权归作者所有,未经授权不得转载。【版权所有】唐霜 www.tangshuang.net「我的学号」”。
本文版权归作者所有,未经授权不得转载。著作权归作者所有,禁止商业用途转载。
显示我的全部信息。
【版权所有】唐霜 www.tangshuang.net未经授权,禁止复制转载。
如果我的学号是偶数,那么显示我的名字。
【访问 www.tangshuang.net 获取更多精彩内容】【版权所有,侵权必究】本文作者:唐霜,转载请注明出处。
【作者:唐霜】转载请注明出处:www.tangshuang.net
【本文首发于唐霜的博客】【关注微信公众号:wwwtangshuangnet】【访问 www.tangshuang.net 获取更多精彩内容】原创内容,盗版必究。
1. 简易编程的共性
【访问 www.tangshuang.net 获取更多精彩内容】【版权所有】唐霜 www.tangshuang.net
– 定义语句:什么是什么,什本文作者:唐霜,转载请注明出处。【未经授权禁止转载】么属于什么,什么有什么,什么的什么是什么
【转载请注明来源】【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】
– 条件语句:如果̷【转载请注明来源】【未经授权禁止转载】0;那么
原创内容,盗版必究。【关注微信公众号:wwwtangshuangnet】
– 逻辑语句:不仅̷原创内容,盗版必究。本文作者:唐霜,转载请注明出处。0;而且,既是……又是,和,或,不是,不原创内容,盗版必究。【原创不易,请尊重版权】
【关注微信公众号:wwwtangshuangnet】【作者:唐霜】【关注微信公众号:wwwtangshuangnet】
– 循环语句:?从0到10依【访问 www.tangshuang.net 获取更多精彩内容】【原创不易,请尊重版权】次执行,循环5次,一直循环直到我的年龄为著作权归作者所有,禁止商业用途转载。未经授权,禁止复制转载。12
【版权所有,侵权必究】【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。【原创不易,请尊重版权】
– 运算语句:1加1,100本文作者:唐霜,转载请注明出处。著作权归作者所有,禁止商业用途转载。除50,2的6次方
【原创内容,转载请注明出处】著作权归作者所有,禁止商业用途转载。
– 函数语句:我会唱歌:树上【版权所有,侵权必究】【作者:唐霜】的鸟儿成双对。我唱歌。
本文版权归作者所有,未经授权不得转载。原创内容,盗版必究。【版权所有,侵权必究】
转载请注明出处:www.tangshuang.net转载请注明出处:www.tangshuang.net著作权归作者所有,禁止商业用途转载。
2. 抽象语法树(Abstract sy【本文受版权保护】【未经授权禁止转载】ntax tree)
【本文受版权保护】【转载请注明来源】【原创内容,转载请注明出处】【版权所有】唐霜 www.tangshuang.net
源代码的语法结构的抽象树状表示。源代码就著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。是一串字符串,该字符串是一种语法结构,既本文作者:唐霜,转载请注明出处。【原创不易,请尊重版权】然是结构,那么就可以通过某种形式进行表示本文作者:唐霜,转载请注明出处。著作权归作者所有,禁止商业用途转载。,而AST就是其中的一种表示方法,它的特著作权归作者所有,禁止商业用途转载。本文版权归作者所有,未经授权不得转载。点是将语法结构抽象成一个树状的数据结构,【原创不易,请尊重版权】【版权所有】唐霜 www.tangshuang.net在js中就是一个树状的对象结构。
著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。转载请注明出处:www.tangshuang.net
【本文受版权保护】【转载请注明来源】【原创内容,转载请注明出处】
3. 怎么得到AST
原创内容,盗版必究。【未经授权禁止转载】【访问 www.tangshuang.net 获取更多精彩内容】本文版权归作者所有,未经授权不得转载。
一般分为两步,第一步是通过一个token【原创内容,转载请注明出处】【本文受版权保护】izer方法,遍历原始字符串得到一个一维原创内容,盗版必究。【未经授权禁止转载】数组,这个一维数组称为tokens。第二原创内容,盗版必究。转载请注明出处:www.tangshuang.net步是通过一个parser方法,遍历tok本文版权归作者所有,未经授权不得转载。著作权归作者所有,禁止商业用途转载。ens得到一个树状结构的对象,这个对象被【访问 www.tangshuang.net 获取更多精彩内容】【原创内容,转载请注明出处】称为ast。
【本文首发于唐霜的博客】原创内容,盗版必究。【版权所有】唐霜 www.tangshuang.net本文作者:唐霜,转载请注明出处。
未经授权,禁止复制转载。本文版权归作者所有,未经授权不得转载。【转载请注明来源】【关注微信公众号:wwwtangshuangnet】
4. tokenizer方法
本文版权归作者所有,未经授权不得转载。转载请注明出处:www.tangshuang.net【版权所有】唐霜 www.tangshuang.net
本质上,就是如何去切割字符串。首先,我们【访问 www.tangshuang.net 获取更多精彩内容】【版权所有】唐霜 www.tangshuang.net要定义自己的语法,去寻找语法中的关键字。【版权所有,侵权必究】【未经授权禁止转载】比如,我们定义「如果一等于一,那么显示“【原创内容,转载请注明出处】【未经授权禁止转载】成功”。」这句话的内在逻辑,实际上是通过原创内容,盗版必究。【原创内容,转载请注明出处】“如果”“等于”“那么”“显示”以及双引著作权归作者所有,禁止商业用途转载。原创内容,盗版必究。号和句尾的句号表示的。每一个关键字,都有【版权所有,侵权必究】未经授权,禁止复制转载。一个自己的类型,由被拆分之后得到的字符串【版权所有】唐霜 www.tangshuang.net本文作者:唐霜,转载请注明出处。段和每个段自己的类型组成的数组,就是to【作者:唐霜】【作者:唐霜】kens。所以「如果一等于一,那么显示“【本文受版权保护】本文版权归作者所有,未经授权不得转载。成功”。」的tokens就是【(“条件”原创内容,盗版必究。【版权所有,侵权必究】,“如果”),(“数字”,“一”),(“未经授权,禁止复制转载。本文作者:唐霜,转载请注明出处。判断”,“等于”),(“数字”,“一”)【版权所有】唐霜 www.tangshuang.net本文版权归作者所有,未经授权不得转载。,(“符号”,“,”),(“结果”,“那本文作者:唐霜,转载请注明出处。【本文受版权保护】么”),(“命令”,“显示”),(“文本【本文首发于唐霜的博客】【访问 www.tangshuang.net 获取更多精彩内容】”,”成功“),(”符号“,”。“)】
本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net
具体怎么做呢?随便怎么都可以,只要你得到【版权所有】唐霜 www.tangshuang.net本文作者:唐霜,转载请注明出处。正确预期的结果就行。
【原创内容,转载请注明出处】【原创不易,请尊重版权】本文版权归作者所有,未经授权不得转载。【本文受版权保护】
【本文首发于唐霜的博客】【本文首发于唐霜的博客】
5. parser方法
原创内容,盗版必究。【本文受版权保护】
和tokenizer非常像,也是在遍历过【作者:唐霜】本文版权归作者所有,未经授权不得转载。程中,逐渐生成和组合出一个树状的数据结构本文作者:唐霜,转载请注明出处。著作权归作者所有,禁止商业用途转载。。在遍历一开始,生成一个根节点,一般该节【原创内容,转载请注明出处】【原创不易,请尊重版权】点的类型叫Program,并用一个bod【作者:唐霜】【原创内容,转载请注明出处】y属性存放所有内部节点。根据碰到的tok【本文首发于唐霜的博客】【原创内容,转载请注明出处】en类型,创建一个节点node,或将该t原创内容,盗版必究。【原创不易,请尊重版权】oken的值作为当前节点的内容之一。总而【访问 www.tangshuang.net 获取更多精彩内容】本文作者:唐霜,转载请注明出处。言之,和tokens单纯的一个数组不同,本文版权归作者所有,未经授权不得转载。【原创内容,转载请注明出处】parser遍历过程中生成的ast是有嵌本文版权归作者所有,未经授权不得转载。著作权归作者所有,禁止商业用途转载。套结构的,比如一个函数或一个语句块,它本【关注微信公众号:wwwtangshuangnet】【作者:唐霜】身是一个节点,它的内容是节点的内容,而内【本文受版权保护】原创内容,盗版必究。容又是由多个平行节点,以及它们的子节点组【版权所有】唐霜 www.tangshuang.net【版权所有,侵权必究】成。
转载请注明出处:www.tangshuang.net【关注微信公众号:wwwtangshuangnet】
【未经授权禁止转载】本文作者:唐霜,转载请注明出处。【本文受版权保护】原创内容,盗版必究。
6. AST转换
本文作者:唐霜,转载请注明出处。未经授权,禁止复制转载。未经授权,禁止复制转载。
得到AST之后,我们就得到了关于一段代码本文作者:唐霜,转载请注明出处。著作权归作者所有,禁止商业用途转载。的抽象语法结构。但是,这段抽象语法结构必【未经授权禁止转载】未经授权,禁止复制转载。须要成为可以被计算机识别的代码,才可以在【原创内容,转载请注明出处】【本文受版权保护】计算机中运行,那具体怎么做呢?我们可以把【版权所有】唐霜 www.tangshuang.net【作者:唐霜】它转化为其他可以直接运行的编程语言之后,【转载请注明来源】原创内容,盗版必究。再以其他编程语言直接运行,比如转化为js【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。语言在浏览器中直接运行,或者python本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net在机器上运行,当然,还可以有其他选择,比【未经授权禁止转载】【原创内容,转载请注明出处】如直接转化为计算机指令运行,或者转化为c原创内容,盗版必究。著作权归作者所有,禁止商业用途转载。等语言,再编译后得到字节码运行。
本文版权归作者所有,未经授权不得转载。【访问 www.tangshuang.net 获取更多精彩内容】
怎么才能将上面的AST转化为其他语言运行【关注微信公众号:wwwtangshuangnet】著作权归作者所有,禁止商业用途转载。呢?也分两步:AST转换,代码生成。
【转载请注明来源】【版权所有】唐霜 www.tangshuang.net本文作者:唐霜,转载请注明出处。
AST转换就是将当前的AST转换为另外一【未经授权禁止转载】【访问 www.tangshuang.net 获取更多精彩内容】个AST。经过转换后,可以方便的生成另外未经授权,禁止复制转载。未经授权,禁止复制转载。一种编程语言。比如,上面的中文文本中的如【作者:唐霜】【作者:唐霜】果……那么结构,我们可以转化到shell原创内容,盗版必究。【作者:唐霜】脚本运行,而shell中表示如果……那么原创内容,盗版必究。著作权归作者所有,禁止商业用途转载。的语句是 if…then&#【原创内容,转载请注明出处】【关注微信公众号:wwwtangshuangnet】8230;fi 语句,所以,我们要将基于未经授权,禁止复制转载。转载请注明出处:www.tangshuang.net中文的这个AST转换为方便生成shell【转载请注明来源】【原创内容,转载请注明出处】语句的ast。
【原创内容,转载请注明出处】【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net【本文受版权保护】
著作权归作者所有,禁止商业用途转载。【作者:唐霜】
7. 生成代码
转载请注明出处:www.tangshuang.net【转载请注明来源】【原创内容,转载请注明出处】
在经过AST转化之后,得到一个新ast,【本文受版权保护】原创内容,盗版必究。而这个新ast,是比较方便新代码生成的a【版权所有】唐霜 www.tangshuang.net转载请注明出处:www.tangshuang.netst。什么样才方便生成新代码呢?生成新代本文版权归作者所有,未经授权不得转载。【本文受版权保护】码的过程,实际上也是一个遍历过程,在遍历【作者:唐霜】【作者:唐霜】过程中,不断组合成新代码的字符串。遍历结本文版权归作者所有,未经授权不得转载。【作者:唐霜】束的时候,就是新代码字符串完成出现的时候【本文首发于唐霜的博客】本文版权归作者所有,未经授权不得转载。。而由于ast是一个树状结构,遍历树的方【作者:唐霜】本文版权归作者所有,未经授权不得转载。法也很简单,所以,拼接字符串而已。
【本文受版权保护】【作者:唐霜】未经授权,禁止复制转载。
【版权所有,侵权必究】未经授权,禁止复制转载。
8. 提供修改ast的接口
【未经授权禁止转载】【本文首发于唐霜的博客】【未经授权禁止转载】
基于ast的js转化工具babel,提供【作者:唐霜】未经授权,禁止复制转载。了插件能力。它的插件主要是对已经解析好的【作者:唐霜】【作者:唐霜】es ast进行调整。同样的道理,我们一【版权所有,侵权必究】【关注微信公众号:wwwtangshuangnet】般会在这个过程中,提供一种让开发者调整a【本文首发于唐霜的博客】本文版权归作者所有,未经授权不得转载。st的接口。
【本文首发于唐霜的博客】未经授权,禁止复制转载。著作权归作者所有,禁止商业用途转载。
通过这种调整,开发者可以控制最终输出的代本文作者:唐霜,转载请注明出处。【转载请注明来源】码。比如调整代码输出的顺序,只需要改变a本文版权归作者所有,未经授权不得转载。【本文首发于唐霜的博客】st中节点的顺序即可。
著作权归作者所有,禁止商业用途转载。【作者:唐霜】
但是你会发现,要通过babel支持新语法著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。则比较麻烦。比如,我们要支持一个@@的语原创内容,盗版必究。【版权所有】唐霜 www.tangshuang.net法,非常麻烦,我们需要克隆babel的代【本文首发于唐霜的博客】【原创内容,转载请注明出处】码,然后自己去修改babel解析器中的逻原创内容,盗版必究。【未经授权禁止转载】辑,才能完成这个语法添加。这是因为,ba本文作者:唐霜,转载请注明出处。【本文受版权保护】bel并没有直接提供tokenizer和转载请注明出处:www.tangshuang.net【关注微信公众号:wwwtangshuangnet】parser的接口。
本文作者:唐霜,转载请注明出处。【版权所有】唐霜 www.tangshuang.net转载请注明出处:www.tangshuang.net【作者:唐霜】
本文版权归作者所有,未经授权不得转载。【作者:唐霜】【访问 www.tangshuang.net 获取更多精彩内容】未经授权,禁止复制转载。
9. 编译器
本文作者:唐霜,转载请注明出处。【版权所有】唐霜 www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】
这样我们就发明了一门新编程语言,用中文来本文作者:唐霜,转载请注明出处。【本文受版权保护】编程。虽然它的能力还比较弱,只支持简单的【原创内容,转载请注明出处】【版权所有】唐霜 www.tangshuang.net加减乘除,但是,你会发现用中文写代码,比【本文首发于唐霜的博客】【原创内容,转载请注明出处】英文写代码代码量更少,且表达更准确。
转载请注明出处:www.tangshuang.net【未经授权禁止转载】【原创内容,转载请注明出处】
本文版权归作者所有,未经授权不得转载。【本文首发于唐霜的博客】【未经授权禁止转载】
10. AST还能干什么?
【关注微信公众号:wwwtangshuangnet】未经授权,禁止复制转载。
我在腾讯内完成了一个从模板到界面的功能,转载请注明出处:www.tangshuang.net原创内容,盗版必究。我让客户按照我提供的特定标识进行模板撰写【原创不易,请尊重版权】【版权所有,侵权必究】,而这样撰写出来的模板实际上就是有语法的【作者:唐霜】【本文受版权保护】文本。借助ast,这些模板被解析为特定的【版权所有】唐霜 www.tangshuang.net【作者:唐霜】ast,而利用这个ast,我做了3件事:【版权所有】唐霜 www.tangshuang.net【转载请注明来源】1)语法高亮,客户写模板时,有颜色提示;【本文受版权保护】【本文首发于唐霜的博客】2)实时预览,客户写模板时,可以实时看到未经授权,禁止复制转载。【访问 www.tangshuang.net 获取更多精彩内容】模板解析为表单后的界面效果;3)生成表单原创内容,盗版必究。转载请注明出处:www.tangshuang.net,ast和react结合,直接生成表单。
【关注微信公众号:wwwtangshuangnet】【原创内容,转载请注明出处】本文作者:唐霜,转载请注明出处。未经授权,禁止复制转载。
总而言之,AST可以帮你把一个符合某种语【作者:唐霜】【原创不易,请尊重版权】法的字符串,转化为计算机系统中其他任意表著作权归作者所有,禁止商业用途转载。【作者:唐霜】现形式的目标。
【版权所有】唐霜 www.tangshuang.net未经授权,禁止复制转载。【本文首发于唐霜的博客】
转载请注明出处:www.tangshuang.net【原创不易,请尊重版权】著作权归作者所有,禁止商业用途转载。

本文作者:唐霜,转载请注明出处。【原创不易,请尊重版权】

2020-12-20 3673

为价值买单,打赏一杯咖啡

本文价值36.73RMB