232023.4

通向AGI之路:大型语言模型(LLM)技术精要

092023.4

从贝叶斯概率问题想开

如果一定的条件可以改变一个结果(事件发生)的概率,那么我们需要问一个问题:在事实不变的情况下,为何结果不同?这里我的本质是在问:结果是否为一个事实?很显然,答案是“不是”。这让我突然很容易理解很多以前无法理解的问题。例如双缝干涉实验,在这个实验中“事实”是什么?“结果”是什么?我们观察到的,最终是“结果”,而非“事实”。同理,在人类社会中,“事实”总是不变的,而“结果”是概率的坍缩。而概率的本质,就是不确定性,就是熵。我们人类社会,包括我们作为个体的人,都是在对抗这种不确定性。如今大火的AI,技术本质上,也是概率。可以说,在我想明白这个问题之后的人生中,几乎所有的与人类相关的问题的本质,都是概率问题。或许也正是因为概率的存在,我们相信平行宇宙的存在。

不过回到本质上,概率不能替代事实,概率会影响结果,而通过对抗不确定性,可以控制概率(或者不叫控制,而是通过阶段性结果让让不确定性发生坍缩),让原本未知的概率暴露在我们的已知中,从而失去其中部分概率的活性,让我们可以选择不同的条件,进而得到对自己更好的结果。而控制概率的方法(消除不确定性的方法)最主要的途径就是:获取有用信息!所以,在另一个层面上,我们这个宇宙的一切,由“物质(含能量)”和“信息”组成,其中“物质”是事实,而“信息”是使概率坍缩的要素,最终得到一个“结果”,这个“结果”才构成我们的现有宇宙,无论在哪一个维度上。

从我们社会的人个体的角度出发,我们要掌握从海量信息中,找出“有用的信息”,使我们未知的概率进行坍缩,基于坍缩后的概率进行重新选择,进而获得我们更有益的方向发展。

我在思考一个问题:“抛硬币游戏中,获得硬币正面和反面的结果,概率各自为50%”,在这个假设下,我们通过事实进行检验,抛1万次,事实正好符合这一假设。既然基于概率的假设能够得到相对准确的结果,那么是否“事实决定了概率”,且“概率是一定的(即条件不变的情况下,结果是一定的)”?很显然,没有任何证据证明“事实决定了概率”,也无证据证明“概率是一定的”。“事实”是固定的,不变的,而“概率”是被赋予的,被谁赋予,我们并不知道。“概率”是否是“一定的”,这我更无法进行辩论,但从客观观察来看,它确实是固定的。我们平日里讲“本来胜出的概率是50%,但是现在发生了XX情况,现在胜出的概率是90%”,并非指单一概率,而是条件概率,对于50%和90%而言,都是在特定条件下,但是可以肯定的是,这两个概率,是固定的,你不会说“我胜出的概率既是50%,也是30%”。也就是说,概率是先验的,是不管统计是否存在都一定存在的客观,硬币不会因为不进行统计就不会抛1万次有大概5000次正面朝上。

最后,回到最开始,一个最严重的问题:基于概率的结果所带来的影响,是否是“事实”?这个问题我是在问,如果假设我们前一刻的因,所带来的果又会成为下一个果的因,那么是否意味着宿命论和轮回?这个问题如果能回答,那么就能回答平行宇宙以及等等相关的问题。我们来举一个例子,我们买彩票,是否在我们选定了彩票号码的那一刻,我们是否中奖的结果就已经决定了?再来一点更猛的,是否一开始,所有参与这次开奖的人是否中奖的结果,都在同一时刻被决定了。(因为我们在买完号码之后,不能更改号码,只能等待开奖。)按照我们今天的这个假设,结果并不是一开始就决定的,而是在概率的流动过程中,渐渐坍缩出来的。对与买彩票是否中奖这件事,它因为我们购买彩票的动作发生在彩票开奖之前,所以,我们是无法根据概率的坍缩调整其条件的,因此,无法基于条件选择而影响结果。

概率复杂度是由结果的数量来决定的,结果的数量(可能性)越多,得到某一结果的概率越小(事件发生的次数与总次数的比值)。但是,概率的大小并不是由其数量决定,而是由什么决定呢?这里我不得而知。虽然从从概率学的角度,我们可以计算概率,或者通过实验统计获得概率,但是为什么其结果如此,并没有证据。这里,我的意思是,概率大小是客观的,不随我们的计算和实验发生变化,因此,不是由后验的理论和实践决定的。在宇宙的尺度,是由哪一只看不见的手决定了概率的大小,以我们目前的技术是无法验证的。

还有一个事情就是蝴蝶效应,我们现在做一个思想实验,假设,现在事件A有A1, A2, A3三个结果,事件A发生的时候,恰恰B事件也发生了,我们此刻不知道B事件是否与A事件有关联,于是我们开始反复做实验,并得到事件B的概率:

P(B)=P(A1)P(B|A1) + P(A2)P(B|A2) + P(A3)P(B|A3)

是否意味着,A和B一定存在某种概率上的联系,如果是“一定”的,那么是否意味着隔壁家的猫走丢了,和我今晚吃了红烧肉之间一定存在某种联系?如果这种联系,被我们以某种技术提前知悉,是否意味着我们可以通过概率的手段,实现很多看上去不可能做到的事。

最后,作为普通人,作为在这个社会中生存的个体,我们要尝试利用概率,发现概率与结果的规律,并克服人类本能里面的直觉,以获得超越普通常识和人伦约束的顺应自然。

总结一下,本文涉及的一些点:

  • 客观世界=物质(含能量)+信息
  • 事实,即“客观世界”,是特定的,客观的,唯一的
  • 因为时间的存在,客观世界存在状态,状态是流动的,发散的,持续演进的
  • 在这一流动中取一个客观世界状态的截面,就是“结果”
  • 同一事实对应不同结果,结果是不唯一的,多态的,但其本质是事实的表象
  • 结果是由概率坍缩而成的
  • 概率的本质是不确定性、可能性,即“熵”
  • 概率是客观的,先验的,不以是否统计而存在
  • 概率大小的决定因素目前未知,从宇宙尺度上存在某种规定概率大小的力量
  • 信息是消除不确定性的唯一要素,且只有有用信息能达到这一目的
  • 虽然单一截面上的概率是确定的,先验的,不以是否统计而存在
  • 但流动过程中,概率会不断叠加,因此,由于时间的存在,概率在流动中整体表现为动态的,某一结果并不是概率的简单累积
  • 存在一种假设,某一“果”是另一“果”的“因”,即“结果n=结果n-1*概率”
  • 由于信息能消除不确定性,因此在“结果n-1”上通过获取有用信息进行积极选择,可以使“结果n”的可预见性更清晰
  • 人类无法改变事实和概率本身,但可以通过选择来获得不同结果,通过这种方式来叠加概率,以达到拥有符合自身预期的客观世界流动方向的目的
  • 单一个体和社会群体之间存在某种联系,以使得不同单一个体的选择趋势客观世界流向趋于一致
  • 单一个体要掌握获取有用信息的可靠渠道来让自己消除不确定性
  • “通过有用信息消除不确定性并进行选择”的本质是利用条件概率,即找出“基于事件A的结果An发生事件B的概率”的合理n
  • 上述这种行为的本质,是一种利用概率的技术
20:15:13 已有0条回复
222023.3

asciinema 录制命令行工具

162023.2

跨界面数据同步更新:基于抽象数据源的前端数据管理模式

在一个应用中,同一个数据源被用在不同场景下,会被反复请求,数据更新后不太容易同步更新关联数据源,我们通过抽象数据源,提出了一套可充分管理数据的系统化方案。

前端开发中,从后端提供的接口请求数据和提交数据是非常基础的工作,但在我们很多业务中,我们会发现跨界面的数据同步更新成为非常棘手的问题。我认为,由于很大一部分前端对数据管理的方式非常粗糙,给后续很多开发工作和产品体验都带来了问题,要解决这一问题,我们需要从更深的层面去思考“前端数据管理”的设计问题。本文将结合我们腾讯投资项目组的实战经验,聊一聊我对这个问题的思考和实现方式。

背景

前端开发逐渐成熟,但于此同时也存在诸多问题。具体到本文的场景下,成熟是指我们的开发模块化、逻辑分离化,有很好的分层趋势,而诸多问题是指由于前端编程本身的一些局限以及生态的不成熟,在分层趋势下无法优秀的处理跨层级的通信传递问题。

我们以tapd的一个例子为例来看看。当我们在任务列表中更新了某个单的状态时,可以通过一个快捷弹窗进行更新,更新后新状态会被同步到列表中,这个体验非常好:

 

但是,当我们打开单的详情,在详情界面更新状态时,在点击关闭之后,状态却没有同步到列表,这个体验就不那么如人意:

 

当然,对于tapd团队来讲,他们可以有办法解决这个问题,甚至这个情况可能是他们的一个bug,漏掉了一段代码。但是,我们不针对tapd的这个情况,我们要思考的是,当我们在列表和详情两个页面进行操作时,如何在这两个界面之间同步数据的更新呢?

我们经常在一个页面,甚至跨层级的组件之间有类似的操作。在一个页面的某个角落里面进行了某个编辑,提交之后,要同步更新页面大老远的另外一个角落的数据,因为它们是关联的,可能其中一个是依赖另外一个进行计算得到的数据,当被依赖的数据发送变化时,依赖者应该及时更新,否则界面上就会出现数据不一致的问题,是明显的业务错误。

但是我们在开发时,往往这两个地方是分两个组件开发的,而且很有可能这两个组件之间跨了十万八千里的层级,想要轻易通信没那么容易。面对这样的场景,我们应该如何去思考,如何去找到一种合理的方式呢?

备选方案

愚公移山法

例如上面的两个组件我们称为A和B,其中B组件内可能发生更新,更新后需要同步更新A组件。我们通过在A上暴露出一个方法,通过组件网络,层层传递,把这个方法传入到B中,当B完成更新后,调用这个方法,这个方法会帮助A重新请求数据,并完成界面更新。

全局状态法

我们建立了一个全局状态,该状态同时被A和B使用,当B完成更新后,我们重新请求数据,把新的数据写入到全局状态,引起两个组件的同时更新。但是有一个问题,我们是否需要基于不同的业务对象ID存储无数个类似的全局状态?

事件通知法

使用类似EventBus一类的事件管理器,在B完成更新后,广播一个事件,A监听该事件,在监听回调中重新请求数据并更新界面。问题在于,我们怎么确保庞大的系统中,事件名是唯一的?

问题的本质

我们经常讲,界面是状态反映。在这中间,我们没有提到数据是什么。我们从后端拉取的数据是什么呢?是状态?是其他?这是问题其一。问题之二是,我们现有的编程技巧中,把数据请求回来作为渲染界面的依据,这种处理方式直接把数据的来源与界面进行了绑定,以至于对数据的过度依赖致使UI编程无法以纯粹的方式表达界面本身的呈现。另一方面,数据源和界面的点对点关系,忽略了数据本身的意义,破坏了数据本身的联动性,使得这种联动必须依赖于UI编程中的某种触发,而非其自己实现闭合回路。数据本身的生命形态被打破,UI编程又被数据锁死,这是导致本文所指问题的关键根源。

一种数据源管理服务层设计

万事不决,分离一层。

我认为,在我们纯粹的UI编程和数据之间缺少一层隔离,所以界面和数据源之间是直接点对点绑定的,就像电话两头一样,只能两个人参与。而我们所面临的问题需要我们像水管一样,水源来了,你可以洗手盆出水,也可以花洒出水,都是用水,但用法不同,是一对多分发式参与。

在数据源和具体界面之间,并非一对一的关系,而且很多情况下,一个界面不一定只依赖一个数据源。因此,我们应该可以有这样一种形态:界面只管取数据来用,数据从哪里来我并不关心;于此同时,数据变了,我界面跟着变。通过这种隔离,让数据本身的生命由数据层自己掌控,让UI界面编程不在乎后端接口的绑架,从而做到两端的分离。

我们举个例子来感受一下:

我现在有了一个数据,它的格式为 { name: string, count: number },那么在任何界面中,我都可以将它取出来用,至于这个数据从哪里来,此刻我们并不关心。我们的组件需要用到这个数据,因此,我们把它读取出来。当这个数据发生变化(比如提交了更新,或者websocket推送了新数据)的时候,我们的界面随之变化。我们的组件只是像某个东西索取了这份数据,并且基于typescript,我们知道这份数据的格式和类型,至于这份数据是怎么来的,是从后端接口拉取的还是从缓存读取的,是由单一接口还是多个接口组合而来的,对于我组件而言,我不关心,我只关心我能拿到这份数据。

function SomeComponent() {
  const [data] = useDataSource(SomeDataSource)
  const { name, count } = data

  return (
    <div>{name}: {count}</div>
  )
}

那么这个数据是怎么来的呢?当然是从我们的后端接口来的了。

const SomeDataSource = source(async () => {
  const data = await fetch('...')
  return data
}, { name: '', count: 0 })

这个数据可能发生变化,什么时候发生变化呢?当然是某次更新操作之后。

await postData(data)
await renew(SomeDataSource)

当执行 `renew` 时,SomeDataSource 中的请求函数会被再次执行,新拿到的数据将作为 SomeDataSource 的新数据,由于这一变更会带来 useDataSource 内部实现的状态变更,从而引起 SomeComponent 的重新渲染。

假如,我们在另外一个组件中也使用了该数据源:

function Some2Component() {
  const [data] = useDataSource(SomeDataSource)
  ...
}

那么,当 SomeDataSource 中对应数据的变化,就回同时带来 Some2Component 的重新渲染。

你可能会说,这有什么,感觉完全没什么难度。但是一旦你开始按照这种思路去设计和架构你的代码,你就会发现,数据和组件开始分离,组件专注于使用数据,而数据有了自己的生命形态。

数据源管理服务层

在腾讯投资项目中,我们建立了一层服务层,专门用于管理对应的数据源,称之为数据源管理服务层。数据源管理和数据请求是两个层面的事物,数据请求负责从服务端拉取数据,二数据源管理负责管理这些数据。“数据源”是一个抽象,例如我们有一个叫做“项目详情”的数据源,但它并不代表一个具体的接口数据,而是代表项目这个概念的数据,抽象和具体的关系,类似interface和implements的关系。这个“项目详情”数据源,可能对应无数个具体项目的数据,但是它是一个源,它内部组织着不同项目数据的存储,所以它是一个管理工具。

数据源对象维持着数据,这些数据在组件中被读取。但是,在没有组件之前,我们就可以对数据源进行编程。我们以某些具体的需求为目标,建立数据源,数据源的目标是像下游提供数据,所以它只关心输出的数据是准确的,而不关心数据从哪里来。数据源定义拉取数据时,我们可以从两个接口挑选对应数据组合起来作为数据源对应的数据。例如一个具体的项目详情,它需要包含项目的基本信息,也需要包含这个项目内的交易信息,但是对于后端而言,这两个信息是分开的,由两个接口提供,因此,我们在建这个数据源时,我们从这两个接口拿到数据,并合并为一个数据,存储在数据源中等待被使用。

projectDetail = source(async (projectId: string) => {
  const [project, transactions] = await Promise.all([
    fetch('project info', projectId),
    fetch('transactions info', projectId),
  ])
  return { ...project, transactions }
}, )

上面这段演示代码演示了我们如何创建这个数据源。当然,这不是一个标准做法,因为我们的数据可能从各种渠道来,甚至是本地持久化存储。

接下来,我们要讨论的就是“数据自己的生命循环体”。

我们在项目中创建了一个 DataService 的基类,该类内部实现了上述数据源管理的能力。我们通过一个具体的 DataService 来管理某一组有关联的数据源,它们之间构成了数据自己的生命循环体。我们来看下例子:

class ProjectService extends DataService {
  // 项目详情
  projectDetail = this.source(async (projectId: string) => {
    const [project, transactions] = await Promise.all([
      fetch('project info', projectId),
      fetch('transactions info', projectId),
    ])
    return { ...project, transactions }
  }, {})

  // 项目列表
  projectList = this.source(async () => {
    const data = await fetchProjectList()
    return data
  }, [])

  // 更新项目基本信息
  updateProject = this.action(async (projectId: string, data: IProjectData) => {
    await httpPut(`.../${projectId}`, data)
    await Promise.all([
      this.renew(this.projectDetail, projectId),
      this.renew(this.projectList),
    ])
  })
}

我们用这个最简单的例子来说明。对于项目而言,我们往往需要读取项目列表,和某个具体的项目详情,同时有更新项目基本信息,实际上,我们还会有更多,例如获取项目的某些统计数据等等。

当我们更新项目基本信息的时候,我们需要 renew 项目详情和项目列表数据。

关键的来了。

“我们现在已经对项目相关的数据了如指掌,且它们已经自成体系了。”以往,我们很难表达这种感觉,就是我们还没有去考虑交互上的点击提交等操作之前,我们的数据自己已经动起来了,而且形成了完整的闭环。即使脱离了界面的环境,这部分代码都非常有价值。对于 ProjectService 而言,它可以被实例化,以维持数据,也可以被垃圾回收,释放内存。

我们弱化了“请求”这个动作,强调了“数据”这个存在。以往我们要为一个字段的选项列表提供数据,我们常常是在组件中创建一个状态,然后用一个请求把列表拉回来,再给这个状态,把这个状态作为选项列表。但是,在我们项目中,我们强调数据,一个数据源是一个对象,因此可以被作为一件物品进行传递,在组件中我们接收这个对象,从该源对象中读取数据,过程中,我们不关心请求这个动作。

这种有价值的数据管理,在我们项目中,被独立为数据源管理服务层,它向应用中的很多地方提供数据,不单单是组件里面,还有一些计算,一些判断查询,还有模型中提供某个字段的选项列表,它形成了一套独立的服务体系。

业务模块的组织

在我们的代码中,我们习惯于将相关的代码放在一起,用以表达某种高内聚的关联关系。在我们的项目中,我们有两种组织的单元,一种称为Subject,它和具体的界面无关,甚至和应用的呈现无关,它具有纯粹的业务描述,基于DDD的理念进行建模;另一种是Module,是基于某个具体业务而组织在一起的代码,狭义的理解,你可以把一个Module理解为应用中某个模块,例如项目模块、付款模块、签署模块等等。而“数据源管理服务层”虽然被称为一层,但并不代表数据源的定义代码被集中放在一起管理,相反,我们遵循上述组织单元的原则,Subject中有自己的数据源管理服务,Module中也有自己的数据源管理服务。

业务与UI分离

数据源管理服务层是通用的,且与业务逻辑一起,被放在公共实现部分,基于这一设计,不同端不需要重复实现相同的数据请求,当然,实际上在我们实现UI时,我们会忘记“请求”这个概念,我们不“请求”,而是“索要”,向数据源索要需要的数据。感官上,我们在写组件时,很难直接与数据请求打交道,甚至脑海中不需要有“请求”的概念,只有当我们再做骨架屏,需要一个加载状态时,需要数据源管理服务层暴露一个 loading 的状态给到组件使用。

当写组件更纯粹的专注于UI和交互本身,而不是处理一大堆和请求、数据、业务逻辑相关的东西时,我们的写作会被解放出来。随着数据管理的清晰化,前后端在某种层面上形成了一种规范,例如每一个实体需要提供对应的详情、列表、编辑、更新、选项等接口,基于这一规范,开发效率也会有所提升。

跨组件数据联动

数据的动作,和前端没有直接关系,甚至不一定是前端提交数据带来的,例如系统中有一个定时机制,在特定时间会更新数据。在上面的示例代码中,我们有 projectDetail 和 projectList 两个数据源。我们往往在两个不同的界面中使用这两个数据。但当某个项目发生变化时,这两个界面都应该被实时更新。

function ListPage() {
  const service = useService(ProjectService)
  const [listData] = useDataSource(service.projectList)
  // 使用 listData
}

在列表页使用列表数据。

function DetailPage() {
  const { projectId } = useRouteParams()
  const service = useService(ProjectService)
  const [detailData] = useDataSource(service.projectDetail, projectId)
  // 使用 detailData
}

在详情页使用详情数据。

我们把系统中的所有 Service 设计为可使用单例的对象,所以上面两个组件实际上使用了相同的 ProjectService 的单例。

上面这两个页面在数据使用上,看似没有任何联系,但在 DataService 层面,它们是有联系的,当项目数据发生变化时,详情和列表都会更新。但对于组件的开发者,并不需要去关心这一点,组件开发者只需要关心自己使用了自己需要的数据。这符合 Clear Architecture 的理念,我们在写内层的实现时,不应该考虑外层的应用。

function ProjectEditForm(props) {
  const { projectId } = props
  const service = useService(ProjectService)
  
  const handleSubmit = async () => {
    const data = generatePostData()
    await service.request(service.updateProject, projectId, data)
  }

  // ...
}

在表单中更新项目基本信息。

当更新完成之后,在 ProjectService 里面,它调用 renew 来更新当前项目和项目列表的数据,从而让 ListPage 和 DetailPage 作出对应的变更。上面三个组件中,我们不需要去处理它们相互之间的联动关系,因为这个动作是由数据层完成的,而非表现层。而且,实际上,除了表现层可能用到这些数据,逻辑层也可能用到,这意味着除了界面的变更,实际上我们在逻辑层的处理也可以被重新执行。

前端项目的分层设计让不同部分的职责更单一,前端框架则负责在各个层之间建立响应式关系。

效果预览

在投资信息中,投资方和被投方有约见记录,录入约见记录是一个非常简单的操作。我们来看下,在这个录入操作下,使用上述方案的实际效果。

 

约见记录列表陈列了该公司已有的约见,当点击添加约见时,会进入到一个新页面(新路由),完成添加之后,会回到这个页面,而回来时,我们新增的约见被读取了出来。在两个页面之间进行不同的数据存取操作,虽然动作本身是分开的,但是它们存在内在的联系。在 DataService 中,将这两种内在联系绑定在一起,因此,完成提交操作时,列表数据源需要随即进行更新。但在组件开发时,我们不需要去关心这种内在联系,因为对于列表组件而言,我们不需要也不应该想着数据的更新,同时,添加表单组件也不可能穷举出自己需要联动触发哪些组件更新。对于这两个组件而言,它们只专注做自己的事情,把数据的联动交给数据源管理服务层。

结语

在腾讯投资相关系统中,经常使用这种模式。无论PC端还是APP端,使用这种模式进行开发可以让我们比较轻松的完成跨界面的数据联动。这种模式,首先将数据管理从UI编程中独立出来,建立一层数据源管理服务层,并且在该层中构建了数据自身的生命循环体;接着,借助框架的能力,让数据管理工具具备响应式能力,并通过hooks封装,让组件可以在数据发生变化时进行更新;最后,在UI编程时,开发者不需要思考自己的动作会触发其他哪些组件的变更,也不需要记着自己需要依赖其他组件的动作来重新渲染,开发者专注完成自己的实现,而把这种跨组件的联动交给数据源管理服务层和封装的hooks函数来实现。前端数据层在以往我们很少去深入思考,无非就是请求数据,但是,在这种数据管理模式下,我们实现了架构上的分层,让数据自治,把数据的管理从组件体系中分离出来,这使得数据本身更封闭更聚合,同时当为其他部分(UI或某些逻辑判断)提供服务时,具有更开放更简洁的出口。当然,这一模式在某种程度上,依赖项目代码的整体架构设计,没有分层的架构设计理念,很难适应这种模式,同时,它也依赖于某些技术上的实现,不然没法做到那么高程度的封装。不过,相信这种设计在很多业务系统中,需要跨组件跨界面实现数据联动的场景下,具有不错的借鉴意义。

09:56:33 已有0条回复
022023.2

vscode里面命名下划线替换为驼峰

方法很简单,利用替换功能实现

基于正则,注意大小写

11:10:34 已有0条回复
302023.1

基于构建的无侵入类方法实现:用webpack loader来改写原始类

在项目中我们需要针对不同的平台(Web和Native)做不同实现,在抽象中实现大部分功能,把细节实现留到具体平台的代码中,但是一直没有找到好的方法,如果直接在入口文件中引入实现文件,就会导致原始代码被打包的启动文件中,文件体积变大,但如果使用import()又无法确保每次代码加载都是ok的,总不可能自己实现顶层的await import,另外这些实现常常是侵入式的,需要对原始类进行方法覆盖。今天想到一种基于构建工具的无侵入式实现,这里无侵入是指把实现作为旁路代码,而不是主体入口代码。这种旁路代码有点像依赖注入,但是是从构建工具的角度来做,实际上也很简单,通过webpack的loader,把原始代码进行改写,把实现代码合并到原始代码中去。

/* eslint-disable @typescript-eslint/no-require-imports */

const fs = require('fs');
const path = require('path');

module.exports = function (contents) {
  const { resourcePath } = this;
  const options = this.getOptions();
  const { abstractDir, implementDir } = options;
  if (resourcePath.indexOf(abstractDir) === 0) {
    const implementFilePath = path.resolve(implementDir, resourcePath.replace(abstractDir, '.'));
    if (fs.existsSync(implementFilePath)) {
      const implementContents = fs.readFileSync(implementFilePath).toString();
      const newContents = composeFileContents(contents, implementContents);
      return newContents;
    }
  }
  return contents;
};

function composeFileContents(sourceContents, implementContents) {
  const sourceLines = sourceContents.split('\n');
  const implementLines = implementContents.split('\n');
  implementLines.shift(); // 去掉第一行,第一行是对原始文件(要被实现的文件)的引入

  const { imports: sourceImports, codes: sourceCodes } = splitCodes(sourceLines);
  const { imports: implementImports, codes: implementCodes } = splitCodes(implementLines);

  const { contents: imports } = composeImports(sourceImports, implementImports);
  const { contents: codes } = composeCodes(sourceCodes, implementCodes);

  return `${imports}\n${codes}`;
}

function splitCodes(lines) {
  const imports = [];
  const codes = [];

  let reach = false;
  let incomment = false;

  lines.forEach((line) => {
    const text = line.trim();
    const push = () => {
      if (reach) {
        codes.push(line);
      } else {
        imports.push(line);
      }
    };

    // 忽略注释
    if (text.indexOf('/*') === 0) {
      incomment = true;
      push();
      return;
    }
    if (text.substring(text.length - 2) === '*/') {
      incomment = false;
      push();
      return;
    }
    if (incomment) {
      push();
      return;
    }
    if (text.indexOf('//') === 0) {
      push();
      return;
    }

    if (text.indexOf('import ') === 0) {
      imports.push(line);
    } else {
      codes.push(line);
      reach = true;
    }
  });

  return { imports, codes };
}

function composeImports(sourceImports, implementImports) {
  // TODO: 需要考虑如果import了相同的变量名的问题
  const importMapping = {};
  const importVars = {};

  sourceImports.forEach((line) => {
    if (line.indexOf('import ') !== 0) {
      return;
    }
    const { vars, src, def } = parseImport(line);
    importMapping[src] = { vars, src, def };
    if (vars) {
      vars.forEach((v) => {
        importVars[v] = true;
      });
    }
    if (def) {
      importVars[def] = true;
    }
  });

  // TODO: 暂时未考虑default的冲突问题
  implementImports.forEach((line) => {
    const { vars, src, def } = parseImport(line);
    if (importMapping[src]) {
      const importVars = importMapping[src].vars;
      // TODO: 暂时未考虑import as后的变量名冲突问题
      if (vars && importVars) {
        importVars.push(...vars);
      }
    } else {
      importMapping[src] = { vars, src, def };
    }
  });

  // 先处理原始的
  const results = [];
  sourceImports.forEach((line) => {
    if (line.indexOf('import ') !== 0) {
      results.push(line);
      return;
    }
    const { src } = parseImport(line);
    const importText = createImport(importMapping[src]);
    results.push(importText);
    delete importMapping[src];
  });

  // 再处理多出来的
  const srcs = Object.keys(importMapping);
  srcs.forEach((src) => {
    const importText = createImport(importMapping[src]);
    results.push(importText);
  });

  return { contents: results.join('\n') };
}

function composeCodes(sourceCodes, implementCodes) {
  const source = sourceCodes.join('\n');
  const imports = `(function() {
    ${implementCodes.join('\n')}
  } ())`;
  return { contents: `${source}\n${imports}` };
}

function parseImport(importLine) {
  const [, exp, src] = importLine.match(/import ([\w\W]+) from ['"](.*?)['"]/m);

  const parseVar = (txt) => {
    // if (txt.indexOf(' as ') > -1) {
    //   const [, v] = item.split(' as ');
    //   return v.trim();
    // }
    const t = txt.trim();
    return t;
  };
  const parseVars = (txt) => {
    const t = txt.substring(1, txt.length - 1);
    const items = t.split(',');
    const list = items.map(parseVar);
    return list;
  };

  const txt = exp.trim();
  if (/^\{.*?\}$/.test(txt)) {
    const vars = parseVars(txt);
    return { vars, src };
  }
  if (/^\w+,.*?\}$/.test(txt)) {
    const [d, i] = txt.split(',').map((item) => item.trim());
    const vars = parseVars(i);
    const def = parseVar(d);
    return { src, vars, def };
  }
  const def = parseVar(txt);
  return { src, def };
}

function createImport(mapItem) {
  const { vars, src, def } = mapItem;
  if (def && vars) {
    return `import ${def}, { ${vars.join(', ')} } from '${src}';`;
  }
  if (def) {
    return `import ${def} from '${src}';`;
  }
  if (vars) {
    return `import { ${vars.join(', ')} } from '${src}';`;
  }
  return '';
}

这里的实现方式比较暴力,就是通过替换的形式,把实现代码合并进原始代码。这些代码一般被放在一个叫 @implements 的目录中,没有任何其他文件引用它们,构建工具根据其给定的路径进行匹配,如果路径匹配上了,就执行合并逻辑,因此称它们为旁路代码。不过,如果原始文件中缺少这部分实现,则无法运行。

虽然这种方式割裂了代码本身的逻辑,无法通过编辑器的源文件链接找到,但是,这种方式借助构建工具,使得代码层面更加清晰,最终的产物更加合理(主体代码中不存在与之无关的代码)。

19:50:01 已有0条回复
222023.1

如何终止fetch发出的请求?

我们知道xhr可以调用abort来终止请求,但是fetch如何终止却鲜有人知,其实非常简单,只是我们不够了解,即使用AbortController,具体如下:

const controller = new AbortController();
const signal = controller.signal;

const url = "video.mp4";
const downloadBtn = document.querySelector(".download");
const abortBtn = document.querySelector(".abort");

downloadBtn.addEventListener("click", fetchVideo);

abortBtn.addEventListener("click", () => {
  controller.abort();
  console.log("Download aborted");
});

function fetchVideo() {
  fetch(url, { signal })
    .then((response) => {
      console.log("Download complete", response);
    })
    .catch((err) => {
      console.error(`Download error: ${err.message}`);
    });
}

即在fetch时传入signal作为信令,当调用controller.abort()时,该信令就会发出终止请求的信号,fetch发出的请求就会被终止,其Promise会抛出一个AbortError。

21:47:53 已有0条回复
032023.1

前端代码中,哪些可以抽象,哪些不可以?

抽象的目的绝对不是复用,而是为了清晰的设计。从某种意义上讲,抽象分为两种,一种是绝对抽象,只有神态,没有实体,另一种是轮廓抽象,或者半抽象,有了基本的架子,留下空间去具体化。前一种我们常称之为接口interface,后一种我们常称之为抽象类abstract class。对于前端代码而言,在传统前端开发模式中,不存在这两种中的任何一种,对于abstract class则可能存在一些雏形,例如:

class Some {
stay() {
throw new Error('stay should be overrided')
}
}

此类处理虽然可行,但是在最终代码中会多出来许多没有用的代码,增加代码量。只有在我们引入ts之后,才有了真正的抽象代码。例如:

abstract class Some {
abstract stay(): void
}

这段代码定义了一个抽象类,它不能被new实例化,只能被extends扩展。扩展时,带有abstract前缀的成员必须被实现,否则编译阶段会报错,而在最终生成的代码中,不存在这些abstract成员,这样就可以使代码量最小化。

在具体业务中,哪些内容可以抽象,哪些不可以呢?

其实对于前端而言,基于interface的抽象(业务层面)几乎没有,我们很少会去写一个用于描述业务的interface,而且这完全没有必要。我们大部分情况下使用abstract class进行抽象,甚至在大部分情况下,不需要abstract,直接使用class进行抽象。这里抽象脱离了技术层面的抽象,而是对业务进行抽象,同时由于大部分前端场景中,同一业务是固定不变的,因此,这类抽象可以被具体实现。例如对于同一对象实体,我们直接对其进行建模。再例如,我们直接对数据请求进行建模。对于数据的操作,我们进行建模。总之,你会发现,抛开界面和交互的一切,都是可以进行建模处理的,这个部分全部可以抽象出来,在代码中形成一块封闭的可扩展的代码块,需要时被取出来使用,不需要时不import,对当前毫无影响。

最麻烦的是界面和交互的抽象。

先看下交互的抽象,由于交互动作往往会引起界面的变化,所以我们在对交互进行建模时,就必须预留下可产生界面变化的abstract成员,从而可以使界面产生变化。例如:

abstract class SomeView extends View {
@inject(SomeController)
controller: SomeController

abstract confirm(message: string, onOk: Function): void

deleteItem(id) {
this.confirm('确定删除吗?', () => {
// 执行删除
})
}
}

上面代码中,我们预留了一个confirm方法,对于具体的某个view而言,必须扩展这个confirm方法来,为什么要留呢?因为confirm往往需要弹出一个对话框,同时,这个对话框一定是一个中间态,用户点击它的按钮之后,一定还会有后续界面变化。这种界面的流动过程,无法通过简单的处理来实现。当然,如果你想具体化,还可以借助react的state,例如:

class SomeView extends View {
state = {
showConfirm: false,
deleteItemId: null,
}

deleteItem(id) {
this.setState({ showConfirm: true, deleteItemId: id })
}

handleDeleteItem() {
// 执行删除动作
}
}

通过以上方式确实可以做到提供完整的动作,但是这就意味着必须按照react的状态管理模式进行编程,而且对于使用方来说,一个动作的方法太多了,在实现时,不仅要调用deleteItem还要再调用handleDeleteItem。不过,从另外一个角度看,这似乎又是正确的一种做法。

最后看下界面的抽象。这个时最难的,因为不同端端界面呈现是不一样的。比如PC和APP上。但是我们也不是不能做,其前提是开发者,或者项目的架构师,在前期规划了非常细腻的业务组件,我们所有的业务开发,基于已有的业务组件进行,我们写代码,更想写配置或DSL,比如下面:

<Page>
<ProjectBasicInfo />
<ProjectMembers />
<ProjectDeals />
<Tabs>
<CompanyInfo />
<FinancingInfo />
</Tabs>
</Page>

这样一段代码,更像是一个页面的结构描述,至于每一个部分都具体展示什么内容,怎么展示,界面交互怎样,PC和APP上的差异,全靠业务组件内自己去实现,通过这种方式来进行界面的抽象,可以最大程度的抹平不同端的差异,但是对团队和架构师的要求会比较高,当然收益也是显而易见的,就是效率很高。

11:42:09 已有0条回复