过滤视频/音频中的静音和停顿，让你的播客内容更加紧凑流畅-唐霜

Hello你好啊，好久不见。过去一段时间【原创内容，转载请注明出处】转载请注明出处：www.tangshuang.net，我写博客的次数变得很少，我之前关注的一【本文受版权保护】转载请注明出处：www.tangshuang.net些博主也逐渐抛弃了博客。一个非常令人沮丧【本文首发于唐霜的博客】未经授权，禁止复制转载。的现象是，现在的朋友们很少再关注博客，因原创内容，盗版必究。【版权所有】唐霜 www.tangshuang.net为通过大模型应用，获取知识变得极为便捷，本文作者：唐霜，转载请注明出处。【原创内容，转载请注明出处】而传统的播客往往依赖搜索引擎，随着大模型转载请注明出处：www.tangshuang.net本文版权归作者所有，未经授权不得转载。的发展，播客的内容被扒光，很多人也就再也原创内容，盗版必究。【关注微信公众号：wwwtangshuangnet】没有动力写博客。对我而言，写博客，可能只本文版权归作者所有，未经授权不得转载。本文版权归作者所有，未经授权不得转载。是换一种方式来表达自己，因此，偶尔还是会【转载请注明来源】未经授权，禁止复制转载。写一些，这种写作的心态，不去对抗AI抓取【本文首发于唐霜的博客】【转载请注明来源】的焦虑，仅仅是自己的一种表达。

未经授权，禁止复制转载。【作者：唐霜】

起因

在过去几年里，我其实做了很多期播客。而最【转载请注明来源】原创内容，盗版必究。近，视频播客的形式开始进入大众视野。播客【未经授权禁止转载】【版权所有，侵权必究】这种内容形式其实非常有意思，特别是严肃内【未经授权禁止转载】【作者：唐霜】容播客，具有非常强的知识和主观见解。不过转载请注明出处：www.tangshuang.net【原创不易，请尊重版权】，在我已有的播客录制经验中，“停顿”或则转载请注明出处：www.tangshuang.net【作者：唐霜】是说“暂时的无话可说”会成为非常麻烦的一本文作者：唐霜，转载请注明出处。转载请注明出处：www.tangshuang.net件事，因为一旦这种沉默时间过长，后期的剪本文版权归作者所有，未经授权不得转载。未经授权，禁止复制转载。辑会很麻烦，如果在一次节目中，这种沉默出未经授权，禁止复制转载。【未经授权禁止转载】现了很多次，剪辑就是灾难。而且经过剪辑的未经授权，禁止复制转载。本文版权归作者所有，未经授权不得转载。音频文件会迅速膨胀。因此，过去我基本上不【关注微信公众号：wwwtangshuangnet】【未经授权禁止转载】剪辑，停顿就停顿吧，反正我的节目也没有很原创内容，盗版必究。【转载请注明来源】多人听。

但是，我发现网上很多其他博主的节目，却显原创内容，盗版必究。【原创不易，请尊重版权】得非常紧凑。仔细慢放可以发现，他们的剪辑本文版权归作者所有，未经授权不得转载。【版权所有】唐霜 www.tangshuang.net频次极高，几乎所有的停顿都被剪掉了。我就著作权归作者所有，禁止商业用途转载。原创内容，盗版必究。在想，难道他们是使用了什么软件吗？经过搜本文版权归作者所有，未经授权不得转载。【转载请注明来源】索，我找到了一款autocut的软件可以【未经授权禁止转载】【原创不易，请尊重版权】实现这个功能。到这里，你以为我是来推荐软原创内容，盗版必究。未经授权，禁止复制转载。件的吗？当然不是。这款软件有着非常多功能未经授权，禁止复制转载。【原创内容，转载请注明出处】，而部分功能还要收费，对于我这样的技术党【原创内容，转载请注明出处】【本文首发于唐霜的博客】来说，更喜欢web这种即用即走的产品形态本文作者：唐霜，转载请注明出处。未经授权，禁止复制转载。。于是，我觉得，复刻该功能。

【未经授权禁止转载】【原创内容，转载请注明出处】【本文首发于唐霜的博客】【访问 www.tangshuang.net 获取更多精彩内容】

效果

经过2天的折腾，我完成了剪除静音这个应用原创内容，盗版必究。原创内容，盗版必究。，你可以通过这个链接使用剪除静音这款软件，完全免费，不需要用户登录。让我们先看感【原创内容，转载请注明出处】【转载请注明来源】受一下使用这款应用前后的对比。

剪除静音前

【本文首发于唐霜的博客】原创内容，盗版必究。【作者：唐霜】

剪除之后

可以听到，剪除之后，所有空白的部分都被剪【本文首发于唐霜的博客】【未经授权禁止转载】除了，听起来显得紧凑连贯。

【转载请注明来源】著作权归作者所有，禁止商业用途转载。本文作者：唐霜，转载请注明出处。

【原创不易，请尊重版权】未经授权，禁止复制转载。本文作者：唐霜，转载请注明出处。

当然，用户还可以实时点击生成预览，在下载未经授权，禁止复制转载。【本文首发于唐霜的博客】前确定剪辑是符合预期的。

实现原理

整个应用完全由前端技术实现，没有后端。接未经授权，禁止复制转载。【访问 www.tangshuang.net 获取更多精彩内容】下来，聊一聊它的实现原理。

音画剥离

在我们拿到用户上传的视频之后，我们要基于著作权归作者所有，禁止商业用途转载。【未经授权禁止转载】视频的音频数据来进行分析，因此，如何拿到未经授权，禁止复制转载。【本文受版权保护】视频的音频数据是关键。在这篇文章中提到，对于AudioContext而言【访问 www.tangshuang.net 获取更多精彩内容】【本文首发于唐霜的博客】，来源是视频还是音频没有区别，也就是说，【作者：唐霜】【版权所有】唐霜 www.tangshuang.net我们直接把视频的ArrayBuffer丢【关注微信公众号：wwwtangshuangnet】【原创内容，转载请注明出处】给AudioContext，最后就能拿到【原创不易，请尊重版权】【本文受版权保护】纯音频的数据。

本文版权归作者所有，未经授权不得转载。【本文首发于唐霜的博客】著作权归作者所有，禁止商业用途转载。

不过，因为我之前有开发Videa的经验，一开始我就用webav这个库解析【未经授权禁止转载】原创内容，盗版必究。视频，所以，我是通过直接向AudioCl【原创内容，转载请注明出处】【版权所有】唐霜 www.tangshuang.netip中塞入视频的文件流，也可以获得音频的【版权所有】唐霜 www.tangshuang.net【关注微信公众号：wwwtangshuangnet】数据，而且AudioClip可以直接使用本文作者：唐霜，转载请注明出处。未经授权，禁止复制转载。getPCMData来获取pcm数据，这【原创内容，转载请注明出处】未经授权，禁止复制转载。样更方便。

原创内容，盗版必究。未经授权，禁止复制转载。

作为开发者，选择任何一种都可以。

波形图和静音分析

音频数据的本质，就是一组声道的Float【转载请注明来源】著作权归作者所有，禁止商业用途转载。32Array数据，这些数据本质上代表了本文作者：唐霜，转载请注明出处。原创内容，盗版必究。声音的量化。

【访问 www.tangshuang.net 获取更多精彩内容】未经授权，禁止复制转载。

我们在计算机中如何表达一份声音信息呢？或本文作者：唐霜，转载请注明出处。著作权归作者所有，禁止商业用途转载。者说，我们如何将连续的声波信号转化为离散【未经授权禁止转载】著作权归作者所有，禁止商业用途转载。的数值（模数转换）呢？首先，第一个概念叫【关注微信公众号：wwwtangshuangnet】【本文首发于唐霜的博客】做“采样（Sampling）”，我们以固著作权归作者所有，禁止商业用途转载。原创内容，盗版必究。定的频率对声波进行测量，例如每秒钟测量4【本文首发于唐霜的博客】【版权所有，侵权必究】4100次，那么采样率（SampleRa【关注微信公众号：wwwtangshuangnet】【访问 www.tangshuang.net 获取更多精彩内容】te）就是44100。而每次测量都会得到原创内容，盗版必究。原创内容，盗版必究。一个数值，这个数值代表了采样的振幅，也就原创内容，盗版必究。【版权所有，侵权必究】是声音的强度。把声音的强度用一个数值表示【访问 www.tangshuang.net 获取更多精彩内容】【未经授权禁止转载】，就是第二个概念“量化”。而Float3未经授权，禁止复制转载。【原创不易，请尊重版权】2数值表示带小数点的数值，这对精确白送声【原创内容，转载请注明出处】【本文首发于唐霜的博客】波振幅很有帮助。通常，这些浮点数会被标准本文版权归作者所有，未经授权不得转载。本文版权归作者所有，未经授权不得转载。化为-1.0到1.0的范围内，0.0表示未经授权，禁止复制转载。本文版权归作者所有，未经授权不得转载。静音。这个标准化实际上没有标准，不同的设【本文首发于唐霜的博客】本文版权归作者所有，未经授权不得转载。备可能存在误差。而如果声音有多声道（立体【访问 www.tangshuang.net 获取更多精彩内容】【原创不易，请尊重版权】声，双声道），数据通常以交错格式存储，例转载请注明出处：www.tangshuang.net【本文首发于唐霜的博客】如，Float32Array中第一个元素著作权归作者所有，禁止商业用途转载。【原创内容，转载请注明出处】是左声道的第一帧，第二个元素是右声道的第本文作者：唐霜，转载请注明出处。【访问 www.tangshuang.net 获取更多精彩内容】一帧，第三个是左声道的第二帧，依此类推。【版权所有】唐霜 www.tangshuang.net本文作者：唐霜，转载请注明出处。但是，在js中，通常，接口会返回多个Fl未经授权，禁止复制转载。【版权所有，侵权必究】oat32Array，每个Float32未经授权，禁止复制转载。著作权归作者所有，禁止商业用途转载。Array表示一个声道的数据。另外，Fl【版权所有，侵权必究】【转载请注明来源】oat32Array存储的是原始的PCM未经授权，禁止复制转载。本文作者：唐霜，转载请注明出处。，也就是未经压缩的音频数据。

我们拿到一个声道的Float32Arra未经授权，禁止复制转载。【版权所有】唐霜 www.tangshuang.nety数据之后，就可以基于它的特性，画出一条未经授权，禁止复制转载。【本文首发于唐霜的博客】在固定范围内来来回回的折线图，它之所以是原创内容，盗版必究。著作权归作者所有，禁止商业用途转载。在固定范围，是因为数据被标准化在-1.0【作者：唐霜】未经授权，禁止复制转载。到1.0之间，如果我们使用了一个高度为2未经授权，禁止复制转载。本文作者：唐霜，转载请注明出处。0像素的canvas作为画布，那么上面的未经授权，禁止复制转载。转载请注明出处：www.tangshuang.net10像素画值在0-1之间的点，下面点10原创内容，盗版必究。本文作者：唐霜，转载请注明出处。像素画值在-1～0之间的点，当然，由于我【原创内容，转载请注明出处】本文作者：唐霜，转载请注明出处。们使用简单点lineTo方法，就会让我们著作权归作者所有，禁止商业用途转载。本文作者：唐霜，转载请注明出处。的整个图形是一个折线图。而这个图也就是我本文版权归作者所有，未经授权不得转载。未经授权，禁止复制转载。们音频文件所对应的声波图。

【原创内容，转载请注明出处】【转载请注明来源】原创内容，盗版必究。

在理解了声波图的原理之后，我们做静音分析本文版权归作者所有，未经授权不得转载。【作者：唐霜】就很简单了，总的原则就是找出Float3【原创不易，请尊重版权】【作者：唐霜】2Array中，数值靠近0的那些连续的点转载请注明出处：www.tangshuang.net【未经授权禁止转载】，并且找出它们对应的时间。

为了找到这些连续的点所形成的片段，我们需原创内容，盗版必究。原创内容，盗版必究。要引入3个设定值：

【访问 www.tangshuang.net 获取更多精彩内容】著作权归作者所有，禁止商业用途转载。本文作者：唐霜，转载请注明出处。转载请注明出处：www.tangshuang.net

dBFS：最大振幅表示为0dBFS，振幅【版权所有，侵权必究】【访问 www.tangshuang.net 获取更多精彩内容】越小dBFS越小，因此，我们只会考虑通过【访问 www.tangshuang.net 获取更多精彩内容】转载请注明出处：www.tangshuang.net负值的dBFS来控制声音选择，例如我们设【原创不易，请尊重版权】未经授权，禁止复制转载。定 -40dBFS 代表我们会把声音小于【版权所有】唐霜 www.tangshuang.net著作权归作者所有，禁止商业用途转载。 -40dBFS 的点标记为要剪除的点

【原创内容，转载请注明出处】

未经授权，禁止复制转载。

最短静音时长：虽然我们会标记 -40dB原创内容，盗版必究。【原创不易，请尊重版权】FS 的点，但是，这些点必须是连续的点才【作者：唐霜】【作者：唐霜】能作为我们剪除的目标，最短静音时长就给了【未经授权禁止转载】【转载请注明来源】我们一个标准，例如我们设定为 400ms【版权所有】唐霜 www.tangshuang.net原创内容，盗版必究。，那么这些静音点，必须达到连续时长在 4原创内容，盗版必究。本文版权归作者所有，未经授权不得转载。00ms 以上，才能算一段空白，才需要被【原创内容，转载请注明出处】【版权所有】唐霜 www.tangshuang.net剪除，低于 400ms 的只能算停顿，不【本文受版权保护】本文版权归作者所有，未经授权不得转载。被剪除

【未经授权禁止转载】

【本文受版权保护】

分析窗口：对于一条Float32Arra【作者：唐霜】转载请注明出处：www.tangshuang.nety来说，其实是非常长非常长的，如果每个点【访问 www.tangshuang.net 获取更多精彩内容】【原创内容，转载请注明出处】都去计算和对比，就显得非常臃肿，因此，我未经授权，禁止复制转载。本文版权归作者所有，未经授权不得转载。们把整条Float32Array划分为平本文作者：唐霜，转载请注明出处。未经授权，禁止复制转载。均的小片段，现在，我们把每一个小片段作为原创内容，盗版必究。【版权所有，侵权必究】一个点来对待，取这个小片段内所有值的平均【原创内容，转载请注明出处】【作者：唐霜】值为这个小片段所代表的点的值，再用这个值【原创不易，请尊重版权】【作者：唐霜】去和设定的dBFS值对比。分析窗口的目的本文版权归作者所有，未经授权不得转载。【未经授权禁止转载】是减少运算次数，提升性能。

【转载请注明来源】

本文作者：唐霜，转载请注明出处。

【作者：唐霜】

【未经授权禁止转载】【原创内容，转载请注明出处】

效果预览

我们通过静音分析，得到了一组时间片段。其本文版权归作者所有，未经授权不得转载。本文版权归作者所有，未经授权不得转载。实就是一个数值，数值每个元素表示一段静音【原创不易，请尊重版权】转载请注明出处：www.tangshuang.net的开始时间和结束时间。有了这个数值之后，原创内容，盗版必究。【原创内容，转载请注明出处】我们就拿着它，对原视频文件进行不断的切割原创内容，盗版必究。【本文受版权保护】，把这些静音片段对应的部分给裁剪掉，再把【转载请注明来源】【本文受版权保护】剩下的拼接在一起，就是最后我们想要的视频原创内容，盗版必究。未经授权，禁止复制转载。。

【访问 www.tangshuang.net 获取更多精彩内容】【访问 www.tangshuang.net 获取更多精彩内容】

但是，如何实时预览这个结果呢？

未经授权，禁止复制转载。【关注微信公众号：wwwtangshuangnet】

Webav提供了av-canvas来实时未经授权，禁止复制转载。本文版权归作者所有，未经授权不得转载。渲染。它本身通过clip来进行拆分音视频【版权所有，侵权必究】著作权归作者所有，禁止商业用途转载。，我们只需要使用clip.split接口著作权归作者所有，禁止商业用途转载。【作者：唐霜】就可以进行视频切割。按照一定的逻辑，拆分本文作者：唐霜，转载请注明出处。【本文受版权保护】后得到一大堆clip，在把这些clip转【原创内容，转载请注明出处】未经授权，禁止复制转载。化为sprite，再根据各自的时长进行处本文作者：唐霜，转载请注明出处。【转载请注明来源】理塞进canvas，就可以得到经过剪除后【原创内容，转载请注明出处】【访问 www.tangshuang.net 获取更多精彩内容】的连续视频实时播放器。

本文作者：唐霜，转载请注明出处。【本文首发于唐霜的博客】

导出音频

通过webav进行导出比较简单，通过它c【版权所有】唐霜 www.tangshuang.net未经授权，禁止复制转载。ombiner的output接口就可以得【访问 www.tangshuang.net 获取更多精彩内容】未经授权，禁止复制转载。到一个readablestream，再遍原创内容，盗版必究。【关注微信公众号：wwwtangshuangnet】历后创建一个blob就可以了。它有两种方【原创内容，转载请注明出处】原创内容，盗版必究。式，一种是通过上面的av-canvas，【访问 www.tangshuang.net 获取更多精彩内容】转载请注明出处：www.tangshuang.net实时预览播放器实例化后，从这个canva转载请注明出处：www.tangshuang.net【本文受版权保护】s创建combiner来导出，这样可以实转载请注明出处：www.tangshuang.net未经授权，禁止复制转载。时预览复用节省资源。还有一种是利用off【关注微信公众号：wwwtangshuangnet】未经授权，禁止复制转载。screensprite，实现离屏渲染，【未经授权禁止转载】本文作者：唐霜，转载请注明出处。这种方式可以脱离界面上渲染后才能导出的窘【原创内容，转载请注明出处】【版权所有】唐霜 www.tangshuang.net境，做到没有预览也可以直接导出。

但是，webav没有直接导出音频的接口。【版权所有，侵权必究】【本文受版权保护】一开始我也被卡住了，直到我再次搜到这篇文章才恍然大悟，虽然webav只能导出视频，未经授权，禁止复制转载。【关注微信公众号：wwwtangshuangnet】但是导出视频的blob之后，读取其arr【关注微信公众号：wwwtangshuangnet】【作者：唐霜】ayBuffer，再塞入AudioCon【关注微信公众号：wwwtangshuangnet】【原创不易，请尊重版权】text，无视其是视频还是音频，也就可以原创内容，盗版必究。本文版权归作者所有，未经授权不得转载。导出音频了。

视频格式转换

在整个设计中，由于使用了webav作为预【关注微信公众号：wwwtangshuangnet】【本文受版权保护】览，而它只支持mp4视频，因此，在进行后转载请注明出处：www.tangshuang.net著作权归作者所有，禁止商业用途转载。续的处理时，先将非mp4格式的视频转换为【作者：唐霜】【本文首发于唐霜的博客】mp4的视频，就非常重要。在用户点击上传【本文受版权保护】【作者：唐霜】后，通过ffmpeg.wasm将视频格式未经授权，禁止复制转载。【原创不易，请尊重版权】进行转换。可是，要接入ffmpeg.wa【本文首发于唐霜的博客】【访问 www.tangshuang.net 获取更多精彩内容】sm实在是太麻烦了，不仅要准备各种代码、未经授权，禁止复制转载。【本文首发于唐霜的博客】文件，而且要修改服务端的headers配【转载请注明来源】【访问 www.tangshuang.net 获取更多精彩内容】置。在经过一整天的折腾后，才最终完成了接【访问 www.tangshuang.net 获取更多精彩内容】转载请注明出处：www.tangshuang.net入。而接入后，转换视频格式就显得非常简单转载请注明出处：www.tangshuang.net本文版权归作者所有，未经授权不得转载。了，只需要一条ffmpeg命令就可以完成著作权归作者所有，禁止商业用途转载。著作权归作者所有，禁止商业用途转载。。

本文版权归作者所有，未经授权不得转载。【本文受版权保护】【原创不易，请尊重版权】

使用链接

点击使用剪除静音工具

原创内容，盗版必究。【原创内容，转载请注明出处】

结束语

通过这篇，你可以掌握实现一个静音过滤器的未经授权，禁止复制转载。【本文受版权保护】实现思路。很久没有写技术性的文章了，也很本文作者：唐霜，转载请注明出处。【未经授权禁止转载】难再细致的把每一个细节都写出来，从几年前【版权所有，侵权必究】【关注微信公众号：wwwtangshuangnet】开始，就只写思路，没有实现代码了。如果你【原创内容，转载请注明出处】【未经授权禁止转载】在按照这个思路实现时，遇到什么问题，请在【访问 www.tangshuang.net 获取更多精彩内容】【关注微信公众号：wwwtangshuangnet】下面留言，我们一起讨论。

本文版权归作者所有，未经授权不得转载。本文作者：唐霜，转载请注明出处。

著作权归作者所有，禁止商业用途转载。本文版权归作者所有，未经授权不得转载。本文作者：唐霜，转载请注明出处。【原创不易，请尊重版权】【转载请注明来源】本文作者：唐霜，转载请注明出处。【作者：唐霜】【版权所有】唐霜 www.tangshuang.net转载请注明出处：www.tangshuang.net【版权所有】唐霜 www.tangshuang.net本文作者：唐霜，转载请注明出处。【版权所有】唐霜 www.tangshuang.net本文作者：唐霜，转载请注明出处。【未经授权禁止转载】原创内容，盗版必究。未经授权，禁止复制转载。未经授权，禁止复制转载。未经授权，禁止复制转载。本文作者：唐霜，转载请注明出处。【版权所有】唐霜 www.tangshuang.net本文作者：唐霜，转载请注明出处。未经授权，禁止复制转载。本文版权归作者所有，未经授权不得转载。未经授权，禁止复制转载。【版权所有】唐霜 www.tangshuang.net【原创内容，转载请注明出处】【作者：唐霜】原创内容，盗版必究。【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net未经授权，禁止复制转载。

2025-08-25 2239

唐霜

过滤视频/音频中的静音和停顿，让你的播客内容更加紧凑流畅

起因

效果