Hello你好啊,好久不见。过去一段时间转载请注明出处:www.tangshuang.net转载请注明出处:www.tangshuang.net,我写博客的次数变得很少,我之前关注的一著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net些博主也逐渐抛弃了博客。一个非常令人沮丧【本文受版权保护】转载请注明出处:www.tangshuang.net的现象是,现在的朋友们很少再关注博客,因本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。为通过大模型应用,获取知识变得极为便捷,著作权归作者所有,禁止商业用途转载。【作者:唐霜】而传统的播客往往依赖搜索引擎,随着大模型原创内容,盗版必究。【作者:唐霜】的发展,播客的内容被扒光,很多人也就再也著作权归作者所有,禁止商业用途转载。【转载请注明来源】没有动力写博客。对我而言,写博客,可能只转载请注明出处:www.tangshuang.net本文版权归作者所有,未经授权不得转载。是换一种方式来表达自己,因此,偶尔还是会【原创内容,转载请注明出处】【访问 www.tangshuang.net 获取更多精彩内容】写一些,这种写作的心态,不去对抗AI抓取【关注微信公众号:wwwtangshuangnet】本文版权归作者所有,未经授权不得转载。的焦虑,仅仅是自己的一种表达。
著作权归作者所有,禁止商业用途转载。【本文受版权保护】原创内容,盗版必究。转载请注明出处:www.tangshuang.net起因
在过去几年里,我其实做了很多期播客。而最【转载请注明来源】转载请注明出处:www.tangshuang.net近,视频播客的形式开始进入大众视野。播客【本文受版权保护】【作者:唐霜】这种内容形式其实非常有意思,特别是严肃内本文作者:唐霜,转载请注明出处。原创内容,盗版必究。容播客,具有非常强的知识和主观见解。不过【原创不易,请尊重版权】【未经授权禁止转载】,在我已有的播客录制经验中,“停顿”或则【未经授权禁止转载】【原创不易,请尊重版权】是说“暂时的无话可说”会成为非常麻烦的一【转载请注明来源】原创内容,盗版必究。件事,因为一旦这种沉默时间过长,后期的剪著作权归作者所有,禁止商业用途转载。【未经授权禁止转载】辑会很麻烦,如果在一次节目中,这种沉默出著作权归作者所有,禁止商业用途转载。【转载请注明来源】现了很多次,剪辑就是灾难。而且经过剪辑的【关注微信公众号:wwwtangshuangnet】【访问 www.tangshuang.net 获取更多精彩内容】音频文件会迅速膨胀。因此,过去我基本上不原创内容,盗版必究。【本文受版权保护】剪辑,停顿就停顿吧,反正我的节目也没有很【未经授权禁止转载】【原创内容,转载请注明出处】多人听。
【版权所有,侵权必究】【原创内容,转载请注明出处】未经授权,禁止复制转载。但是,我发现网上很多其他博主的节目,却显【关注微信公众号:wwwtangshuangnet】【本文首发于唐霜的博客】得非常紧凑。仔细慢放可以发现,他们的剪辑【转载请注明来源】【版权所有】唐霜 www.tangshuang.net频次极高,几乎所有的停顿都被剪掉了。我就【原创内容,转载请注明出处】【转载请注明来源】在想,难道他们是使用了什么软件吗?经过搜【作者:唐霜】【未经授权禁止转载】索,我找到了一款autocut的软件可以【本文受版权保护】本文作者:唐霜,转载请注明出处。实现这个功能。到这里,你以为我是来推荐软未经授权,禁止复制转载。【原创内容,转载请注明出处】件的吗?当然不是。这款软件有着非常多功能【作者:唐霜】【本文受版权保护】,而部分功能还要收费,对于我这样的技术党【未经授权禁止转载】【版权所有】唐霜 www.tangshuang.net来说,更喜欢web这种即用即走的产品形态【作者:唐霜】【未经授权禁止转载】。于是,我觉得,复刻该功能。
本文作者:唐霜,转载请注明出处。本文版权归作者所有,未经授权不得转载。【原创内容,转载请注明出处】原创内容,盗版必究。效果
经过2天的折腾,我完成了剪除静音这个应用【版权所有】唐霜 www.tangshuang.net【转载请注明来源】,你可以通过这个链接使用剪除静音这款软件,完全免费,不需要用户登录。让我们先看感【未经授权禁止转载】本文版权归作者所有,未经授权不得转载。受一下使用这款应用前后的对比。
【本文首发于唐霜的博客】【未经授权禁止转载】【未经授权禁止转载】【访问 www.tangshuang.net 获取更多精彩内容】剪除静音前
【未经授权禁止转载】本文作者:唐霜,转载请注明出处。著作权归作者所有,禁止商业用途转载。剪除之后
【转载请注明来源】本文作者:唐霜,转载请注明出处。【版权所有,侵权必究】未经授权,禁止复制转载。可以听到,剪除之后,所有空白的部分都被剪【转载请注明来源】【本文受版权保护】除了,听起来显得紧凑连贯。
【版权所有,侵权必究】【原创不易,请尊重版权】【原创内容,转载请注明出处】本文作者:唐霜,转载请注明出处。这在播客节目的音视频中,更加显得效果明显【版权所有】唐霜 www.tangshuang.net【转载请注明来源】。
著作权归作者所有,禁止商业用途转载。未经授权,禁止复制转载。而且,对于用户来说,他可以很容易在分析结转载请注明出处:www.tangshuang.net【原创内容,转载请注明出处】果图中看到被剪除的时间段,甚至,可以通过【作者:唐霜】【关注微信公众号:wwwtangshuangnet】点击来避免某些片段被剪除。
著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。【未经授权禁止转载】【原创不易,请尊重版权】
当然,用户还可以实时点击生成预览,在下载【转载请注明来源】本文作者:唐霜,转载请注明出处。前确定剪辑是符合预期的。
【原创不易,请尊重版权】著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。实现原理
整个应用完全由前端技术实现,没有后端。接【访问 www.tangshuang.net 获取更多精彩内容】著作权归作者所有,禁止商业用途转载。下来,聊一聊它的实现原理。
【本文受版权保护】【原创内容,转载请注明出处】【作者:唐霜】著作权归作者所有,禁止商业用途转载。音画剥离
在我们拿到用户上传的视频之后,我们要基于【转载请注明来源】原创内容,盗版必究。视频的音频数据来进行分析,因此,如何拿到本文版权归作者所有,未经授权不得转载。【版权所有】唐霜 www.tangshuang.net视频的音频数据是关键。在这篇文章中提到,对于AudioContext而言转载请注明出处:www.tangshuang.net【原创内容,转载请注明出处】,来源是视频还是音频没有区别,也就是说,【转载请注明来源】【未经授权禁止转载】我们直接把视频的ArrayBuffer丢【版权所有】唐霜 www.tangshuang.net未经授权,禁止复制转载。给AudioContext,最后就能拿到【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】纯音频的数据。
【版权所有】唐霜 www.tangshuang.net【作者:唐霜】【关注微信公众号:wwwtangshuangnet】不过,因为我之前有开发Videa的经验,一开始我就用webav这个库解析【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net视频,所以,我是通过直接向AudioCl未经授权,禁止复制转载。转载请注明出处:www.tangshuang.netip中塞入视频的文件流,也可以获得音频的【版权所有】唐霜 www.tangshuang.net【本文受版权保护】数据,而且AudioClip可以直接使用【原创内容,转载请注明出处】本文版权归作者所有,未经授权不得转载。getPCMData来获取pcm数据,这原创内容,盗版必究。原创内容,盗版必究。样更方便。
原创内容,盗版必究。【作者:唐霜】作为开发者,选择任何一种都可以。
原创内容,盗版必究。未经授权,禁止复制转载。著作权归作者所有,禁止商业用途转载。【版权所有,侵权必究】波形图和静音分析
音频数据的本质,就是一组声道的Float本文版权归作者所有,未经授权不得转载。【原创内容,转载请注明出处】32Array数据,这些数据本质上代表了【本文受版权保护】本文作者:唐霜,转载请注明出处。声音的量化。
【未经授权禁止转载】未经授权,禁止复制转载。【本文首发于唐霜的博客】【原创不易,请尊重版权】我们在计算机中如何表达一份声音信息呢?或【作者:唐霜】【原创内容,转载请注明出处】者说,我们如何将连续的声波信号转化为离散【版权所有,侵权必究】【未经授权禁止转载】的数值(模数转换)呢?首先,第一个概念叫【原创内容,转载请注明出处】未经授权,禁止复制转载。做“采样(Sampling)”,我们以固【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】定的频率对声波进行测量,例如每秒钟测量4原创内容,盗版必究。【本文首发于唐霜的博客】4100次,那么采样率(SampleRa本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。te)就是44100。而每次测量都会得到【原创不易,请尊重版权】本文版权归作者所有,未经授权不得转载。一个数值,这个数值代表了采样的振幅,也就【访问 www.tangshuang.net 获取更多精彩内容】转载请注明出处:www.tangshuang.net是声音的强度。把声音的强度用一个数值表示本文作者:唐霜,转载请注明出处。【转载请注明来源】,就是第二个概念“量化”。而Float3【版权所有】唐霜 www.tangshuang.net【版权所有,侵权必究】2数值表示带小数点的数值,这对精确白送声【原创内容,转载请注明出处】未经授权,禁止复制转载。波振幅很有帮助。通常,这些浮点数会被标准【关注微信公众号:wwwtangshuangnet】原创内容,盗版必究。化为-1.0到1.0的范围内,0.0表示未经授权,禁止复制转载。【本文首发于唐霜的博客】静音。这个标准化实际上没有标准,不同的设原创内容,盗版必究。原创内容,盗版必究。备可能存在误差。而如果声音有多声道(立体本文作者:唐霜,转载请注明出处。【版权所有,侵权必究】声,双声道),数据通常以交错格式存储,例本文作者:唐霜,转载请注明出处。【原创内容,转载请注明出处】如,Float32Array中第一个元素【访问 www.tangshuang.net 获取更多精彩内容】转载请注明出处:www.tangshuang.net是左声道的第一帧,第二个元素是右声道的第【本文受版权保护】转载请注明出处:www.tangshuang.net一帧,第三个是左声道的第二帧,依此类推。【作者:唐霜】【关注微信公众号:wwwtangshuangnet】但是,在js中,通常,接口会返回多个Fl【作者:唐霜】【版权所有,侵权必究】oat32Array,每个Float32【未经授权禁止转载】【转载请注明来源】Array表示一个声道的数据。另外,Fl【本文首发于唐霜的博客】转载请注明出处:www.tangshuang.netoat32Array存储的是原始的PCM著作权归作者所有,禁止商业用途转载。【未经授权禁止转载】,也就是未经压缩的音频数据。
【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。我们拿到一个声道的Float32Arra【原创不易,请尊重版权】【未经授权禁止转载】y数据之后,就可以基于它的特性,画出一条转载请注明出处:www.tangshuang.net本文作者:唐霜,转载请注明出处。在固定范围内来来回回的折线图,它之所以是著作权归作者所有,禁止商业用途转载。【转载请注明来源】在固定范围,是因为数据被标准化在-1.0【作者:唐霜】原创内容,盗版必究。到1.0之间,如果我们使用了一个高度为2转载请注明出处:www.tangshuang.net未经授权,禁止复制转载。0像素的canvas作为画布,那么上面的【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net10像素画值在0-1之间的点,下面点10【作者:唐霜】未经授权,禁止复制转载。像素画值在-1~0之间的点,当然,由于我著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。们使用简单点lineTo方法,就会让我们【转载请注明来源】原创内容,盗版必究。的整个图形是一个折线图。而这个图也就是我【未经授权禁止转载】本文作者:唐霜,转载请注明出处。们音频文件所对应的声波图。
著作权归作者所有,禁止商业用途转载。【作者:唐霜】【本文首发于唐霜的博客】在理解了声波图的原理之后,我们做静音分析【版权所有,侵权必究】【版权所有】唐霜 www.tangshuang.net就很简单了,总的原则就是找出Float3本文作者:唐霜,转载请注明出处。著作权归作者所有,禁止商业用途转载。2Array中,数值靠近0的那些连续的点原创内容,盗版必究。转载请注明出处:www.tangshuang.net,并且找出它们对应的时间。
【转载请注明来源】【版权所有】唐霜 www.tangshuang.net为了找到这些连续的点所形成的片段,我们需【关注微信公众号:wwwtangshuangnet】未经授权,禁止复制转载。要引入3个设定值:
【作者:唐霜】【原创不易,请尊重版权】【访问 www.tangshuang.net 获取更多精彩内容】本文作者:唐霜,转载请注明出处。- dBFS:最大振幅表示为0dBFS,振幅【转载请注明来源】本文版权归作者所有,未经授权不得转载。越小dBFS越小,因此,我们只会考虑通过【版权所有】唐霜 www.tangshuang.net转载请注明出处:www.tangshuang.net负值的dBFS来控制声音选择,例如我们设著作权归作者所有,禁止商业用途转载。【关注微信公众号:wwwtangshuangnet】定 -40dBFS 代表我们会把声音小于【访问 www.tangshuang.net 获取更多精彩内容】【作者:唐霜】 -40dBFS 的点标记为要剪除的点 【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。本文作者:唐霜,转载请注明出处。
- 最短静音时长:虽然我们会标记 -40dB转载请注明出处:www.tangshuang.net【版权所有】唐霜 www.tangshuang.netFS 的点,但是,这些点必须是连续的点才转载请注明出处:www.tangshuang.net【版权所有】唐霜 www.tangshuang.net能作为我们剪除的目标,最短静音时长就给了【本文受版权保护】【未经授权禁止转载】我们一个标准,例如我们设定为 400ms【访问 www.tangshuang.net 获取更多精彩内容】【转载请注明来源】,那么这些静音点,必须达到连续时长在 4转载请注明出处:www.tangshuang.net原创内容,盗版必究。00ms 以上,才能算一段空白,才需要被【版权所有】唐霜 www.tangshuang.net【本文首发于唐霜的博客】剪除,低于 400ms 的只能算停顿,不【原创不易,请尊重版权】【版权所有,侵权必究】被剪除 著作权归作者所有,禁止商业用途转载。【作者:唐霜】【作者:唐霜】
- 分析窗口:对于一条Float32Arra未经授权,禁止复制转载。【本文受版权保护】y来说,其实是非常长非常长的,如果每个点本文版权归作者所有,未经授权不得转载。【本文受版权保护】都去计算和对比,就显得非常臃肿,因此,我【未经授权禁止转载】【访问 www.tangshuang.net 获取更多精彩内容】们把整条Float32Array划分为平【本文首发于唐霜的博客】【未经授权禁止转载】均的小片段,现在,我们把每一个小片段作为【原创不易,请尊重版权】【转载请注明来源】一个点来对待,取这个小片段内所有值的平均【本文受版权保护】著作权归作者所有,禁止商业用途转载。值为这个小片段所代表的点的值,再用这个值本文版权归作者所有,未经授权不得转载。转载请注明出处:www.tangshuang.net去和设定的dBFS值对比。分析窗口的目的【作者:唐霜】未经授权,禁止复制转载。是减少运算次数,提升性能。 【未经授权禁止转载】【作者:唐霜】【访问 www.tangshuang.net 获取更多精彩内容】
另外,我们还可以获取音频的总时长作为参考原创内容,盗版必究。著作权归作者所有,禁止商业用途转载。,从而计算出每一个点所对应的时间点。通过【作者:唐霜】转载请注明出处:www.tangshuang.net上面这些设计,我们就能分析出这段音频在那【关注微信公众号:wwwtangshuangnet】本文作者:唐霜,转载请注明出处。些时间段内,是声音比较小的,需要被剪除的本文作者:唐霜,转载请注明出处。【版权所有】唐霜 www.tangshuang.net。
原创内容,盗版必究。本文版权归作者所有,未经授权不得转载。【访问 www.tangshuang.net 获取更多精彩内容】效果预览
我们通过静音分析,得到了一组时间片段。其【访问 www.tangshuang.net 获取更多精彩内容】【本文受版权保护】实就是一个数值,数值每个元素表示一段静音本文版权归作者所有,未经授权不得转载。【原创内容,转载请注明出处】的开始时间和结束时间。有了这个数值之后,【本文首发于唐霜的博客】【关注微信公众号:wwwtangshuangnet】我们就拿着它,对原视频文件进行不断的切割【原创不易,请尊重版权】未经授权,禁止复制转载。,把这些静音片段对应的部分给裁剪掉,再把【版权所有】唐霜 www.tangshuang.net本文作者:唐霜,转载请注明出处。剩下的拼接在一起,就是最后我们想要的视频【未经授权禁止转载】【转载请注明来源】。
【未经授权禁止转载】【访问 www.tangshuang.net 获取更多精彩内容】【原创不易,请尊重版权】但是,如何实时预览这个结果呢?
【关注微信公众号:wwwtangshuangnet】本文版权归作者所有,未经授权不得转载。Webav提供了av-canvas来实时【未经授权禁止转载】【原创内容,转载请注明出处】渲染。它本身通过clip来进行拆分音视频【原创不易,请尊重版权】【关注微信公众号:wwwtangshuangnet】,我们只需要使用clip.split接口【关注微信公众号:wwwtangshuangnet】【作者:唐霜】就可以进行视频切割。按照一定的逻辑,拆分【原创内容,转载请注明出处】【本文受版权保护】后得到一大堆clip,在把这些clip转【原创内容,转载请注明出处】【版权所有】唐霜 www.tangshuang.net化为sprite,再根据各自的时长进行处【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。理塞进canvas,就可以得到经过剪除后【版权所有】唐霜 www.tangshuang.net【版权所有,侵权必究】的连续视频实时播放器。
本文版权归作者所有,未经授权不得转载。【版权所有,侵权必究】导出音频
通过webav进行导出比较简单,通过它c【转载请注明来源】未经授权,禁止复制转载。ombiner的output接口就可以得【作者:唐霜】【作者:唐霜】到一个readablestream,再遍原创内容,盗版必究。著作权归作者所有,禁止商业用途转载。历后创建一个blob就可以了。它有两种方本文作者:唐霜,转载请注明出处。原创内容,盗版必究。式,一种是通过上面的av-canvas,本文作者:唐霜,转载请注明出处。【关注微信公众号:wwwtangshuangnet】实时预览播放器实例化后,从这个canva【未经授权禁止转载】转载请注明出处:www.tangshuang.nets创建combiner来导出,这样可以实未经授权,禁止复制转载。著作权归作者所有,禁止商业用途转载。时预览复用节省资源。还有一种是利用off【关注微信公众号:wwwtangshuangnet】【关注微信公众号:wwwtangshuangnet】screensprite,实现离屏渲染,【访问 www.tangshuang.net 获取更多精彩内容】著作权归作者所有,禁止商业用途转载。这种方式可以脱离界面上渲染后才能导出的窘本文版权归作者所有,未经授权不得转载。【作者:唐霜】境,做到没有预览也可以直接导出。
本文版权归作者所有,未经授权不得转载。本文作者:唐霜,转载请注明出处。但是,webav没有直接导出音频的接口。【原创不易,请尊重版权】本文版权归作者所有,未经授权不得转载。一开始我也被卡住了,直到我再次搜到这篇文章才恍然大悟,虽然webav只能导出视频,未经授权,禁止复制转载。【转载请注明来源】但是导出视频的blob之后,读取其arr【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.netayBuffer,再塞入AudioCon未经授权,禁止复制转载。本文作者:唐霜,转载请注明出处。text,无视其是视频还是音频,也就可以【版权所有】唐霜 www.tangshuang.net本文版权归作者所有,未经授权不得转载。导出音频了。
【本文首发于唐霜的博客】【版权所有】唐霜 www.tangshuang.net视频格式转换
在整个设计中,由于使用了webav作为预本文版权归作者所有,未经授权不得转载。【原创内容,转载请注明出处】览,而它只支持mp4视频,因此,在进行后【访问 www.tangshuang.net 获取更多精彩内容】原创内容,盗版必究。续的处理时,先将非mp4格式的视频转换为【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。mp4的视频,就非常重要。在用户点击上传【访问 www.tangshuang.net 获取更多精彩内容】【作者:唐霜】后,通过ffmpeg.wasm将视频格式本文作者:唐霜,转载请注明出处。本文版权归作者所有,未经授权不得转载。进行转换。可是,要接入ffmpeg.wa转载请注明出处:www.tangshuang.net转载请注明出处:www.tangshuang.netsm实在是太麻烦了,不仅要准备各种代码、【版权所有,侵权必究】【未经授权禁止转载】文件,而且要修改服务端的headers配【作者:唐霜】【转载请注明来源】置。在经过一整天的折腾后,才最终完成了接【版权所有,侵权必究】【未经授权禁止转载】入。而接入后,转换视频格式就显得非常简单未经授权,禁止复制转载。【本文受版权保护】了,只需要一条ffmpeg命令就可以完成【转载请注明来源】本文作者:唐霜,转载请注明出处。。
【原创不易,请尊重版权】【本文首发于唐霜的博客】【本文首发于唐霜的博客】使用链接
【访问 www.tangshuang.net 获取更多精彩内容】原创内容,盗版必究。【本文首发于唐霜的博客】结束语
通过这篇,你可以掌握实现一个静音过滤器的原创内容,盗版必究。本文版权归作者所有,未经授权不得转载。实现思路。很久没有写技术性的文章了,也很【未经授权禁止转载】未经授权,禁止复制转载。难再细致的把每一个细节都写出来,从几年前未经授权,禁止复制转载。【关注微信公众号:wwwtangshuangnet】开始,就只写思路,没有实现代码了。如果你【转载请注明来源】【版权所有】唐霜 www.tangshuang.net在按照这个思路实现时,遇到什么问题,请在本文版权归作者所有,未经授权不得转载。本文作者:唐霜,转载请注明出处。下面留言,我们一起讨论。
本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net2025-08-25 2237


