OpenAI终于上线实时视频通话功能,看我用前端技术实现0元购版的“和AI视频通话”功能

广告位招租
扫码页面底部二维码联系

OpenAI挤牙膏似的的12天发布会不断本文版权归作者所有,未经授权不得转载。未经授权,禁止复制转载。兑现之前给的demo,他们似乎今年一次性原创内容,盗版必究。【本文受版权保护】做了很多产品,在这年尾的时候像甩卖一样将【未经授权禁止转载】原创内容,盗版必究。它们丢出来,有点眼花缭乱。在之前的一次发【未经授权禁止转载】【版权所有】唐霜 www.tangshuang.net布会上,他们演示了和大模型实时视频通话功转载请注明出处:www.tangshuang.net【未经授权禁止转载】能,令人惊艳,但是该功能直到昨天才和公众【作者:唐霜】【本文受版权保护】见面。那么这个功能到底有多难做呢?今天,【访问 www.tangshuang.net 获取更多精彩内容】本文版权归作者所有,未经授权不得转载。我就以一个技术人的视角,来聊一聊,我是如本文作者:唐霜,转载请注明出处。原创内容,盗版必究。何用前端技术,做出的一个类似的功能,而且【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】关键是,调用国内的免费模型接口,来了一个【原创内容,转载请注明出处】【原创内容,转载请注明出处】彻底的0元购。

著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。原创内容,盗版必究。【版权所有,侵权必究】

功能概览【原创不易,请尊重版权】

本文版权归作者所有,未经授权不得转载。【版权所有,侵权必究】【关注微信公众号:wwwtangshuangnet】【原创不易,请尊重版权】【版权所有,侵权必究】

当用户开启实时视频通话功能后,界面进入一转载请注明出处:www.tangshuang.net【本文首发于唐霜的博客】个类似摄像头拍摄的界面,LLM像有了眼睛【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。一样,看到用户提供的画面,并根据用户的说著作权归作者所有,禁止商业用途转载。【关注微信公众号:wwwtangshuangnet】话内容和画面,做出实时反应。由于Open著作权归作者所有,禁止商业用途转载。【未经授权禁止转载】AI实现了端到端模型,大模型可以直接接收【版权所有】唐霜 www.tangshuang.net【关注微信公众号:wwwtangshuangnet】视频输入,输出语音。但随之而来的就是成本【访问 www.tangshuang.net 获取更多精彩内容】未经授权,禁止复制转载。高昂。那么,要做到0元购,应该怎么办呢?

未经授权,禁止复制转载。本文作者:唐霜,转载请注明出处。【原创内容,转载请注明出处】

首先,我们来拆解一下这个功能的核心是什么【转载请注明来源】【版权所有,侵权必究】。我认为主要是以下3点:

【版权所有】唐霜 www.tangshuang.net转载请注明出处:www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】
  • 对视频进行理解 -> 本质上是对多【本文首发于唐霜的博客】【版权所有,侵权必究】帧画面进行理解
  • 【原创不易,请尊重版权】本文版权归作者所有,未经授权不得转载。【作者:唐霜】【原创内容,转载请注明出处】【版权所有,侵权必究】
  • 对语音进行理解 -> 我们用ASR本文版权归作者所有,未经授权不得转载。【未经授权禁止转载】来替代,让大模型理解文本更直接
  • 著作权归作者所有,禁止商业用途转载。【未经授权禁止转载】【转载请注明来源】【原创内容,转载请注明出处】
  • 语音输出【本文首发于唐霜的博客】
  • 【本文首发于唐霜的博客】原创内容,盗版必究。【原创内容,转载请注明出处】

技术选型本文版权归作者所有,未经授权不得转载。

【本文首发于唐霜的博客】【关注微信公众号:wwwtangshuangnet】未经授权,禁止复制转载。本文作者:唐霜,转载请注明出处。【转载请注明来源】

让我们来分析技术上的可行性。本文版权归作者所有,未经授权不得转载。

【原创内容,转载请注明出处】【原创内容,转载请注明出处】【转载请注明来源】【关注微信公众号:wwwtangshuangnet】转载请注明出处:www.tangshuang.net

首先是视频。我们可以通过WebRTC接口【版权所有】唐霜 www.tangshuang.net【原创不易,请尊重版权】getUserMedia来获得摄像头画面本文作者:唐霜,转载请注明出处。未经授权,禁止复制转载。,再通过canvas来对视频进行截图,获【未经授权禁止转载】【版权所有】唐霜 www.tangshuang.net得画面帧。对画面进行理解,可以调用glm著作权归作者所有,禁止商业用途转载。本文版权归作者所有,未经授权不得转载。-4v-flash(免费),将理解后的结【关注微信公众号:wwwtangshuangnet】【本文首发于唐霜的博客】果保存下来备用。

本文版权归作者所有,未经授权不得转载。转载请注明出处:www.tangshuang.net【原创内容,转载请注明出处】

其次是语音理解。我们可以通过Speech【未经授权禁止转载】转载请注明出处:www.tangshuang.netRecognition来在本地进行语音识未经授权,禁止复制转载。著作权归作者所有,禁止商业用途转载。别,然而它只有谷歌支持,只能在chrom本文版权归作者所有,未经授权不得转载。原创内容,盗版必究。e中使用,且需要连到谷歌的服务器(科学上本文版权归作者所有,未经授权不得转载。本文版权归作者所有,未经授权不得转载。网),因此,我直接放弃。我找到了免费的A【转载请注明来源】【关注微信公众号:wwwtangshuangnet】SR接口,通过getUserMedia获著作权归作者所有,禁止商业用途转载。【版权所有,侵权必究】取麦克风输入,通过MediaRecord【本文受版权保护】【原创内容,转载请注明出处】er获得audioBuffer,通过Au【作者:唐霜】转载请注明出处:www.tangshuang.netdioContext和audiobuff【未经授权禁止转载】原创内容,盗版必究。er-to-wav进行转码,将得到的wa著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。v提交到免费的ASR,获得识别结果。同时本文作者:唐霜,转载请注明出处。【作者:唐霜】还做了一些策略,如果800ms没有人说话原创内容,盗版必究。【原创内容,转载请注明出处】,则立刻对录制进行断句和ASR提交,从而【版权所有,侵权必究】【访问 www.tangshuang.net 获取更多精彩内容】可以更快的得到识别结果。

著作权归作者所有,禁止商业用途转载。本文版权归作者所有,未经授权不得转载。本文版权归作者所有,未经授权不得转载。本文作者:唐霜,转载请注明出处。

最后是语音输出。通过speechSynt本文作者:唐霜,转载请注明出处。【本文受版权保护】hesis来进行TTS,免费又性能好,e【关注微信公众号:wwwtangshuangnet】【作者:唐霜】dge浏览器提供的音色也不错。通过Int【版权所有】唐霜 www.tangshuang.net【原创内容,转载请注明出处】l.Segmenter进行断句处理,从而本文版权归作者所有,未经授权不得转载。本文版权归作者所有,未经授权不得转载。在大模型吐出第一句话的时候,就可以开始念本文作者:唐霜,转载请注明出处。【关注微信公众号:wwwtangshuangnet】稿。

【原创内容,转载请注明出处】【原创内容,转载请注明出处】【版权所有】唐霜 www.tangshuang.net

用于最后的理解的LLM,免费的有挺多可选【版权所有,侵权必究】【作者:唐霜】,glm、qwen都有免费的。

本文版权归作者所有,未经授权不得转载。【转载请注明来源】【关注微信公众号:wwwtangshuangnet】

以上这些全部加起来,总价格成本为0.转载请注明出处:www.tangshuang.net

未经授权,禁止复制转载。原创内容,盗版必究。【版权所有】唐霜 www.tangshuang.net【本文受版权保护】【本文受版权保护】

效果预览【本文首发于唐霜的博客】

【本文受版权保护】著作权归作者所有,禁止商业用途转载。【未经授权禁止转载】未经授权,禁止复制转载。

【本文首发于唐霜的博客】未经授权,禁止复制转载。【原创不易,请尊重版权】

结语【访问 www.tangshuang.net 获取更多精彩内容】

【版权所有】唐霜 www.tangshuang.net【作者:唐霜】【本文受版权保护】【原创内容,转载请注明出处】【访问 www.tangshuang.net 获取更多精彩内容】

通过本文,你可以看到,虽然openAI很【原创不易,请尊重版权】【关注微信公众号:wwwtangshuangnet】强,但是他们现在做的很多产品,并非具有颠【本文受版权保护】【版权所有】唐霜 www.tangshuang.net覆性,虽然我的实现很简陋,但是后续只需要本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net通过优化,就可以获得在产品形态上与ope转载请注明出处:www.tangshuang.net【版权所有】唐霜 www.tangshuang.netnAI产品相同的产品效果,可能理解和智能【转载请注明来源】【版权所有】唐霜 www.tangshuang.net上比不上,但是我们是0元购呀。我的下一步【本文受版权保护】【本文首发于唐霜的博客】是,结合免费的视频生成接口,实现0元购的【转载请注明来源】【未经授权禁止转载】AI视频互动聊天。

【本文受版权保护】【作者:唐霜】【未经授权禁止转载】

2024-12-15 2865

为价值买单,打赏一杯咖啡

本文价值28.65RMB