留意暗暗话被 AI 听见!(嘘)最近海外一款不错读唇语的 AI 软件火了!伦理片
具体成果如下:
红毯上布莱克・莱弗利小声说:“好垂危”,笑着讲话时肉眼很难离别唇语,但 AI 不错。
乍一看只可看见一转白牙(bushi)的侃爷,唇语也能被应对破解。
看完后网友们运转纷纷商量,打开脑洞:
求“联名”型网友:快把它和 Siri 连结一下吧!这样我就无用像小白痴雷同对着电脑高歌了!
测评型网友:我念念用它试试“座机画质”的视频!
惦记安全型网友:我有点眇小,我念念戴口罩了。(呜呜)
实测 Readtheirlips 成果若何量子位整理了一些视频,为众人亲测了一下 Readtheirlips 的使用成果。
先试了一下阿尔特曼在斯坦福的访谈视频,把生成的文本和原始对话对照了一下,推行完好意思契合~
而濒临小颜料比拟多的老马,Readtheirlips 的发达依旧雄厚。
不外以上两个视频王人是东谈主物全程正脸对着镜头的。
换成了讲话时爱比划的小扎伦理片,Readtheirlips 奏凯泄露虚伪。(视频中东谈主物不是全程正脸)
而主角换成卡帕西之后,因为他讲话太快,吉吉影音 偷拍自拍生成的文本出现了识别虚伪的情况。(左侧为 Readtheirlips 生成,右侧为笔墨处理软件生成)
临了,我们尝试着上传了一个 16 分钟的视频,Readtheirlips 奏凯泄露虚伪,无法识别推行。
回想一下:
Readtheirlips 识别视频的技巧在一分钟摆布 。
就像他们表明的那样淌若东谈主物的正脸不可正对镜头,那么模子就很难给出正确谜底。
而濒临语速过快的视频推行,Readtheirlips 只可识别出其中的一些推行。
对此,团队成员回复谈:
是的,我们还莫得讨论到这里,可是会很快处分这个问题!
而对于上传视频的时长适度,他们这样说:
刻下只搭救 3 分钟以内的视频,但所以后我们会少量少量往上升迁的!
AI 若何“听”暗暗话看完亲测视频,我们也来唠一下 Readtheirlips 的责任旨趣。
望望它是奈何读取东谈主类唇语的:
最初,讨论团队用渊博的标注数据(已知的嘴唇通顺作为偏激对应的文本推行)来对模子进行教师。
在此基础上,用户要上传一段视频,这段视频要包含讲话者的面部特写,尤其是嘴部作为。
然后模子会对视频进行嘴部通顺的分析:先是通过面部检测识别嘴唇的位置,然后再索取嘴唇的几何特征,(体式、开合进度、通顺轨迹等),临了分析嘴唇在讲话历程中的动态变化。(速率、标的和体式变化)
之后,模子会将索取的嘴唇特征与教师数据中的特征进行匹配,来识别出视频中东谈主物所说的推行。
将识别出的单词或短语组合成完整的句子,进行一下高下文相识,确保语法和语义的正确性。
最终将识别出的推行输出为文本局面。
开导团队Readtheirlips 的开导团队 Symphonic Labs 是一家初创公司。
领英上泄露它本年 4 月份才刚刚开导,逼迫刻下,公司东谈主数不到 10 东谈主。
91探花他们之前还研发过一款通过阅读唇语即可完成及时文本转录的软件 Symphonic
两款软件的试玩连络王人已附上,感兴味的一又友们不错去尝试一下~
Readtheirlips 试玩连络:
https://www.readtheirlips.com/
Symphonic 试玩连络:
https://symphoniclabs.com/
参考连络:
https://x.com/crsamra/status/1833494380357013879
本文来自微信公众号:微信公众号(ID:QbitAI),作家:存眷前沿科技
告白声明:文内含有的对外跳转连络(包括不限于超连络、二维码、口令等局面),用于传递更多信息,从简甄选技巧伦理片,终端仅供参考,IT之家悉数著作均包含本声明。