雷军也成了AI语音的受害者?

发布日期:2024-10-12 06:02    点击次数:125

本文来自微信公众号:王智远,作家:王智远,原文标题:《雷军,可能有点心烦...》,题图来自:AI生成

雷军最近可能有点心烦……

烦什么?你听到了吗?最近,有不少东说念主用雷军的声息进行二次创作,作念成多样段子。我听完之后,认为既搞笑又无奈。

比如:

“老子踏*一眨眼,国庆节就当年了,我又得拖着一大堆破行李去上阿谁X班;假期里,躺在抖音上刷视频的废料们,群众好,我是雷军,你们千万不要用小米手机看黄片。”

还有更雷东说念主的本体,在哔哩哔哩上,他的AI语音被用来制作多样游戏诠释、话题封面语,比如打篮球、打麻将,主打一个“不爽”,吐槽和评述相配机敏。

至于让我感到无奈的部分,却不太好刻画。在写这篇著述之前,我把其中一个短视频发给了我爸,并问他:“你认为这个短视频有什么极端之处吗?”

我爸回答说:“挺有酷好的。”但他并莫得提到语音的问题,换句话说,他根底没相识到这是AI生成的语音。可见,AI语音照旧大约达到以伪乱真的地步了。

不外,此次假语音和之前“Are you ok?”有很大不同。

Are you ok,本体属性不彊,自己没什么坏心,也不会激勉诬陷,最多让本东说念主认为有点麻烦;雷军致使还幽默地报酬过,还把版权买下来,从营销的角度来看,这反而成了一种正面的宣传。

但AI语音有点不一样。

当今鸠合上,大部分雷军AI语音,都是网友们用他的声息说的一些很过分的话,什么“辛勤操控小米手机炸死你”或者“我开小米SU7撞死你全家”。

这些话极端极点。不了解的东说念主,会认为简直雷军说的,照旧波及到虚构的问题。

AI语音有许多种表情,常见的包括:语音合成、语音克隆、语音识别、深度伪造和天然谈话处理。前三种群众相比纯属,后两种是最近两年才逐渐流行起来的。

深度伪造(Deepfake)是由“深度学习”(deep learning)和“伪造”(fake)组合而来,酷好是用深度学习时期来师法东说念主的声息和图像。

而天然谈话处理(NLP)是让狡计机不息和处理东说念主类谈话的时期,应用相配广,比如:智能客服和语音助手。

许多创作家在给视频配音时,为了省时省力又不想出镜,频繁会先写好翰墨,再用AI来诵读和合成。

拿我来说:一般会采用港版男正常话、广西表妹或东北话,这么让文本画面和其他地域口音皆集,刚好酿成了赫然的反差感。

这些时期的作用是停留在语音合成和搞笑方面,确乎没什么极端的影响;然而,一朝波及到名东说念主 IP 效应再加上搞笑,同期还试图进行文化层面的输出,情况就大不调换了。

因为这不再是单纯的逗趣,还可能激勉多样社会响应。

之前对于“三只羊”卢某某的灌音想必不少网友刷到过,那段语音听起来相配传神,引起了许多东说念主的相关和担忧,我听完后都嗅觉像真的,致使还在群里吐槽事件自己太颠覆三瞻念了。

不外,9天后(2024年9月26日),合肥市公安局很快发布了官方报酬,说那是假的,并提醒群众不信谣、不传谣。

假语音威力不比短视频小,短视频有画面,更容易分辨真假,但语音却很难分袂,这就更容易误导东说念主们。

海外也有肖似事件。我用Perplexity查了一下对于AI作秀的新闻,发现他们致使把盘算瞄准了总统,问题高潮到了政事层面。

把柄《连线》杂志的报说念,本年齿首,一些新罕布什尔州的选民接到了冒充“拜登总统”的自动语音电话,试图误导他们在初选中投票。

白宫新闻书记说明,电话是伪造的,并非总统灌音。

好意思国联邦通讯委员会(FCC)主席杰西卡·罗森沃塞尔(Jessica Rosenworcel)暗示,比年来,机器东说念主电话中使用的AI生谚语音变得越来越先进,这些语音不错师法名东说念主、政事候选东说念主,致使亲密家东说念主的声息,从而制造错误信息,误导公众。

她强调,若是语音克隆公司在建造应用时波及名东说念主、可能误导公众、传播风险高的本体,应该在传播中加上赫然的标记,提醒公众驻扎。“咱们漠视,将使用AI生谚语音的机器东说念主电话(robocall)视为违警。”

另外,还有著明歌手泰勒·斯威夫特的AI伪造“瞻念照”在网上疯传,这类AI作秀事件激勉了东说念主们对东说念主工智能的粗造担忧。

几天后,作秀的东说念主被找到,他坦言我方用AI用具ElevenLabs,仅花了不到20分钟和1好意思元就完成了作秀,是不是很惊东说念主?

本年3月,一位记者发现,只消在上传文献开端加入一分钟的静音,就不错绕过法例,收效克隆特朗普和拜登的声息,尽管时期不错用来抗争时期,但AI检测软件往往无法灵验识别AI生成的音频。

难说念,AI生谚语音真的能遒劲到这种地步吗?

其实我也有疑虑。自从“三只羊”卢某某AI灌音事件后,我一直存眷着报酬此事的品牌(某声)的发挥。

他们的网站上确乎有雷军的AI合成声息,群众不错我方去试听,音色与真东说念主相配接近,而且发布的数目也不少,这给了许多蹭热度的契机,他们哄骗名东说念主的声息制造话题。

不仅是雷军,当今许多互联网平台,比如抖音、B站,都有多量与马保国、葛优、“麦克阿瑟(一位师法网红)”等名东说念主声息关连的视频。

这些视频哄骗的是AI配音时期,你只消采用相应的东说念主物声息,然后输入翰墨,就能生成该东说念主物声息的本体;天然许多圭臬会用代称来秘籍版权问题,但提供的声息种类多达上百种,还不错休养语速和语调。

图释:某声品牌社区广场,仍不错搜到一些名东说念主音频

收尾写这篇著述,在(某声)社区扮装市集,依然不错找到雷军、蔡徐坤、卢本伟、刘亦菲、成龙等名东说念主的仿声合成音,你很难分辨是否是真东说念主。

我并不是单单品评某一个软件,而是扫数语音生态似乎都存在一些问题,这激勉了咱们的念念考:

以前互联网平台只对图文和视频进行管制,当今进入了AI期间,AI成了一种新前言。

那么,AI动作前言载体作念出来的平台,是不是自身也要自我管制?是不是得条目用户,非本东说念主不行用别东说念主的声息伪造?至少当今看来,属于三不论的地带,莫得很细节的法律条规、也短缺明晰的社区法例。

既然提供时期的平台监管不到位,那么,发布平台就真的无法监测吗?比如,我将AI语音发布到抖音、快手等平台,难说念它们就无法检测到问题?

问了一圈懂行的一又友,他们说,这波及到两方面问题。

从时期角度,语音模子的自动语音识别(ASR)和文生文、文生图的旨趣相似,它们领先都要多量的语料来进行考验,惟有这么才智生成更多综合化的模子。

这些模子越细分,语音识别成果就越好。这让我嗅觉,这像是一个层层递进的套娃游戏。

另外,咫尺国内主流的ASR时期多接受端到端模子(End-to-End Models)。这种模子通过一个鸠合,将输入的语音径直调换为输出阻隔,简化了传统ASR系统中多个复杂组件的历程。这使得识别过程愈加高效,但中间方法也减少了。

比如说:当你对入辖下手机说“今天天气若何样?”,端到端模子能径直将语音转为翰墨,查询天气信息,并告诉你阻隔,这种形状相配快捷,但它不具备中间的感知智商。

天然当今主流的AI语音模子驱动接受更深度的学习框架,如轮回神经鸠合(RNN)、短万古顾虑鸠合(LSTM)和Transformer来处理一些关节部分,但这些时期仍处于早期阶段。

面对一些更复杂的情况,如方言和多音轨的杂音,模子依然存在局限性,因为考验数据不够全面,模子智商有限。

从审核机制来看,问题就更赫然了。一位时期一又友提到:

2018年,有一则新闻,本日头条的首创东说念认识一鸣发表了一封公开信,报酬“内涵段子”被关停的事件。在信中,他提到为了弥补算法和机器审核的不及,需要加强东说念主工运营和审核,将6000东说念主的审核团队扩大到10000东说念主。

通常,快手当年也采用了肖似步履,将2000东说念主的审核团队彭胀到5000东说念主。他们都相识到,在“算法是否具备价值瞻念”的问题上,必须加大干涉。

当年视频靠近的问题,当今AI语音也际遇了。

平台审核机制分为两部分:机器审核和东说念主工审核。机器审核能快速识别赫然违章的本体,但对于依稀、复杂的本体,机器可能判断不准确,就要东说念主工审核。

AI语音的复杂性不亚于视频,不同语种、口音、语速等都会影响识别成果。要逐帧处理这些身分,况且应答AI生成的以伪乱真的音频,是一项极大的挑战。

你想想看,用AI生成一个音频,再让它我方识别是AI生成的,这种轮回无疑是对时期的极大考验。

要想结束“魔法击败魔法”的成果,平台要干涉更多资金和资源,这不仅清贫,还要时辰;因此,咱们正处在一个时期、伦理与监管并行发展的新阶段。

一个在大厂职责的一又友告诉我,咫尺传播本体的平台针对这种“灰度空间”有三种处逸想法:

第一,查验元数据是否有隐性标记。

所谓隐性标记,即音频里用来详情本体的来源或生成的形状,咫尺,这项时期照旧有所发展和应用。

肖似于字节升迁早年自研的掩蔽水印算法,当今照旧应用到多样产物上。本年3月14—15日,中国东说念主工智能产业发展定约(AIIA)发布了“信元令”数字隐写标记平台,也在鼎力推论。

绵薄来说,他们都在贬责归拢个问题,即让AIGC生成的本体自带标记,这种标记东说念主看不到,时期却看获得。

第二个想法,提醒用户自行添加说明。

若是平台未检测到隐性标记,会提醒用户主动表明本体来源。你可能也见过在发布本体时,不错采用标注“取自鸠合”“AI生成”或“原创拍摄”。

用户不想我方声明,也莫得隐性标记,那平台会进行第三种想法:抽样检测。一朝发现语音中有AI的踪迹,就会径直添加提醒标记。

了解了这些,你就能分解,为什么有些视频下方会出现“疑似使用AI生成时期,请驻扎甄别”的教导。为什么说是“疑似”呢?因为咫尺AI还无法透顶准确地识别另一个AI生成的本体。

不外,有一个前提:除非某个本体真的激勉了粗造存眷和宽广公论,平台才会主动干扰。不然,面对海量本体,平台很难作念到逐个审核。

是以,防护AI语音,不仅仅个东说念主和企业的拖累,更要时期提供商和社会各界一齐勉力。

在深度伪造泛滥的期间,雷军成为了国内第二个因AI语音作秀而受到影响的东说念主,咱们望望段子就好,千万不要成为传播的始作俑者。

纪念

AI正在师法真东说念主。

我想提醒群众,在网上浏览视频时,要多留一个心眼,最佳不要默许一切都是真实的。时期无罪,生怕别有悉心,但愿咱们能奢睿地使用它,推进社会向积极的地点发展。

本文来自微信公众号:王智远,作家:王智远