全球首个AI合成主播发布，效果以假乱真！揭秘背后技术原理 - 好文

边策李根发自凹非寺
量子位报道 | 公众号 QbitAI

搜狗又在乌镇世界互联网大会上搞了大新闻。

2016年，王小川在正式论坛里秀出AI同传，那是机器实时翻译技术，首次在高规格国际会议上实战应用。

而这一次，依然世界互联网大会，搜狗联手新华社，发布的是一项名为AI合成主播的技术。

这项新技术，可比AI同传所需的语音识别、机器翻译更复杂，需要的AI能力更全面。

直白言之，就是“克隆”出与真人主播拥有同样播报能力的“分身”。

此前，类似技术尝试的有，商业化产品发布的无。

新华社给出评价：

这不仅在全球AI合成领域实现了技术创新和突破，更是在新闻领域开创了实时音视频与AI真人形象合成的先河。

这究竟是一项怎样的技术？

AI合成主播

其实所谓“AI合成”，主要强调了其技术原理。

“AI合成主播”是通过提取真人主播新闻播报视频中的声音、唇形、表情动作等特征，运用语音、唇形、表情合成以及深度学习等技术联合建模训练而成。

该项技术要能够将所输入的中英文文本自动生成相应内容的视频，并确保视频中音频和表情、唇动保持自然一致，展现与真人主播无异的信息传达效果。

如果从落地场景去看，就是喜闻乐见的虚拟主播。

但在此之前，出现在大众媒体上的虚拟主播，多半只有声音，或者匹配一个量身定制的虚拟形象。

比如微软小冰在东方卫视担任天气预报员，就是如此。

不过搜狗的“AI合成主播”，讲究的是以假乱真，需要的技术难度和产品打磨挑战，几乎不能相提并论。

△ 搜狗AI合成主播效果
如果没有提前告知，是不是难辨真假虚实？

要实现这样的效果，2大要求缺一不可：

*
一、高逼真度。要能够自动生成：语音、表情、唇动等信息完全一致的自然视频，并已达到商用级别。

*
二、低成本的个性化定制。小数据的学习模型，使用少量用户真实音视频数据，快速迁移生成虚拟的分身模型，快速定制出高逼真度的分身模型。

最后，使用时输入一段文本，即可生成与真人无异的同步音视频。

听起来不难，实现却要经历“九九八十一难”。

人前近乎炫技的综合能力，幕后是一项又一项来不得半点马虎的小技术达成。

技术原理

背后包含了2大AI引擎。

一是语音合成引擎。在语音合成引擎中，基于用户少量音频数据，使用搜狗个性化语音合成技术，快速学习用户音色、韵律、情感等多维度特征，建立输入文本与输出音频信息的关联。

另一个是图像生成引擎。使用搜狗人脸识别、三维人脸重建、表情建模等技术对人脸表情动作进行特征学习和建模，建立输入文本、输出音频与输出视觉信息的关联映射，生成输出分身视频。

最后，2大引擎协作打磨，最终才能实现“AI合成主播”——能够逼真模拟人类说话的声音、嘴唇动作和表情，并将三者自然匹配，做到惟妙惟肖，让机器以更逼真自然的形象呈现在用户面前。

应用场景

虽然媒体领域应用，就已足够惊人。

因为和真人主播相比，“AI合成主播”能够不知疲倦地工作24小时，同时还掌握多国语言，大大提升效率、降低成本。

甚至写好文字稿，“ AI合成主播”就能即可播送了——还不会有口误或NG.

但“AI合成主播”出现，更是让个性化内容生成的门槛大为降低，娱乐、医疗健康、教育、法律等多个领域和场景，无一不适用。

虚拟教师、虚拟医生，虚拟客服等需要人类参与的内容表达场景，都能发挥价值。

当然，To
B商业应用居多，但如果你想试，搜狗方面称，在手机上借助“搜狗制音坊”小程序，也能通过录制用户一段讲话，让其转化为各种名人的声音——这就是语音合成技术在作用。

视觉方面的合成也能试，比如秒变吴彦祖：

总之，技术已经ready，就看怎么找场景落地了。

外媒评价

此外，因为史无前例，所以这个“AI合成主播”，确实也让外媒对中国AI惊叹了一把。

《南华早报》评价，知名主播在新闻制作中的稀缺资产，现在通过AI，克隆而成的“他们”有能力一天工作24小时。

CNET称：搜狗技术支撑，新华社亮相了新主播，不细看不知道不是真人。

Theverge也评价：AI开始进入官方新闻播报这样的场景，说明技术已不是早期阶段了。

总之，对一家中国公司的AI技术进展如此应用如斯，确实震惊了。

进击的搜狗

不过，如果回顾搜狗今年以来的种种AI技术进展，或许这个大新闻，也情理之中：

*
语音识别：借助搜狗输入法等产品落地，搜狗语音识别准确率突破98%（口音、噪音条件较可控环境下），行业领先；

*
TTS：语音合成界国际顶级大赛Blizzard Challenge 2018 中，搜狗获“可懂度”和“语音停顿”两项子任务全球第一；

*
机器翻译：机器翻译在国际翻译顶级学术赛事WMT 2017中获中英机器翻译全球第一、IWSLT2018国际口语机器翻译评测大赛全球第一；

*
人机对话：在NLPCC 2018比赛中，搜狗语义理解技术获得第一名、NTCIR 2017评测比赛短文本对话任务第一；

*
机器视觉：在自动驾驶领域国际顶级评测CVPR WAD 2018道路目标检测任务全球第一、Pascal VOC 2018挑战赛目标检测Competition
3，4两项子任务，全球第一、国际自动驾驶领域权威评测集Cityscapes 2018实例分割评测任务全球第一、MegaFace
2018人脸识别任务，以99.939%的准确率，获全球第一。

所以天道酬勤，AI进程中的搜狗，此时发布全球首个AI合成主播，个人奋斗得偿而已~

— 完 —

年度评选申请

加入社群

量子位AI社群开始招募啦，欢迎对AI感兴趣的同学，在量子位公众号（QbitAI）对话界面回复关键字“交流群”，获取入群方式；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号（QbitAI）对话界面回复关键字“专业群”，获取入群方式。（专业群审核较严，敬请谅解）

活动策划招聘

量子位正在招聘活动策划，将负责不同领域维度的线上线下相关活动策划、执行。欢迎聪明靠谱的小伙伴加入，并希望你能有一些活动策划或运营的相关经验。相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

热门工具换一换