从60%到85%，科大讯飞是怎么做到的？-刘聪、大橘-观察者网

【导读】 我们在2017年11月份，医考机器人以456的高分通过了国家职业医师资格考试。在接下来的时间里面，我们基于领先的核心技术，深入到医疗辅诊的各个核心的刚需场景，去解决实际问题，核心指标有了大幅度的进步。

观察者网·大橘财经讯（文/一鸣编辑/周远方）10月23日下午，在科大讯飞“全球1024开发者节”上，科大讯飞AI研究院常务副院长刘聪发表了关于“构筑AI科技树，焕新美好新生活”的主题演讲。刘聪表示，语音识别是科大讯飞的传统强项，目前其已将直播场景下复杂任务的识别效果从60%提到了85%。

科大讯飞AI研究院常务副院长刘聪

刘聪介绍，近年来，科大讯飞陆续推出了方言识别、远场交互、多麦克风阵列等相关的功能，将语音听写从简单场景的可用做到了通用；语音转写从原来的不好不可用，做到了演讲、会议、庭审等复杂场景的好用；语音控制、命令唤醒，也从简单场景的可用，做到了复杂场景的好用。

下一步，科大讯飞将持续深耕语音识别，去挑战更加复杂的场景，去实现从语音到声音，从单纯的文字内容的识别，到音频的全场景解析。例如直播场景这样有游戏、音乐以及笑声、掌声等各种音效嘈杂的背景下，如何有针对性地提取想要的声音。

“面对这种复杂的环境，科大讯飞已经有一套全场景音频解析的整体方案。目前，我们在直播场景下一个很复杂任务上的识别效果，已经从60%提到了85%，”他表示未来相关技术会在讯飞开放平台和讯飞听见上线。

以下是刘聪演讲节选：

我们知道语音识别是讯飞的传统强项，从早期的呼叫导航到2010年我们发布了讯飞超脑语音云和输入法，开启了中文语音输入的时代；通过深度学习框架持续的迭代效果，接下来我们又陆续推出了方言识别、原厂交互、多麦克风阵列等相关的能力；2015年我们又将人机交互的场景拓展到人人对话的场景。

整体来说，我们总结出三点，我们将语音听写从简单场景的可用，做到了通用；语音转写从原来的不好不可用，做到了演讲、会议、庭审等复杂场景的好用；语音控制、命令唤醒，也从简单场景的可用，做到了复杂场景的好用。

那随着现在语音识别在更多场景的应用。我们要想一下，语音识别下一步发展的方向是什么？又有哪些技术可以从实验室场景走向成熟，还有哪些价值值得我们发掘？

首先我们认为语音识别需要持续的去挑战更加复杂的场景，去实现从语音到声音，从单纯的文字内容的识别，到音频的全场景解析。例如现在我们在泛娱乐当中，我们可以看到直播短视频有很多更加复杂的声音现象，需要我们去解决。例如在直播的过程当中，背景可能是复杂多样的，可能有视频声、游戏声或者音乐声。此外直播连麦的时候还会经常出现多人混叠的对话，这些对我们的语音识别都会有很大的影响。除此之外，这些视频当中还会包含像笑声、掌声、各种音效这样一些其他的声音现象。

针对这样一个场景，我们一方面需要降低各种背景的噪声对识别精度的影响。另外一方面，要有针对性的将我们感兴趣的声音提取出来。这里我们展示了全场景音频解析的整体方案。首先我们通过多分辨率特征提取的声音检测方案，再结合我们的序列训练，对一些相似声音进行精细建模，可以实现将笑声、音效等非语音的声音和语音内容分离。

针对包含语音的有效内容，我们也使用了语音降噪和分离的方案，综合利用我们的声音、文本、说话等信息，以及在有条件的情况下，还可以使用多模态的唇形、视线以及麦克风阵列的空间位置等信息来进行联合建模。

这些例子都是我们的真实算法、针对真实数据的一个结果。我们的算法针对这样的复杂音频，有了一个很好的处理效果，可以有针对性的提取出更多层次。目前，我们在直播场景下一个复杂任务上的识别效果，已经从60%提到了85%，未来我们相关的技术也会在我们的开放平台、讯飞听见等上线。

语音合成

接下来我们来看一下语音合成。我们知道语音合成一般是以自然通报分来作为评价指标的，其中5分是满分播音员的水平，4分是普通发音人的水平。过去我们是在中英文上，包括冰波形拼接、包括参数合成的方法上达到了普通发音人水平。

近年来，伴随着深度学习的加持，我们提出了基于听感量化的多人混合训练等合成框架，并进一步在向配音合成，然后对话合成等更有表现力的场景，做到了接近4.5分的水平。

合成技术也在持续进步，合成的一些领域，风格也是从单一向多元化发展。那么问题又来了，当我们的合成自然度已经越来越接近真人水平的时候，合成还能有哪些令人惊喜的提升呢？合成下一步发展方向又是什么？

我们要先想一下，为什么像短视频有声书这样的内容非常吸引人，因为它不仅仅是单纯的从文本找语音的生成，而是基于我们的文本、声音、画面等基本的素材，实现了全方位的包装。例如，我们的语音当中会包含角色演绎、情感切换的内容在配合上背景的音乐，各种音效，从而形成了这样一个非常生动活泼的内容。

像我们的语音合成的发展方向，同样不能只以单纯的追求自然度MOS分为目标，而是要追求用户可以感知的，同时技术可以实现的更高表现力的呈现。这里我们也可以通过从文本内容当中挖掘到角色、情感等更深层的信息。通过刚才说的音乐音效等听感的提升，以及我们多模态这样更具表现力的呈现来实现。

对应于语音识别的全场景音频解析，我们认为语音合成也需要实现从语音到声音的全场景音频合成。去年1024发布会上，我们在车载场景下使用我们的环绕音效，提升了用户听感的效果。今年我们又进一步进行了拓展，一方面，我们可以基于自然语言理解技术，从文本当中分析到合适的情感焦点以及我们角色相关的信息，并通过语音呈现出来，进一步结合我们针对一些特殊情况打造的背景音乐，从而呈现出一场全局的音频、全场的一个合成。这里我们也是以一个交互场景为例子，来看一下我们这样一个听感提升的效果，请放视频。

我们可以看到在这个例子当中，一方面它通过对内容的理解，实现一人分饰多角和情感的变化。另外一方面它能通过对场景的理解，当知道用户累的时候，可以主动的去推送这样一些舒缓的音乐和音效。这一解决方案除了在交互场景，在小说合成、配音合成等场景也大有可为。

另外我们知道情感的表达、合成和预测也是我们语音合成当中的一个重要的方向，也是业界的研究热点。但是现在我们看到业界的情感语音合成一般是输入一句文本，并指定一种情感，然后输出一段饱含情感的语音。

但我们想一下，在人与人沟通过程当中，其实情感的表达并不是这么全局化、单一化的，而是有一些细微的变化情况。我们的机器合成常被人们诟病，说这个声音没有人情味的一个表现。

针对这样一个问题，我们也是从单一的情感合成升级到面向交互场景的这样一个微情绪合成的方案。该方案也是基于我们刚才说的，通过听感量化的编码，来对我们多种情感进行组合式编码，以实现我们对局部一些情感的准确的预测和控制。在有了这样一个方案之后，我们再结合情绪识别等其他的方案，就可以在交互当中体现出一些细微的情感变化，让我们的用户用不同的语气说话的时候，可以得到一些不同的反馈，让我们整个的交互过程变得更加有趣，更加有人情味。

虚拟形象

接下来我们来看一下多模态合成，也就是虚拟形象。我们在去年发布了全球首个多语种虚拟主播小晴，大家也非常熟悉了。今年我们也是陆续发布了更多的虚拟主播，并在多家媒体使用。

今年我们为小晴进一步研发了表情生成、动作生成等技术，同时结合我们生活化场景的设计进一步的优化，让我们的小晴具备了交互的能力。当我们虚拟形象具备更好的交互能力之后，再结合我们在一些场景的静态和动态内容的嵌入，我们就有可能形成一些更加有意思的现象。

例如我们在学习机里面，基于我们的虚拟形象技术、结合我们的语音评测等技术，我们设计了一个可以实时互动的英文主播的教学，让整个英文的教学变得特别有趣。我们也来看一下演示的视频。这里面所有的内容都是合成出来的。未来我们也非常欢迎各位合作伙伴可以想一下在我们各自场景有没有什么样的需求，可以用我们的这样一些虚拟形象的技术，让大家在一些场景当中交互变得更加有意思。

行业认知智能

我们知道认知智能相对于以上语音图像等感知智能其实难度更大。在过去几年，讯飞在向教育、医疗、政法等行业的认知智能取得了不错的进展。以医疗认知为例，我们在2017年11月份，医考机器人以456的高分通过了国家职业医师资格考试。

在接下来的时间里面，我们基于领先的核心技术，深入到医疗辅诊的各个核心的刚需场景，去解决实际问题，推出了我们的智医助理的产品，并结合我们的各个场景、各个的数据去进行迭代的优化，花了大概两年左右的时间，实现了从核心技术到应用落地、再到大规模价值兑现的过程。

具体来看，我们可以看到在智能分诊、病历、质检等医生看病的核心场景，我们的核心指标有了大幅度的进步。我们针对基层医疗机构的复诊合理率从70%提高到90%以上。同时我们相应的产品成果也在全国11个多省100多个区县，形成了大规模落地的根据地和案例，相关的复诊次数使用超过8000万次。

同时，我们还在多个行业持续取得新的进展，例如在教育，我们今年全面升级了面向多个学科的以人推题的方案，满意率超过95%。我们在政法行业的刑事辅助判案系统，也向民商事去拓展，节省了20%以上的人力。我们面向金融领域的要素审核，准确率达到95%以上，审核效率提高30%。

我想行业认知智能之所以能持续的突破，既依赖于我们核心技术的持续提升，也依赖于我们对行业理解，以及在此过程当中经验和数据的积累。

通用知识技术提升方面，我们除了机器阅读理解的权威评测SQUAD任务当中持续取得突破，今年也在难度更大的多部推理机器阅读理解和综合评测能力的GLUE任务上取得了突破。

今年8月27日，讯飞哈工大联合实验室以我们自主研发的MacALBERT模型，在这个任务上取得了综合第一，这一成绩代表讯飞在认知智能的通用技术上，持续保持业界一流的水平。

我们也基于这样的技术，针对中文领域，训练了业界效果领先的中文模型，并开放给业界，给研究人员提供相关的服务，目前这也是最受欢迎的中文预测的模型之一。

但是，我们看到认知智能的落地和感知智能还是有很大区别的。例如在语音识别当中，如果我有一个好的算法，我可能通过API（Application Programming Interface，应用程序接口——观察者网注）的方式，很快的就可以让大家体验到。但是认知智能，如果要是实现大规模真正应用落地。核心技术只是其中一环。问题定义和持续的迭代优化的方式都至关重要。例如在问题定义当中，场景的定义非常重要，我们需要在熟悉行业的流程，对行业知识非常了解的情况下，做好场景分析，做好整个方案的选择，再设定合理的技术方法。

举个例子，当我们要做一个作文评分的时候，我到底是应该把整篇作文一起输进去，用一个端到端模型的方案来解决，还是分别针对每一个评分点，先评了之后再结合在一起，这些都会影响最终的效果。对行业的认识浅，流程设计不合理，以及技术方案选择不对，都会影响最终的认知智能的效果。

也正是因为这个原因，目前业界相关的能力一般只能以单点的API能力来提供一些的服务。而我们在各个行业持续落地的过程中也一直在想，能用什么样的方式可以让我们的开发者和合作伙伴可以更好地享用到认知智能落地的一些成果。

在认知智能落地当中，我们从行业场景化应用，到核心技术研发，按专门的定义的过程分为了像通用的产品能力、定制应用研究、基础研究等能力。在这样的定义之下，讯飞在多个行业落地应用过程中积累沉淀下来的一些共性的通用产品和能力，就可以在不同行业当中的相似场景当中使用。

同时我们也提供了一套相关的工具，让我们整个互动的门槛变得更低、效率更高。这就是我们今天重磅推出的认知中台。认知中台不仅包含了科大讯飞领先的技术能力，汇聚了我们在各个行业的经验来降低我们问题定义的难度，可以大幅度提升场景定制的效率。

尾声

今天的技术分享已经接近尾声了，讯飞科技树的全景已经展现在大家的眼前，我想从原始的一颗种子发展到参天大树，科技树的每一片枝叶、每一个技术背后都蕴含了大量的付出和努力。同时我们也要用科学的方法，合理有序地进行科技树的构建，这样才可以既保证科技树的根基稳固，又保证多个技术职业之间高效协同。

在这里面既有来自于业务场景的实际的技术需求，我们需要快速验证、持续迭代，也有一些可能暂时在实际场景无法使用的技术。我们要根据技术发展的趋势和数据的趋势做出预判，设立合理的台阶，提前布局，一旦试用，就有可能在产品当中实现差异化的优势。同样还有一些方向，需要我们数年不懈的努力，不断的试错，可能在短期看不到回报的一些前瞻基础性研究，但是一旦成功，就有可能对数据迭代多个方向，甚至整个科技处产生深远的影响。

我想就像刘总上午说的，核心技术驱动是AI长期发展的原动力。未来我们也会一如既往的让科技树更加茂盛，并通过行业应用反哺，持续的发挥价值。同时我们也一直相信生态的力量，我们一直秉承开放合作、生态共享的原则，一直给我们的开发者提供最好最全的AI服务能力，包括我们科技树当中一些最新的成果，在技术成熟的时候，我们也会开放给我们的开发者共创筑生态。

不仅如此，我们还希望跟开发者一起共同培育我们的生态科技树，共同拓展AI能力和方案，并在更多的行业落地应用。这也是我们刚才去开放认知中台这样一些平台的初衷。

我们期待着在这样一个行业全面数字化、全面AI化的时代在科技树还有非常多想象空间的时代，可以和大家一起深入各行各业，打造更多有价值的产品和方案，解决更多有意义的社会刚需问题。共创更加蓬勃的筑生态，让我们一起用人工智能焕新美好生活，一起用人工智能建设美好世界，谢谢。

本文系观察者网独家稿件，文章内容纯属作者个人观点，不代表平台观点，未经授权，不得转载，否则将追究法律责任。关注观察者网微信guanchacn，每日阅读趣味文章。