干货 | Siri 语音识别的小心机:你在哪儿,就能更纯粹地辨别那附近的地方

小编们能够找出造成那种不方便(准确辨认具名实体)的五个成分:

图片 1

用来陶冶通用语言模型对照基线的磨练文本(D1)包括从各类数据源收集到的、保密、实时使用的数码。

4月2十一日,微软语音和对话切磋团队老董黄学东在舆论“The Microsoft 2017
Conversational Speech Recognition
System”中详细举行详细介绍了她们的最新进展,他们的话音识别系统也达到了相同的5.1%的错误率。那是产业界的新的里程碑,也比她们二零一八年的实际业绩又有醒指标滋长。

先验可能率=0.2:Vidodivino

【编辑推荐】

在本节中,大家展现了对提议的依据地理地方的言语模型的自己检查自纠基准测试,与将通用模型用于米国POI
识别的义务拓展了对待。在享有的试验中,大家使用了一种混合的卷积神经互连网CNN-HMM(隐马尔可夫卷积神经网络)[6]。自动机是行使
5,000
个时辰的加泰罗尼亚语语音数据经过过滤器组特征操练取得的。具体而言,我们的遵照地理位置的语言模型是用作八个4元模型演练得来的。大家手动改写了测试数据,并对地理地点展开了标注,一边在测试时期能够利用正确的
slot 语言模型。接下来,大家将首先描述大家用来陶冶和测试 Geo-LM
的数据,然后呈现实验结果。

总体而言,此次研商中的识别错误率,比较2018年微软基于神经互联网的会讲话音识别系统的
12%
的错误率降低了重重,从而实现了一项里程碑。此外,微软还将其识别系统运用在全部的对话环境中,使其能够调动上下文,并预测下一步恐怕会产出的单词或句子。

[2] U.S. Census Bureau, “Cartographic
Boundary Shapefiles,” 2015.

微软小冰近年来进一步会讲话了,不但平时解锁技术,而且能够一语说破领悟人类语言的交流情势。最近,微软在和谐的法定博客上发布小说,注脚微软的口音识别正确率获得长足进展,从原有的5.9%错误率,立异到明天的5.1%错误率。

  • 三个声学模型,用于捕捉语音的声学特征和语言学单位体系之间的涉及,如语音和单词之间的关联
  • 三个语言模型(LM),它决定了有些特定的单词体系出现在一种特定的语言中的先验可能率

话音识别技术在近期两年收获了急迅上扬,固然日前语音识其他应用场景还幸免小冰、小娜、Siri等语音帮手,而该项技术将变成物联网社会中不可或缺的环节,应用在无人开车、智慧家庭等各类应用场景。

[5] D. Povey, A. Ghoshal, G. Boulianne,
L. Burget, O. Glembek, N. Goel, M. Hannemann, P. Motlicek, Y. Qian, P.
Schwarz, et al., “The Kaldi Speech Recognition Toolkit,” Proceedings of
ASRU, 2011, pp. 1–4.

AI 科学和技术评价按:那篇作品来自苹果机器学习日记(Apple Machine
Learning
Journal)。与此外科学和技术巨头人工智能实验室博客的诗歌解读、技术成果分享分歧,苹果的机械学习日记即使也是介绍他们对机器学习相关技能的心体面会,但主题在于技术产品的贯彻进程、技术能源用户体验之间的挑三拣四,更像是「产品老板的
AI app 研究开发日记」。过往内容能够参见 怎样陈设能在Apple
沃特ch上实时运维的华语手写识别系统,苹果揭秘「Hey Siri」的支付细节,为了让魅族实时运营人脸检查和测试算法,苹果原来做了那般多努力。

因为 T1
是从生产条件的流量中擅自取样获得的,它含有了相沃尔玛(沃尔玛(Walmart))和家得宝那样的巨型
POI,而通用语言模型已经能够分辨出它们。为了在进一步不便找到的地头 POI
上测试名称识别系统的质量,大家在 T3 上进行了测试,在那之中并不包蕴大型
POI。如表 4 所示,实验结果评释,通用语言模型在 T3
数据集上表现并不好,而小编辈提议的依据地理地点的言语模型在多少个地理区域辽宁中国广播集团泛能够将字错误率下跌十分之四上述。

先验可能率=0.4: TD 花园

咱俩还比较了八个系统的运营速度,并且观看到
Geo-LM 的平均延迟稍微扩展了不到10皮秒。

我们选取的是从 Siri
在美利哥的生育流量中随机挑选出的真实世界中的用户数据,大家遵照它成立了四个测试集:

咱俩的试行注脚,使用本地化的音讯能够使本地 POI
搜索的字错误率降低18%之上。在不带有大型 POI 使,字错误率会下落 十分之四以上。

原标题:干货 | Siri
语音识别的小心机:你在哪儿,就能更纯粹地分辨那附近的地址

貌似的话,虚拟助理都能够科学地辨认和透亮像星Buck那样的著名集团和连锁商店的名字,可是很难分辨出用户查询的巨大的微型地面
POI
(兴趣点)的名字。在自行语音识别系统中,人们公认的三个属性瓶颈是:准确有切实名字的的实业(例如,小型地素不相识意人),而那多亏频率分布的长尾(少量、多样类的需求)。

算法

图片 2

图3
展示了3个依照加权有限自动机的类语言模型的小例子,个中带有了3个表示多个包蕴先验可能率的简约模板的主语言模型(某条记下相对于其它的选料出现的票房价值):

表3在真实世界用户测试集(T1和T2)上通用语言模型和
Geo-LM 获得的字错误率相比

[7] X. Xiao, H. Chen, M. Zylak, D.
Sosa, S. Desu, M. Krishnamoorthy, D. Liu, M. Paulik, and Y. Zhang,
“Geographic Language Models for Automatic Speech Recognition,” in
Proceedings of ICASSP, 2018.

在我们的试验中,我们应用了两类测试数据:

[1] U.S. Census Bureau, “Combined
Statistical Areas of the United States and Puerto Rico,” 2015.

先验概率=0.3: 地方正好为CS-POI

  • T1:2个POI搜索测试集,由本土 POI 搜索域中的20,000条语音组成
  • T2:3个通用测试集,由没有包括在 POI 中的10,000条语音组成

大家在本文中建议的法子架设用户更偏向于用运动装备搜索附近的本地
POI,而不是选拔 Mac,因而大家在此处运用移动装备的地理地方音信来增强 POI
的辨认品质。那促进我们更好地打量用户想要的单词种类。通过将用户的地理地点音讯融合到Siri的自发性语音识别系统中,大家早就能够肯定地拉长本地
POI 识别和领悟的准确率。

地理区域

正文描述了大家是何许应对这一挑衅的,通过将用户地理地点消息融入语音识别系统升高Siri 识别本地 POI 消息点(point of
interest,兴趣点)名称的能力。能够将用户的地点音信考虑在内的自定义语言模型被喻为基于地理地方的言语模型(Geo-LMs)。那几个模型不仅能够使用声学模型和通用语言模型(例如标准的语音识别系统)提供的音信,还是能够利用用户周围的环境中的POI音讯点的新闻,更好地打量用户想要的单词系列。

咱俩依照意大利人口普遍检查局的汇总总括区域(CSAs)[1]来定义地理区域。从通勤方式来看,CSA
包蕴了一石二鸟上和社会上连发的将近大都市区域。169 个 CSA 覆盖了U.S. 十分之八的人数。大家为每一种 CSA 建立2个专用的 Geo-LM,个中包括二个大局
Geo-LM,覆盖全部 CSA 未定义的区域。

出于对系统运营速度的影响不大,对于此外区域的遮盖还有十分大的升迁空间。然则,除了区域性的言语模型,还亟需一连提供三个环球化的
Geo-LM,从而使机关语音识别系统能够处理中距离查询,并且能够应对用户在协理的区域之外的事态。

新近,由于深度学习技术的广泛应用,自动语音识别(AS科雷傲)系统的准确率有了大名鼎鼎的拉长。然则,人们眼下重点是在通用语音的辨识方面获得了质量的晋升,但规范地辨认有具体名字的实业(例如,小型地不熟悉意人)仍旧是叁性子质瓶颈。

图3.
基于加权有限自动机的类语言模型的简便示例

先验概率=0.4: 塞维利亚希伯来高校

表1.通用语言模型和Geo-LM中n-gram的数额

在依照地理地方的语言模型中,Slot
语言模型是用特定类的实业(POI)锻练的。在我们提议的系统中,为各类地理区域都构建了3个slot语言模型。各样slot语言模型的演习文本由相应区域的本土POI的名目组成。

图片 3

  • 系统平日不晓得怎么表示用户大概怎样发出模糊的实业名称

为了保障解码词典可以涵盖全体POI的名字,当有些POI
的名字在大家的解码词典中不能找到时,大家会动用三当中间的「字符到音素(G2P)」系统活动推导出发音。

引言

先验概率=0.2:寻找近来的CS-POI

将 POI 作为一个总结 n-gram
语言模型举行练习让大家能够对 POI
名称的动态变化实行建立模型。例如,只要「印度孟买理理大学」一词存在于磨炼文本中,「复旦科」和「佛罗里达Madison分校大学」都足以在
slot
语言模型中被建立模型。大家依照在暴发的流量中观测到的遍布获取先验可能率。

数据

一套内部记录的地点POI搜索测试集(T3)。大家挑选出了多少个美利坚联邦合众国主要的大概会区,并基于
Yelp 上的评论和介绍选出了 1,000 个最热点的 POI。对于每七个POI,大家将记录来自于多个不等说话者的三条语音,并且分别为那三条语音加上或删掉领语「direction
to」。请留意,大家从列表中剔除了 6,500 个巨型
POI,因为它们大多数都足以在不选择 Geo-LM
的情事下被识别出来,并且其识别关键是依照热度进行的。

相关文章