搜狗推出唇语识别技术不过落地还需时间

2019-05-15 02:28:48 来源: 湛江信息港

从键盘打字到触控屏,再到现在的语音交互和手势交互,人工智能技术的发展,正在促使人机交互方式向更加多元化方向变革。

当前市场上渐渐出现一种新的人机交互新技术唇语辨认。与语音识别不同,唇语识别是基于机器视觉与自然语言处理于一体的技术,不用听声音,仅靠机器视觉辨认说话人唇部动作,就能解读说话者所说的内容,因此在研发难度上也比语音辨认大很多。

就在刚刚过去的第四届乌镇互联大会上,一直专注搜索的搜狗竟然也亮相了唇语辨认这一黑科技。12月14日,搜狗在北京举行了媒体沟通会,公开演示了唇语识别这项新技术,包括背后的技术原理、研发动因以及未来的场景运用。

搜狗语音交互中心技术总监陈伟向钛媒体介绍,得益于搜狗自然语言处理方面的强大优势,搜狗首创了复杂端到端深度神经络技术进行中文唇语序列建模,通过数千小时的真实唇语数据训练,建立了10万词以上的词汇表,取得不错的识别效果。

具体而言,搜狗通过摄像头从图像中连续辨认出人的唇形,提取说话人连续的口型变化特征,然后将这些唇语特征放入唇语识别模型进行解码,从唇语文本数据到唇语语言模型进一步获得发音单元,终究输出文字。

目前,搜狗在非特定人开放口语测试集上,即搜狗唇语识别系统的通用辨认的准确率在60%以上,超过google发布的英文唇语系统50%以上的准确率;而在垂直场景下,如车载、智能家居等场景下已到达90%的准确率。

其实唇语识别其实不神秘。早在2003年,英特尔公司就曾推出一款名叫视听说识别系统的软件,电脑开发者可以在此基础上研制读懂唇语的计算机;而国外技术纯熟的谷歌,其DeepMind团队在2016年使用BBC视频,对AI系统进行训练,视频总长超过5000小时,然后以当年3月到9月的视频节目进行测试,唇语识别正确率到达了46.8%。

这个正确率虽然不算高,但实际上正常人的唇语识别能力也只在10%左右,一些受过训练的唇语专家则可以达到40%左右。可以想见,唇语识别技术的壁垒之高。

在国内,BAT这些互联巨头虽未涉足这1领域,但也有一些创新公司在唇语辨认技术方面取得了突破。

今年3月,国内专注于大数据可视化的海云数据也试水唇语辨认,发布了其与重庆市公安科研所共同研发的唇语识别技术成果。在研发阶段,海云训练了1万小时类节目,来判断嘴型的准确度和语言的准确性。有报道称,海云数据的唇语辨认技术在中文识别率已高达71%,英文识别率到达80%。

但陈伟也强调,唇语识别的难点在于泛化性。之所以这1技术还没有得到普及,很大程度上是识别率不能做到像语音辨认那样高,做不到普适性,应用的意义也就不大。

从谷歌唇语辨认系统训练来看,测试集与训练集其实是同源的,都来自广播电视,而众所周知这些播音主持人在发音、吐字、唇形变化等方面都比普通人要标准,如果将测试选择在普通人时,识别率应该会更低。

搜狗为了突破唇语识别的泛化性,一方面通过各类、电视节目的数据进行训练,另一方面通过搜集大量普通人的唇语数据进行训练,提升了唇语识别的泛化效果。另外,具体到车载、智能家居场景时,搜狗团队又通过限定场景、限定语句等形式,对唇语识别准确性做了进一步优化。

因此,在未来场景落地上,搜狗唇语团队将关注两方面,一方面可以和语音识别技术相结合解决远场环境下的语音问题,另一方面唇语识别作为人机交互的形式之一,辅助语音交互及图像识别,在日常生活、安防、公益等各个领域实现广泛应用。

车载场景下,周围噪音过大时会对语音指令产生干扰,通过唇语识别技术则可以规避干扰,保证人车交互的准确性和稳定性,平常不便发声的公共场所也可以保证说话内容的私密性。

在安防领域,由于目前多数监控只有摄像头没有麦克风,常常只能看清嘴型却不知道在说甚么,给案情分析带来很多难题,而唇语识别技术可以帮助公安人员获取重要的讲话信息,为公共安全提供有效支持。

在公益事业领域,唇语识别技术还能发挥巨大价值,帮助先天性听障人群或老年人,让他们更好地理解和表达自己。

时至今日,人工智能的发展速度已经完全超越了我们的想象,那些电影里的炫酷黑科技正在一步步成为现实出现在我们的生活中。随着AI技术的发展,相信在不远的将来,唇语识别也能像语音辨认、图象识别一样成为我们生活中随处可见的一部分。

痛经怎么调理根治
经量多有血块的原因
月经后期有血块怎么办
本文标签: