选机助手
关闭
*产品分类:
  • 笔记本
  • 台式机
  • thinkplus选件
使用场景:
  • 超薄便携
  • 性能旗舰
  • 轻薄独显
  • 设计创作
  • 日常办公
  • 翻转触屏
价格选择:
  • 5000元以下
  • 5000-8000元
  • 8000-11000元
  • 11000-15000元
  • 15000元以上
尺寸选择:
  • 13.3英寸
  • 14英寸
  • 15.6英寸
确认

[讨论] 从蒙昧到智能:语音技术发展历程

发表于 2020-8-10 18:41   |   来自PC浏览器 [复制链接]   
26950 0  

本帖最后由 北方大冬瓜 于 2020-8-10 18:57 编辑

语音是人与人交换信息最方便、最快捷的一种方式,也是人类区别于其他动物的主要特征之一。今天所说的语音技术,是以数字语音信号为研究处理对象的技术,包括语音的传输、存储、识别、合成和增强等模块。实际上,在进入数字化时代以前,模拟语音信号处理有更长的历史。

说起模拟语音,工科男们可能会想起留声机,这里我们需要把时间线再往前调一些,到19世纪看一看。1876年贝尔发明了电话,当时电话拾音性能很差,通话双方都必须大声嚷嚷,想必用户体验是相当的差。爱迪生致力于提升电话的用户体验,反复实验,电话通话质量不清楚提升了多少,但爱迪生发现可以通过记录声音导致振膜振动的轨迹实现声音的储存和重放。这些伟大的发明家们投身商业化,贝尔创办的AT&T前身贝尔电话公司、爱迪生创办的通用电气都实现了基业长青,至今仍是伟大的公司。1892年AT&T第一条商业运营的电话线路 — 纽约到芝加哥的线路开通,贝尔第一个试音“喂,芝加哥”,人类进入了通信时代。所以,语音的传输、存储在19世纪即得到初步解决。

进入20世纪以后,语音的传输、存储技术不断演进,与此同时,语音识别技术也开始发展。1922年生产的雷克斯狗可能是最早的语音识别产品了。这个玩具狗所用到的技术并不是真正的语音识别,它里面有一个电磁感应装置,对500赫兹的声学信号能够产生反应并触发小狗的运动系统,而英语里面的“Rex”恰好是标准的500赫兹强音,于是小狗就能听话的识别人叫它的名字“Rex”、并从房子里跳出来。

20世纪40年代中期第一台通用数字计算机问世,在全世界范围内兴起了第一次信息革命,对人类社会产生空前的影响,信息产业应运而生。这其中,三论即系统论、控制论,信息论对信息革命起到巨大的推动作用。这里不说系统论和控制论,单看信息论,就对语音技术的发展有极其重大的影响。早期语音识别的做法是工程师试图让计算机学会构词法,能够分析语法,理解语义,这证明是不可行的,现代语音识别和自然语言处理研究先驱 Jelinek用信息论的思维方式看待语音识别问题,把语音识别当成一个通信问题来处理,本质是用信息来消除不确定性。

这一点至今仍在影响语音识别系统的设计,语音识别的根本的问题是决策问题、即所有可能的文本串里哪个做为最终结果输出。引入更多的信息(数据),会使决策更加精准。当然,这个过程需要清除那些有害的信息,所以数据的清洗、挑选也非常重要。这一点和人类的自然决策过程也非常相似,四处倾听意见、收集反馈,然后由有经验的人、即本身信息储存量较大的人做决策。

基础技术和理论的发展,也推动了语音相关技术方向的发展。20世纪60年代数字信号处理开始兴起,包括傅里叶变换等都被提出。80年代初第一代数字信号处理器(DSP)问世、90年代DSP得到大规模发展,21世纪人类全面进入了数字化时代。

数字化时代里语音技术得到了大发展,语音学和数字信号处理两个学科紧密结合,催生了语音信号处理这个方向。语音信号处理的目的是通过数字化的方式、得到某些语音特征参数以便高效的传输或储存,或是通过某种运算以达到某种用途要求,如机器合成语音、识别出说话人、识别出所说的文本内容等。

现代科学和电子计算机技术继续发展,除了人和人之间主要通过自然语言的通信方式外,人机对话及智能机器等领域也开始使用语言。控制论之父维纳早在1950年就曾指出:“通常,我们把语音仅仅看做人与人之间的通信手段,但是,要使人向机器、机器向人、及机器向机器讲话,那也是完全办的到的。”2012年前后,世界上第一个支持人机口语对话的人工语言ROILA被设计出来,并被乐高头脑风暴NXT机器人采用。ROILA语言体系非自然进化而成,规避了文本处理因为歧义等带来的工程问题。

通常认为,人人、人机语音信息的交换大致可以分为三大类:

人与人之间的语音通信,包括语音压缩与编码、语音增强等。

第一类人机语音通信问题,指的是机器讲、人听的研究,即语音合成。

第二类人机语音通信问题,指的是人讲、机器听的研究,即语音识别和口语理解。

语音技术发展已有150年,人人语音通信问题已经解决,百年公司贝尔(AT&T)、通用电气等公司的贡献不可磨灭。随着语音通信网络及程控交换的发展,和语音通信由固定到移动、承载业务由语音到数据等发展历程中又崛起了诸多伟大的公司。

转眼已到2020年,语音设备已大范围普及,语音识别、合成和口语理解开始进入千家万户,可以认为当前技术在第一类和第二类人机语音通信问题上已可以满足若干场景化需求。语音技术正式走出蒙昧时代,开启智能新篇章!



您需要登录后才可以回帖 登录 | 立即注册

本版积分规则