科技 technology
您现在的位置:首页 > 科技 > 语音识别软件什么时候才能足够好?

要闻

自有逸致,悦聚环宇丨惠州中海环宇天地招商启动会圆满启幕 自有逸致,悦聚环宇丨惠州中海环宇天地招商启动会...

自有逸致,悦聚环宇!2023年8月4日, 惠州中海广场丨环宇天地项目招商启动会暨首批品牌商户签约仪式盛大...

财经

CPI涨幅回落,未来物价走势如何? CPI涨幅回落,未来物价走势如何?

国家统计局10日发布数据,3月份,全国居民消费价格指数(CPI)同比上涨4.3%,涨幅比上月回落0.9个百分点...

金融

全面实施T+0交易条件不具备 全面实施T+0交易条件不具备

记者4月12日从接近监管人士处获悉,T+0交易制度对投资者适当性等配套制度的要求较高,还需要时间准备。 ...

语音识别软件什么时候才能足够好?

发布时间:2020/05/29 科技 浏览:336

想想如果语音助手在第一时间总是理解命令或问题,我们将节省多少时间

早在2010年,然后是国家公共广播电台的马特·汤普森(Matt Thompson)在一篇专栏文章中预测说:“在不久的将来,自动语音转录将变得快速,自由和体面。” 他称这一刻为“奇异性”,巧妙地引用了发明人雷·库兹韦尔(Ray Kurzweil)关于“奇异性”的愿景,在该愿景中我们的思想将被上传到计算机中。汤普森(Thompson)预测,访问可靠的自动语音识别(ASR)软件将改变记者的工作,更不用说律师,营销人员,听力障碍人士以及所有使用口语和书面语言进行交易的人。

汤普森(Thompson)的预测使我大为恼火,因为他迫不及待要使我免于在面试过程中键入实时便笺的繁琐过程中使用的任何技术。但是,尽管他在广播事业中的辉煌职业生涯一直在继续(他现在是调查研究中心新闻输出(包括其节目Reveal)的主编),但Speakularity似乎和以往一样遥不可及。

可以肯定的是,已经取得了重要进展。Otter,Sonix,Temi和Trint等多家初创公司提供在线服务,使客户可以上传数字音频文件,并在几分钟后接收计算机生成的成绩单。作为音频制作人,我每天都会使用这些服务。他们的速度不断提高,成本不断下降,这是值得欢迎的。

但是准确性是另一回事。2016年,Microsoft Research的一个团队宣布,它已经训练了机器学习算法,可以以94%的最高准确度记录标准录音集的语音。专业的人类转录专家的表现不及微软测试中的程序,后者促使媒体机构庆祝语音识别中人与软件之间“同等”的到来。

关键是,最后6%会带来所有不同。我可以从痛苦的经历中了解到,清理94%的准确成绩单几乎需要花费手动录制音频的时间。在取得突破之后的四年,诸如Temi之类的服务所声称的服务质量仍然不超过95%,然后仅用于录制清晰无声的语音。

为什么准确性如此重要?好吧,举个例子,越来越多的音频制作人(包括我自己)通过发布其播客的成绩单来遵守Internet可访问性准则,而且没人愿意共享每20个单词中包含一个错误的成绩单。想一想,如果语音助手(例如Alexa,Bixby,Cortana,Google Assistant和Siri)在第一时间就理解了每个问题或命令,人们可以节省多少时间。

ASR系统可能永远无法达到100%的准确性。毕竟,即使使用母语,人类也不总是会说流利的语言。语音中充满了同音词,因此理解力始终取决于上下文。(我已经看到转录服务将“ iOS”渲染为“ ayahuasca”,将“您的播客”渲染为“您的朋克屁股”。)

但是我所要求的只是准确性提高了1%或2%。在机器学习中,降低算法错误率的主要方法之一是为其提供更高质量的训练数据。因此,对于转录服务部门来说,找出能够收集更多此类数据的隐私友好方式将至关重要。例如,每次清理Trint或Sonix成绩单时,我都会生成经过验证的新数据,这些数据可以与原始音频匹配并用于改进模型。如果这意味着随着时间的流逝更少的错误,我很乐意让公司使用它。

获取此类数据无疑是通向言语性的一条途径。鉴于我们与机器的对话越来越多,并且每天创建的音频越来越多,我们不应再将体面的自动转录视为一种奢侈或渴望。这是绝对必要的。

姓 名:
邮箱
留 言: