要闻
-
世界的香格里拉—2023年深圳文化旅游推介会今圆满举行
为加强香格里拉市与省外旅游行业的深入合作,进一步扩大香格里拉旅游宣传,有效拓展香格里拉潜在客源市场,快速推动香格里拉文旅业健康发展。3月7日,由中共香格里拉市委、香格里拉市人民政府主办,香格里拉市文...
-
门窗行业复刻定制家居高光时刻,森鹰窗业上市成起点?
据悉,9月26日,森鹰窗业股份有限公司(以下简称森鹰窗业)将举办上市敲钟仪式,正式登陆深交所。 森鹰窗业是目前沪深两市第一家细分行业为“C2032木门窗制造”的上市公司。 这让笔者不禁想起2011年定制家居...
-
如祺车服网约车租售中心开业,一站式服务持续升级!
9月7日,如祺车服网约车租售中心正式开业。如祺车服网约车租售中心集车型展示、销售、售后等全链条车生态服务于一体,助力如祺车服完善一站式服务能力,持续为广大网约车师傅提供高品质服务体验,为产业链上下游...
语音识别软件什么时候才能足够好?
发布时间:2020/05/29 科技 浏览:336
想想如果语音助手在第一时间总是理解命令或问题,我们将节省多少时间
早在2010年,然后是国家公共广播电台的马特·汤普森(Matt Thompson)在一篇专栏文章中预测说:“在不久的将来,自动语音转录将变得快速,自由和体面。” 他称这一刻为“奇异性”,巧妙地引用了发明人雷·库兹韦尔(Ray Kurzweil)关于“奇异性”的愿景,在该愿景中我们的思想将被上传到计算机中。汤普森(Thompson)预测,访问可靠的自动语音识别(ASR)软件将改变记者的工作,更不用说律师,营销人员,听力障碍人士以及所有使用口语和书面语言进行交易的人。
汤普森(Thompson)的预测使我大为恼火,因为他迫不及待要使我免于在面试过程中键入实时便笺的繁琐过程中使用的任何技术。但是,尽管他在广播事业中的辉煌职业生涯一直在继续(他现在是调查研究中心新闻输出(包括其节目Reveal)的主编),但Speakularity似乎和以往一样遥不可及。
可以肯定的是,已经取得了重要进展。Otter,Sonix,Temi和Trint等多家初创公司提供在线服务,使客户可以上传数字音频文件,并在几分钟后接收计算机生成的成绩单。作为音频制作人,我每天都会使用这些服务。他们的速度不断提高,成本不断下降,这是值得欢迎的。
但是准确性是另一回事。2016年,Microsoft Research的一个团队宣布,它已经训练了机器学习算法,可以以94%的最高准确度记录标准录音集的语音。专业的人类转录专家的表现不及微软测试中的程序,后者促使媒体机构庆祝语音识别中人与软件之间“同等”的到来。
关键是,最后6%会带来所有不同。我可以从痛苦的经历中了解到,清理94%的准确成绩单几乎需要花费手动录制音频的时间。在取得突破之后的四年,诸如Temi之类的服务所声称的服务质量仍然不超过95%,然后仅用于录制清晰无声的语音。
为什么准确性如此重要?好吧,举个例子,越来越多的音频制作人(包括我自己)通过发布其播客的成绩单来遵守Internet可访问性准则,而且没人愿意共享每20个单词中包含一个错误的成绩单。想一想,如果语音助手(例如Alexa,Bixby,Cortana,Google Assistant和Siri)在第一时间就理解了每个问题或命令,人们可以节省多少时间。
ASR系统可能永远无法达到100%的准确性。毕竟,即使使用母语,人类也不总是会说流利的语言。语音中充满了同音词,因此理解力始终取决于上下文。(我已经看到转录服务将“ iOS”渲染为“ ayahuasca”,将“您的播客”渲染为“您的朋克屁股”。)
但是我所要求的只是准确性提高了1%或2%。在机器学习中,降低算法错误率的主要方法之一是为其提供更高质量的训练数据。因此,对于转录服务部门来说,找出能够收集更多此类数据的隐私友好方式将至关重要。例如,每次清理Trint或Sonix成绩单时,我都会生成经过验证的新数据,这些数据可以与原始音频匹配并用于改进模型。如果这意味着随着时间的流逝更少的错误,我很乐意让公司使用它。
获取此类数据无疑是通向言语性的一条途径。鉴于我们与机器的对话越来越多,并且每天创建的音频越来越多,我们不应再将体面的自动转录视为一种奢侈或渴望。这是绝对必要的。
上一篇: 面部识别技术需要更多法规
下一篇: 如果您的虚拟会议效率极低,请单击此处