中国网科技8月31日讯 小米集团语音首席科学家、“Kaldi之父”Daniel Povey(丹尼尔·波维)今日接受媒体采访时称,新一代Kaldi目标不仅仅是赶上或者稍微领先这些语音识别库,而是要根本地改变语音识别的实现方式。
Daniel Povey对中国网科技透露,目前小米AIoT产品中还用的是第一代Kaldi,接下来小米将逐步把新一代Kaldi能力融入到小米产品中,预计在今年年底或明年初,开始将新一代Kaldi能力应用于小米产品,但现在仍在测试之中。
谈及为何选择在小米开发新一代Kaldi,Daniel Povey对记者直言:“事实上有很多大型互联网公司都想把我招致麾下,但小米是一家公司战略规划相对稳定的公司,加上表现出对开源项目的承诺与重视,因此在我需要做开源项目这一硬性标准看来,小米是最佳去处。”
据悉,现有端到端语音识别模型的流行和准确率的逐步提升,以及PyTorch、TensorFlow等深度学习工具包的普及,是开发新一代Kaldi主要动力。相较初代而言,新一代Kaldi是一个全新代码库,需要完全重新打造,由C++以及CUDA完成,并可以在Python调用。新一代Kaldi由3个独立的项目组成,分别称为 k2、Lhotse和Icefall。
其中,最新算法Icefall是这次新一代Kaldi重要部分,基于实现“双向建模”和多层模型的优势,拥有新一代Kaldi能力的AIoT产品可以大大提高语音识别能力,从而降低收到语音指令的词错误率。小米集团方面称,目前已经在LibriSpeech数据集上取得了2.57%的词错误率,而且还在持续的进一步优化。
小米集团语音首席科学家、“Kaldi之父”Daniel Povey
Daniel Povey表示:“新一代Kaldi与PyTorch兼容,并且代码更容易修改,比初代Kaldi代码库更灵活得多,允许用户更轻松地尝试新想法。并且止于目前,依托于Kaldi而发展起来的很多中小型企业有很多,Kaldi将一直坚持做项目开源。”
公开信息显示,Daniel Povey是语音识别开源工具Kaldi的主要开发者和维护者,因此被称为“Kaldi之父”。而Kaldi工具简而言之的讲,目前国内三大语音助手小爱同学、小度、天猫精灵使用的底层框架都是Kaldi,Kaldi等于是能让智能物联通过语音交互方式呈现的基础,是目前被业界公认的语音识别框架基石。
上一篇:拧紧网游管理的“水龙头”
下一篇:返回列表
提供最后三公里配送服务的“小蛮驴”机器人(行情300024,诊股),可线上无限扩容升级的云电脑“无影”,在9月17日举行的2020年云栖大会现场,阿里云智能总裁、阿里巴巴达摩院院长张建锋发布了两款新产品。...
DoNews9月17日消息(记者 程梦玲)9月16日,京东家电冰洗行业峰会在京召开。国家信息中心资深产业专家蔡莹、中国质量认证中心副处长邓旭、京东零售集团家电事业部副总裁谢帆以及各大冰洗家电品牌代表受邀出席了本次行业峰...
天眼查数据显示,近日,漫语微视(北京)传媒科技有限公司发生工商变更,公司投资人新增安徽讯飞云创科技有限公司,后者由科大讯飞(行情002230,诊股)股份有限公司100%控股。 ...
据国外媒体报道,与那些研究历史和预测未来的事件相比,预测未来动物的模样似乎有些无关紧要。但是一些古生物学家对此充满兴趣,并认为这是一项具有重要意义的研究:能运用自己所知晓的生命状况,分析随时间变迁未来百万年后物...
本文“顶级语音识别专家Daniel Povey:新一代Kaldi可大幅降低收听语音词错误率 年底或将应用于所有小米AIoT产品”由FX112财经网
首发,欢迎转载,转载请带上本文链接。
免责声明:FX112财经网(https://www.942fx.com)发布的所有信息,并不代表本站赞同其观 点和对其真实性负责,投资者据此操作,风险请自担。部分内容文章及图 片来自互联网或自媒体,版权归属于原作者,不保证该信息(包括但不限 于文字、图片、图表及数据)的准确性、真实性、完整性、有效性、及时 性、原创性等,如无意侵犯媒体或个人知识产权,请联系我们或致函告之 ,本站将在第一时间处理。关注FX112财经网,获取最优质的财经报道!