您现在的位置:首页->紫光阁学习->读书思考->读书活动
中央国家机关读书活动举行第三十六讲
刘庆峰:智能语音技术及产业应用前沿介绍
来源:中国出版网     2012年04月24日 

  4月21日上午,中央国家机关“强素质 作表率”读书活动主题讲坛今年第四讲(总第三十六讲)在新闻出版总署多功能厅举行。本次讲座特邀语音及语言信息处理国家工程实验室主任刘庆峰,作了题为《智能语音技术及产业应用前沿介绍》的精彩报告。新闻出版总署党组成员、副署长、直属机关党委书记孙寿山,中央国家机关工委宣传部副部长赵建国,总署直属机关党委常务副书记孙文科,中央国家机关工委宣传部副部长陈韶光,中央国家机关工委宣传部巡视员郭存亮等出席讲坛。

 

  中央国家机关读书活动举行第三十六讲(邓杨/摄)

  本次讲坛恰逢“强素质 作表率”读书活动三周年纪念日,现场观众在开讲前共同观看了《中央国家机关“强素质 作表率”读书活动三周年巡礼》视频宣传片。读书活动承办单位中国新闻出版研究院院长郝振省介绍了4月20日召开的中央国家机关“强素质、作表率”读书活动三周年座谈会情况,并简要回顾了三年来读书活动的发展历程。“强素质 作表率”读书活动自2009年4月启动以来,已面向社会发布中央国家机关党员干部推荐阅读书目78种,举办主题读书讲坛35场。通过嘉宾的演讲和书目的推荐,“强素质 作表率”读书活动使中央国家机关党员干部受到了熏陶和感染,加深了爱读书、读好书、多读书的习惯,提高了综合素质,已经成为一个有影响的读书活动。我们读书活动办公室的工作人员有决心、有信心在工委和总署的领导下,在同志们的支持下,把读书活动办得更好,切实打造成国家品牌、国家讲坛,使它的作用能够久远延续。

  关于本期主讲嘉宾,讲坛主持人郝振省介绍到,刘庆峰同志是中国科学技术大学信号与信息处理专业博士,科大的兼职教授、博士生导师,中华全国青年联合会常委,中国科协第八届委员,第十届、十一届全国人大代表。他在语音技术核心研究和产业化方面作出了创造性成就和创新性贡献。他研制完成的中文语音合成系统在1998年以来历次国内外权威评比中均名列第一。他领先带队完成的英文语音技术合成系统连续六年蝉联“Blizzard Challenge”国际英文合成大赛第一名。2009年、2011年连续两届获得NIST国际语种识别评测大赛混淆方言对识别评测冠军。他改写了中文语音产业的格局,在利用国际规则树立民族语音产业壁垒方面做了卓有成效的工作。

 

  语音及语言信息处理国家工程实验室主任刘庆峰(邓杨/摄)

  在近两个小时的演讲中,刘庆峰先生从语音合成技术、语音识别技术、语音评测技术三方面,将技术发展与现实应用相结合,用深入浅出的语言阐释了智能语音技术,并通过生动、震撼的视频影像展现了智能语音技术的广阔产业化前景和重大战略意义,使现场听众身临其境般感受了智能语音技术给我们生活带来的巨大改变。

  一、智能语音技术介绍及概述

  语音是人类沟通最自然便捷的方式,智能语音技术就是使信息时代的各种信息机器像人一样“能听会说”的技术。随着IT产业第五次浪潮——移动互联网时代的到来,智能语音技术已成为全球IT产业最关注的热点。

  (一)智能语音技术主要内容

  智能语音技术主要包括语音合成技术、语音识别技术和语音评测技术三个重要方面:

  语音合成技术可以将任意的文字信息转化为自然流畅的语音。简单来说,语音合成技术相当于一个机器装上一个人工的嘴巴,能够把各种文字读出来,不光是中文也包括英文和多语种,还包括我们的方言。

  语音识别技术和语音合成技术相对应,合成解决机器说话,识别就是让它听懂人说话。主要有三方面内容:一是识别语音中的具体内容,把声音变成文字。二是说话人识别,也叫声纹识别。三是语种识别,一说话就知道你说的是汉语还是英语,你是中国的广东人还是湖南人。

  近几年,随着民族文化传播的迫切需求和教育事业的发展,另外一项技术也被大家提到了更高的高度,即语音评测技术。通过这项技术,我们就可以用计算机对我们的普通话或者英语的发音进行标准评价和错误反馈指导。

  (二)智能语音技术国内外发展状况

  作为战略性和前瞻性的重要新兴产业,智能语音交互技术及应用市场一直是国内外科学界和产业界关注的焦点,世界各国都力争取得关键技术突破,占据产业先机。美国设立的DARPA高科技研究计划、日本设立的“第五代计算机”技术攻关计划、欧洲尤里卡计划中对该方向均设立专项予以重点支持。IBM、微软、Motorola、Nuance等国外著名的IT厂商2000年前就纷纷在中国设立了语音研究机构,使我国语音产业一度完全掌握在国外公司手中,形式非常严峻。目前,伴随着3G时代的到来和云计算的出现,移动互联网时代语音技术正面临着全新的发展机遇。而苹果和Google等新巨头的加入,也进一步加剧了产业竞争的程度,新一轮的竞争将更加激烈。

  国家科技部、工信部、发改委等部位近年来日益关注语音技术和产业发展。科技部在90年代末期就专门设立了智能语音方向的国家863计划成果产业化基地;2010年,针对产业发展的迫切需求和日益激烈的国际竞争,国家科技部进一步设立“国家智能语音高新技术产业化基地”,加大对该领域的技术和产业支持。工信部多年来在电子发展基金中给予大力支持并在标准制定等方面积极帮助树立民族语音产业竞争壁垒;国家发改委2009年设立了语音技术国家级企业技术中心,2011年又专门设立了“语音及语言信息处理国家工程实验室”。

  二、核心技术进展及产业应用

  (一)智能语音技术的最新进展

  语音合成系统主要包括语言处理、韵律处理和单元合成等技术模块。在语音合成系统中,输入文本首先经过语言处理,实现字音转换;再通过韵律处理对基频、时长等韵律参数进行预测;最后根据预测参数进行声学单元的合成与拼接,得到合成语音。现阶段语音合成的主要技术难题包括:第一,单元挑选合成准则难以反映合成语音的主观自然度;第二,多语种语音合成系统构建困难。目前,我国的语音合成技术已经在全球首次超过了真人发音水平(即自然度MOS分突破4.0分,满分5.0分代表专业播音员发音自然度,4.0分对应普通人发音水平)。英文语音合成技术2006年~2011年连续六年在由美国和日本联合发起的国际英文语音合成大赛中蝉联第一。

  语音识别系统的主要技术模块包括声学语言学统计建模、降噪处理与特征提取、大规模识别解码等部分。在语音识别系统中,首先对语音文本库统计建模得到声学模型和语言模型;然后对输入语音进行降噪处理,提取语音特征;综合运用特征和模型进行解码,识别出文本、说话人和语种信息。语音识别的主要技术难题包括:第一、在噪声环境下识别率严重下降;第二、对多口音输入的普适性差。目前,我国的语音识别技术2008年~2011年连续4年在NIST组织的国际语音识别大赛中名列前茅,并获得2011年混淆方言对测试中9项指标的7项冠军。

  语音评测系统包括发音标准模型建立、音段韵律发音质量分析和人工评分回归映射等核心模块。我国在语音评测方面的技术水平也达到国际领先,是目前唯一在大规模口语考试中超过人工评测的技术成果。目前,我国的语音评测技术已经在全国27个省份的国家普通话等级考试中正式使用,累计测试超过600万人次。

  (二)主要产业应用及演示

  今天,语音技术的手机搜索用户已达1.66亿,中小学师生在每日课堂教学中使用人数已超过5000万,不仅助力世博、奥运等重大工程,还在民族双语教学、军事和国家安全等核心价值领域得到广泛应用。

  在促进义务教育均衡发展及民族文化传播领域方面的应用主要有:面向义务教育最紧缺的中小学英语和普通话教学,面向新疆、西藏等省市的民族双语教学,面向汉语国际推广等民族文化传播。在智能语音玩具方面的主要应用有:智能对话——让玩具和儿童之间进行对话,锻炼儿童的口头表达能力,学唐诗、学英语等;语音操控——语音选故事、语音选音乐等;内容服务——持续更新的故事、音乐、科普等益智内容。在公共安全领域的语音应用主要有:由科大讯飞承建全国重点人员声纹库,与DNA、指纹等构成立体人物特征库,国内首个实用的海量语音自动识别监控系统。

 

  刘庆峰现场演示智能语音玩具(邓杨/摄)

  三、展望及建议

  (一)发展展望

  目前,全球已经进入了第五次IT浪潮。从历史规律来看,从大型机、小型机、个人电脑到桌面互联网,我们所经历的每一次计算浪潮都将带来一批伟大公司的诞生。移动互联网时代也必将孕育出一批新的伟大公司。而语音在移动互联网时代有着重要应用,因为语音交互方式能够带来人机交互的根本性变革。

  移动互联网时代的语音应用也呈现出了新的特点,如:语音与客户端的应用展现方式;软硬一体化的服务模式;应用领域广泛,需要更多的开发合作伙伴进行协同创新等等。

  2010年10月中国首个“语音云”平台上线,通过语音能够写短信、发微博,还可以实现上网、导航、订餐等日益丰富的服务,让手机成为一个日益便捷的助理,让电视可以直接用语音搜索海量音视频。此后国内移动互联网语音应用呈爆发性增长的态势。基于“语音云”平台的第三方创业者在一年时间内就超过3100家,用户数超过3500万。通过语音云平台形成的移动互联网时代集群创新模式,值得政府部门高度关注并大力支持。

  (二)建议

  今天,全球已经掀起了语音应用的热潮,几乎每一个设备商都希望早日在其产品中增加语音功能。中国在语音技术和产业上已经拥有了非常难得的自主知识产权和领先优势,但也面临着移动互联网时代更加激烈的国际竞争。因此,从产业发展和国家信息安全角度出发提出两点建议:一是加大产学研合作力度和创新体系建设步伐,加大对语音核心技术及语音云平台研发的支撑,争夺技术和产业制高点。二是建立针对移动互联网语音应用和服务的审查和准入机制,规范通过云计算方式提供语音服务的商业化运营资格,确保国家语音信息安全。

 

  现场签名(邓杨/摄)

  最后,主持人郝振省对本期讲坛做了小结。他指出,刘庆峰先生对智能语音前沿技术的介绍令我们大开眼界,让我们享受了一场深入浅出的科技教育,使我们了解到语言特别是语音与文化基础和民族象征的关系,了解到这种语音技术对于国民生产生活和工作的战术意义、对于国家核心价值领域的战略意义。刘庆峰先生向我们介绍了智能语音技术的三个基本支撑点,由此出发讲到了国际社会在这个领域里面激烈的竞争格局,以及我们国家采取一系列的应对策略和措施。他向我们介绍并演示了三项技术最新的进展,让我们领略到智能语音技术的无穷魅力。总之,刘先生的演讲和演示使我们在十分有限的时间里浓缩地了解了我国语音技术方面的领先地位,不仅使我们对他和他的团队肃然起敬,而且充满着一种向创新型国家迈进的民族自豪感。恩格斯指出:“在马克思看来,科学是一种在历史上起推动作用的、革命的力量。”今天我们也有理由相信,这种革命性的力量对于我们国家现在的转变生产方式、生活方式、发展方式,调整产业结构特别是促进文化繁荣都是必不可少的,也是十分重要的。

  主持人介绍,2012年第五讲(总第三十七讲)读书讲坛定于5月26日举行。届时将由海军军事学术研究所所长、研究员王校轩,主讲《当前南海问题及我对策》。

·相关导读