语音识别和语音技术是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的两项关键技术.使电脑具有类似于人一样的说话和听懂人说话的能力,是90年代信息产业的重要竞争市场.和语言识别相比,语言合成的技术相对说来要成熟一些,是该领域中近期最有希望产生突破并形成产业化的一项技术。
语音技术方式讲可分为波形编辑合成、参数分析合成以及规则合成等三种。
波形编辑合成,这种合成方式以语句、短语、词或音节为合成单元,这些单元被分别录音后直接进行数字编码,经适当的数据压缩,组成一个合成语音库.重放时,根据待输出的信息,在语料库中取出相应单元的波形数据,串接或编辑在一起,经解码还原出语音.这种合成方式,也叫录音编辑合成,合成单元越大,合成的自然度越好,系统结构简单,价格低廉,但合成语音的数码率较大,存储量也大,因而合成词汇量有限。
参数分析合成,这种合成方式多以音节、半音节或音素为合成单元.首先,按照语音理论,对所有合成单元的语音进行分析,提取有关语音参数,这些参数经编码后组成一个合成语音库;输出时,根据待合成的语音的信息,从语音库中取出相应的合成参数,经编辑和连接,顺序送入语音合成器.在合成器中,通过合成参数的控制,将语音波形重新还原出来。
规则合成,这种合成方式通过语音学规则来产生目标语音.规则合成系统存储的是较小的语音单位(如音素、双音素、半音节或音节)的声学参数,以及由音素组成音节、再由音节组成词或句子的各种规则.当输入字母符号时,合成系统利用规则自动地将它们转换成连续的语音波形.由于语音中存在协同发音效应,单独存在的元音和辅音与连续发音中的元音和辅音不同,所以,合成规则是在分析每一语音单元出现在不同环境中的协同发音效应后,归纳其规律而制定的如共振峰频率规则、时长规则、声调和语调规则等.由于语句中的轻重音,还要归纳出语音减缩规则。
1. 提高合成语音的自然度
提高合成语音的自然度仍然是高性能文语转换的当务之急.就汉语语音合成来说,目前在单字和词组一级上,合成语音的可懂度和自然度已基本解决,但是到句子乃至篇章一级时其自然度问题就比较大. -----基于语音数据库的语音合成方法有望进一步提高语音合成的自然度. 因为这是一种采用自然语音波形直接拼接的方法,进行拼接的语音单元是从一个预先录下的自然语音数据库中挑选出来的,因此有可能限度地保留语音的自然度.但由此产生了一系列新的需要研究的问题,包括:如何确定语音合成的基元,根据什么准则去挑选合适的基元;韵律参数定量化问题,对数据库进行定标问题;以及如何将统计的方法和规则方法相结合使机器能自动发现和找出所需的语音单元,保证的合成语句自然度等等. -----无论用哪种合成方法,韵律规则的总结,特别是连续语音的韵律规则总结,尽可能将定性的规则描述定量化,对自然度始终有最重要的影响.还有前端文本处理, 对合成语音的自然度也具有举足轻重的影响, 完整全面的解决, 需要自然语言理解的突破。
2 丰富合成语音的表现力
目前国内外大多数语音合成研究是针对文语转换系统,且只能解决以某种朗读风格将书面语言转换成口语输出,缺乏不同年龄、性别特征及语气、语速的表现,更不用说赋予个人的感情色彩.随着信息社会的需求发展,对人机交互提出了更高的要求,人机口语对话系统的研究也提到了日程上.即语音合成研究已开始从文字到语音的转换阶段向概念到语音的转换阶段发展.这不仅对语音合成技术提出了更高的要求,而且涉及到计算机语言生成,涉及人类大脑的神经活动.但就语音合成来说,仍是一个要丰富合成语音的表现力问题.相对来说采用波形拼接方法来增强合成语音表现力比较困难,尽管也可以通过增加音库容量和音库个数来达到改变合成语音的特性,但毕竟它对韵律的控制能力非常有限.更为有效的办法是采用参数合成法,分析参数特征,通过对相关参数的调整来实现对年龄、性别特征的改变,进一步实现语气、语调的变化,由于这种改变是连续的,对象特征可以千千万万,显得更有生命力.近年来提出的基于LMA(对数振幅近似)技术的语音合成器,Hybrid Harmonic/Stochastic 模型 , Sinusoidal 模型等已被证实是一些新颖的能合成出高质量语音的参数合成方法,为此应继续深入这方面的研究,以期在参数合成技术上取得突破。
3 降低语音合成技术的复杂度
语音合成技术正在走向市场.为了适应社会的需求,扩大文语合成的应用场合,除了解决好上面两个问题,提高合成语音的质量和增强语音合成的表现力以外,在其他实用化方面也有要加以改进的地方.就目前汉语文语转换系统而言,减小音库容量就是一个重要课题.目前高质量的汉语文语转换系统一般需要几兆字节到几十兆,甚至几百兆字节的存储容量,这在以PC机或工作站为硬件平台的应用中是没有问题的,而对于象HPC, PDA及无线通信手机,商务通等资源有限的设备上就没法承受.解决的方法可以是通过语音压缩编码的方法来压缩音库所需的容量,或者采用更小的合成基元,例如用声母、韵母或双音素、半音节, 以及减少合成语音所需的音节基元数等等.然而又不能增加算法的复杂度,因为运算量及系统开销同样会直接影响汉语语音合成的应用.既要提高语音合成的质量,又要降低语音合成的复杂度,这始终是一个矛盾的两个方面。
4 多语种文语合成
语言是人们交流的工具,不同民族有自己不同的语言,不同语言之间的交流在今天开放的信息社会和网络时代显得十分重要,多语种的文语合成有着独特的应用价值.例如在自动电话翻译,有声的电子邮件等中都提出多语种的合成,即使是对汉语合成也有多方言文语转换的需求.理想的多语种合成系统是各种语言共用一种合成算法或语音合成器,但是现有的语音合成系统大多是针对某一种语言或若干种语言开发出来的,所采用的算法及规则都是和某种语言密切相关的,因此很难推广到其他的语种.例如汉语就和西方语言有很大的差异,国内的系统都是做汉语文语转换,它的一套韵律控制规则完全不适合于英语,而且主要是合成汉语普通话,即使推广到广东话和上海话都有相当的难度.可见要真正解决多语种的文语合成,从文本处理到语音合成都必须有新的思路.美国贝尔实验室在多语种文语转换方面作了大量的工作,其中包括汉语普通话合成,值得注意。
综观语言合成技术的研究已有二百多年的历史,但是真正有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,主要是让计算机能够产生高清晰度、高自然度的连续语音.近几十年来国际和国内的研究主要集中在按规则文语转换,即将书面语言转换成口头语言.在语音合成技术的发展中,早期的研究主要是采用参数合成方法.值得提及的是Holmes的并联共振峰合成器(1973)和Klatt的串/并联共振峰合成器(1980),只要精心调整参数,这两个合成器都能合成出非常自然的语音。
而代表性的文语转换系统数美国DEC 公司的DECtalk(1987),该系统采用Klatt的串/并联共振峰合成器,可以通过标准的接口和计算机连网或单独接到电话网上提供各种语音信息服务,它的发音清晰,并可产生七种不同音色的声音,供用户选择.但是经过多年的研究与实践表明,由于准确提取共振峰参数比较困难,虽然利用共振峰合成器可以得到许多逼真的合成语音,但是整体合成语音的音质难以达到文语转换系统的实用要求.自八十年代末期至今,语言合成技术又有了新的进展,特别是基音同步叠加(PSOLA)方法的提出(1990),使基于时域波形拼接方法合成的语音的音色和自然度大大提高。
九十年代初,基于PSOLA技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功.这些系统的自然度比以前基于LPC方法或共振峰合成器的文语合成系统的自然度要高,并且基于PSOLA方法的合成器结构简单易于实时实现,有很大的商用前景.最近几年,一种新的基于数据库的语音合成方法正引起人们的注意.在这个方法中,合成语句的语音单元是从一个预先录下的庞大的语音数据库中挑选出来的, 不难想象只要语音数据库足够大,包括了各种可能语境下的语音单元,理论上讲有可能拼接出任何语句。由于合成的语音基元都是来自自然的原始发音,合成语句的清晰度和自然度都将会非常高。
国内的汉语语音合成研究起步较晚些,但从八十年代初就基本上与国际上研究同步发展.大致也经历了共振峰合成、LPC合成至应用PSOLA技术的过程.在国家863计划,国家自然科学基金委,国家攻关计划,中国科学院有关项目等支持下,汉语文语转换系统研究近年来取得了令人举目的进展,其中不乏成功的例子:如中国科学院声学所的KX-PSOLA(1993), 联想佳音(1995);清华大学的TH_SPEECH(1993);中国科技大学的KDTALK(1995)等系统.这些系统基本上都是采用基于PSOLA方法的时域波形拼接技术,其合成汉语普通话的可懂度、清晰度达到了很高的水平.然而同国外其它语种的文语转换系统一样,这些系统合成的句子及篇章语音机器味较浓,其自然度还不能达到用户可广泛接受的程度,从而制约了这项技术的大规模进入市场. -----1998年中国科技大学在国家863 计划和国家自然科学基金委支持下,研制成功KD-863汉语文语转换系统.和采用国内外流行的PSOLA技术的系统相比,在输出语音的音质和自然度上有了突破性的提高.KD-863采用了一种全新的基于语音数据库的语音合成方法, 该技术的基本思想是将实际语流中汉语音节千变万化的音变进行听感上的量化归并,设计出多样本的汉语语音基元库,这个库蕴涵了汉语韵律变化信息,合成时只要通过对基元库样本的选取便可实现韵律控制。
同时语音基元库中的样本是直接从自然语音中截取,避免了采用信号处理技术获取音变单元对音质的损害,因而合成语音具有接近自然语音的音质.KD-863文语转换系统一经推出,就因其合成语音的高清晰度与高自然度引起了社会各方的重视.先后应用于为深圳华为技术公司设计的"114自动电话报号系统",和为国家工商总局设计的"工商企业语音(传真)查询系统"。使得汉语语音合成技术走出实验室,向市场应用迈出了重要的一步。
KD-863系统参加了在1998年4月国家科委组织的全国汉语语音合成系统的性能评测,其输出语音的自然度居同类系统之首,是达到用户可以接受程度的系统。KD-863还在日本,新加坡,香港的有关研究所和大学进行过演示,均得到了有关方面专家的认同。
最近中国科技大学又推出了KD-2000汉语文语转换系统,不仅在语音合成技术方面有进一步的发展,特别是在文本预处理中围绕层次化结构思想,运用大量的统计和规则的方法,较好地解决了三个大的处理环节:特殊符号处理,分词处理和拼接处理,使得汉语文语转换系统的整体性能有很大提高.以KD-2000文语转换为核心的"畅言2000"智能汉语平台软件已开始进入市场。