资讯 > 行业资讯 > 正文
硅基智能TTS语音克隆技术取得重大进展
标签:

近期,硅基智能人工智能研究院的TTS小组捷报频传,继3月底取得“逼近真人效果”的重大突破后,不到一个月的时间,在TTS语音克隆技术上,又取得了重大进展。目前,硅基智能TTS语音克隆技术,仅用目标说话人的数百句语音素材,便能较为精准地还原他/她的声音。做到了“仅用数百句话语,便能完美还原你的声音”。

[TTS语音合成需求的素材数据]

目前人工智能行业流行的端到端TTS(Text To Speech)语音合成技术,对于语音素材的数据库要求太大:

1、对TTS语音合成的基础需求层面

如果要得到稳健的TTS语音合成效果一般需要十个小时以上,甚至几十个小时的成品语音素材。

2、对TTS语音合成的深层次需求层面

一些企业级客户从事商务活动使用的话,需要至少5万句,费用成本在几百万元。更深层次地,如果需要对语音的个性化定制,以及音色定制来说,更是难上加难。

 

[硅基智能的TTS语音Clone技术]

硅基智能的TTS小组,紧跟国际学术和业界潮流,经过数年的技术积累和深耕,运用近几年的迁移学习方案,首先利用十几个小时的训练语料,得到一个目标模型,然后在目标基础上,我们将大部分参数进行freeze,这样就大大减少能训练的参数、大大减少样本量,减少了在语音素材数据方面的投入。

经过研究发现,freeze decode中的参数,可以迁移音色,因此,我们最终将其余部分的参数全部冻结,不让其参与训练,目前可以利用数百条训练语料,成功实现目标说话者的声音学习。

例如,我们利用女生声音作为预训练模型,利用男性读书的声音作为目标说话人,进行迁移学习,取得和目标说话人一样的音色还原度。这样就能使得合成的语音能贴合场景,陈述自然,音色高保真。

 

[硅基智能的第三代TTS技术]

此次突破,我们称为硅基智能的第三代TTS技术,主要从三个方面做了优化,使得输出更自然,音色接近于真人

1  文本输入部分

为了充分利用文本信息,让韵律信息更自然,我们引入分词技术,先将文本进行分词,对分词信息,进行统一化编码,然后将文字信息包含分词的信息,转化为拼音到音素中间的一种表示方法,通过拼音映射,更好的可以控制多音字问题,从而有效的编码使得可以协助网络更好的学习,为了让其支持英文字母,我们也通过国际音标映射规则,使得英文字母发音更稳健,更清晰。

2  seq2seq部分

我们主要基于tacotron技术方案,结合tacotron1和tacotron2结构,我们引入 tacotron2的stop net技术,让其判断音频正常停止,其次,我们引入tacotron2的post net部分,让输出feature更稳健,更高的还原音频feature,在训练中我们引入互信息熵让其协助attention结构对齐,训练3000步左右,可以生成如下对齐曲线,大大优化了训练过程。

3  vocoder部分

我们尝试了Parallel waevent vocoder,但是由于联合loss 优化方案,很难得到最有参数,因此我们利用和wavrnn类似的结构,利用神经网络将音频还原为音频输出,使得音色可以贴近真人。

真人语音实例(点击收听)

硅基智能模仿目标说话人的Clone语音(点击收听)

联系电话
商务运营中心
地址:上海市长宁区淮海西路666号中山万博国际中心1203
北京分部
地址:北京海淀区上地农大南路88号万霖大厦411
广州分部
地址:广州市白云区尖彭路华联工业区5号感享创意谷304
武汉分部
地址:武汉市汉阳区琴台天下名企汇B506
深圳分部
地址:深圳市福田区泰然四路26号劲松大厦18C
成都分部
地址:成都市高新区新希望国际C座1307
重庆分部
地址:重庆市渝中区解放碑环球金融中心14-11
公司总部
地址:南京市雨花台区软件大道66-1 华通科技园6楼
苏ICP备17053679号 Copyright @ 2017-2019 南京硅基智能科技有限公司. All Rights Reserved.
电话咨询
线路合作
在线咨询
返回顶部