资讯 > 行业资讯 > 正文
硅基智能TTS技术取得重大突破,逼近真人效果
标签:

硅基智能人工智能研究院的TTS小组传来佳讯,TTS相关技术取得重大突破,效果逼近真人。在多个客户使用场景上经过实战检验,获得甲方一致好评。

 

TTS(Text-To-Speech,语音合成),是将外部输入的文本信息按照人的发音规律转换成语音信号的技术,是电话机器人行业的基础技术之一。

 

 

随着深度学习的快速发展,近几年TTS技术得到长足发展。谷歌的tacotron模型提出以后,用于TTS的新模型层出不穷,如:tacotron2,parallel wavenet,clarinet等等。

 

总得来说,目前TTS合成的方法主要有传统的参数合成法、波形拼接法、基于深度神经网络的端到端(end-to-end)模型、基于深度神经网络的多阶段模型、混合拼接模型等。

 

随着硅基智能实时情感化TTS技术的成熟,在电话机器人应用中,语音生成技术逐渐由原来的录音+TTS拼接方法转向全TTS合成。

 

 

那么,判断一个TTS的合成效果好不好,两大关键问题摆在该领域所有从业者面前:

1. 用户听不听得懂,发音清晰是首先需要解决的问题;

2. 听起来是真人在说话,语气自然是更高层级的问题。

 

硅基经过数年的技术积累和深耕,近10人的TTS研究组紧跟国际学术和业界潮流,在TTS合成领域取得突破性进展。

 

为解决上述关键问题,硅基在训练阶段先在制作训练数据时,录音更加专业,贴合场景,对录音数据进行更加细致的裁剪,清洗和标注,把发音中的不同语气现象描述出来,然后再送给模型训练算法进行学习。

 

 

在合成阶段,硅基TTS基于优化的时长加声学模型框架,加入韵律预测,针对特定行业应用场景进行深度优化。从文字中提取特征并预测,告诉Ai语句的表达方式,用模型生成对应的语音(预测的不准确通常是造成合成不自然现象的首要原因)。

 

基于对上述关键技术的攻坚,硅基TTS合成语音在语音清晰度和自然度方面已接近真人水平。硅基TTS模型合成的语音音质清晰,节奏流畅,和真人语音几乎难以分辨。

 

编后语

对比国内某AI巨头公司的TTS产品,硅基的产品明显胜出。该公司TTS语音机械感强;语速难以调控;前后字音有重叠的情况,特别是语速快了更加明显;在多音字处理方面错误率较高,而且有同一个词在不同上下文读音不一样的情况。这些问题硅基TTS基本不存在,合成质量明显胜出。

联系电话
意见反馈
商务运营中心
地址:上海市长宁区淮海西路666号中山万博国际中心1203
北京分部
地址:北京海淀区上地农大南路88号万霖大厦411
广州分部
地址:广州市白云区尖彭路华联工业区5号感享创意谷304
武汉分部
地址:武汉市汉阳区琴台天下名企汇B506
深圳分部
地址:深圳市福田区泰然四路26号劲松大厦18C
成都分部
地址:成都市高新区天府二街蜀都中心1期2栋2003
重庆分部
地址:重庆市渝中区解放碑环球金融中心14-11
公司总部
地址:南京市雨花台区软件大道66-1 华通科技园6楼
西安总部
地址:西安市雁塔区唐延路旺座现代城E座2705室
苏ICP备17053679号 Copyright @ 2017-2019 南京硅基智能科技有限公司. All Rights Reserved.
电话咨询
在线咨询
返回顶部