产品概述
硅基智能声音克隆技术(VoiceCloningTechnology),为客户提供多场景应用下的个性化声音定制服务。采用深度神经网络(DNN)技术,将韵律预测等融入到语音合成模型中,声源者只需提供5-20分钟的清晰言语便可克隆出适应多场景下应用的声音样本。利用迁移学习技术,不仅还原声源本人音色,更具备模仿声源者谈吐方式的功能。迎宾接客,朗诵诗文,情绪安抚等都是该产品理想的适用场景,且支持离线部署方式。
功能描述
- 语言支持
- 支持中文普通话,数字,大写字母等
- 语速调节
- 支持1-2倍语速快慢调节;
- 采样率
- 支持8K、16K两种采样率的合成效果;
- 音量调节
- 支持±20分贝的音量自主调节;
- 音频格式
- 支持wav、pcm等音频格式;
- 音频编码
- 支持8K、16K的单声道音频流,支持16Bit的数据采样精度;
产品优势
- 价格合理
少量声源数据合成出的大量语句,有效节约时间与人力成本。
- 高拟人度
硅基智能采用行业领先技术自主构建的语音合成系统,具备合成速度快、合成语音流畅自然等特点,合成音质饱满亲切,音色拟人度高,让设备和应用轻松自然发声。
- 数据需求量低
仅需5到20分钟的声源录入,便可合成出生动流畅的语音。
-
深度定制
结合TTS技术,支持不同场景下的多样会话。
-
离线部署
本地私有化部署,低延迟,保证企业数据安全,私密性强。
接口说明
硅基智能声音克隆服务提供tcp、ws多种通信方式,后端可对接多种引擎,除直接包装代理通信外,还支持对业务的组合包装,满足多种业务使用场景。
- ws和tcp接口交互过程分以下几个步骤:
- 选择通信协议,建立连接,完成tcp握手,ws协议升级等操作
- 发送请求参数:Len(长度,4B(字节))+Endpoint(功能,2B(字节))+Payload(载荷)
- 获取返回结果:Len(长度,4B(字节))+Endpoint(功能,2B(字节))+Payload(载荷)
- 循环3-4步骤
- 完成交互,断开连接,销毁相关资源。
- 说明:
- 载荷内容可能是音频流,可能是json,根据具体接口协定,后面具体请求都会有示例
- 长度4字节描述是指静载荷长度,不包含包头4B和Endpoint的2B长度
- Endpoint 指的是功能点,比如154为asr功能,150为tts功能,请求的Endpoint和返回的不相同
- 包头4B和Endpoint的2B为大端模式
- 请求和返回次数不是一一对应,可能多次请求一次返回,或者一次请求多次返回。
- 可以在建立连接后,正式请求前,建立握手信息,握手信息作用如下:1. 标识请求方的 身份 2.方便精确定位 3. 修改本次请求默认配置信息后面会有具体示例
请求示例
- 合成文本:
参数 格式 样例 说明 包长 数值 130 0~4G 端点 数值 150 0~65535 参数 JSON {"Text":"您好,我这边给您做一个回访可以吗?","speaker":"maohui","volume":null,"pitch":null,"speech_rate":null} 合成请求speaker:发音人 volume:音量pitch:语调 speech_rate:语速 - 返回:
参数 格式 样例 说明 包长 数值 99960 0~4G 端点 数值 7 0~65535 参数 JSON < 二进制音频数据 > 此次请求平台侧的logid
SDK使用说明
- Python SDK
- 下载AIBasePythonSdk,确保本地AIBase已经安装,安装python3执行环境,运行python3demo.py
- Go SDK
- 下载AIBaseGoSdk,确保本地AIBase已经安装,安装go执行环境,运行go run main.go
- Java SDK
- 敬请期待
- C SDK
- 敬请期待