产品概述

      硅基智能声音克隆技术(VoiceCloningTechnology),为客户提供多场景应用下的个性化声音定制服务。采用深度神经网络(DNN)技术,将韵律预测等融入到语音合成模型中,声源者只需提供5-20分钟的清晰言语便可克隆出适应多场景下应用的声音样本。利用迁移学习技术,不仅还原声源本人音色,更具备模仿声源者谈吐方式的功能。迎宾接客,朗诵诗文,情绪安抚等都是该产品理想的适用场景,且支持离线部署方式。

功能描述

  • 语言支持
    • 支持中文普通话,数字,大写字母等
  • 语速调节
    • 支持1-2倍语速快慢调节;
  • 采样率
    • 支持8K、16K两种采样率的合成效果;
  • 音量调节
    • 支持±20分贝的音量自主调节;
  • 音频格式
    • 支持wav、pcm等音频格式;
  • 音频编码
    • 支持8K、16K的单声道音频流,支持16Bit的数据采样精度;

产品优势

  • 价格合理

    少量声源数据合成出的大量语句,有效节约时间与人力成本。

  • 高拟人度

    硅基智能采用行业领先技术自主构建的语音合成系统,具备合成速度快、合成语音流畅自然等特点,合成音质饱满亲切,音色拟人度高,让设备和应用轻松自然发声。

  • 数据需求量低

    仅需5到20分钟的声源录入,便可合成出生动流畅的语音。

  • 深度定制

    结合TTS技术,支持不同场景下的多样会话。

  • 离线部署

    本地私有化部署,低延迟,保证企业数据安全,私密性强。

接口说明

      硅基智能声音克隆服务提供tcp、ws多种通信方式,后端可对接多种引擎,除直接包装代理通信外,还支持对业务的组合包装,满足多种业务使用场景。

  • ws和tcp接口交互过程分以下几个步骤:
    1. 选择通信协议,建立连接, 完成tcp握手,ws协议升级等操作
    2. 发送请求参数:Len(长度,4B(字节))+Endpoint(功能,2B(字节))+Payload(载荷)
    3. 获取返回结果:Len(长度,4B(字节))+Endpoint(功能,2B(字节))+Payload(载荷)
    4. 循环3-4步骤
    5. 完成交互,断开连接,销毁相关资源。
  • 说明:
    1. 载荷内容可能是音频流, 可能是json,根据具体接口协定,后面具体请求都会有示例
    2. 长度4字节描述是指静载荷长度,不包含包头4B和Endpoint的2B长度
    3. Endpoint 指的是功能点,比如154为asr功能,150为tts功能, 请求的Endpoint和返回的不相同
    4. 包头4B和Endpoint的2B为大端模式
    5. 请求和返回次数不是一一对应, 可能多次请求一次返回,或者一次请求多次返回。
    6. 可以在建立连接后, 正式请求前,建立握手信息,握手信息作用如下:1. 标识请求方的 身份 2.方便精确定位 3. 修改本次请求默认配置信息后面会有具体示例

请求示例

  • 合成文本:

    参数 格式 样例说明
    包长 数值 130 0~4G
    端点 数值 150 0~65535
    参数 JSON {"Text":"您好,我这边给您做一个回访可以吗?","speaker":"maohui","volume":null,"pitch":null,"speech_rate":null} 合成请求speaker:发音人 volume:音量pitch:语调 speech_rate:语速

  • 返回:

    参数 格式 样例说明
    包长 数值 99960 0~4G
    端点 数值 7 0~65535
    参数 JSON < 二进制音频数据 > 此次请求平台侧的logid

SDK使用说明

  • Python SDK
    • 下载AIBasePythonSdk, 确保本地AIBase已经安装, 安装python3执行环境 ,运行python3demo.py
  • Go SDK
    • 下载AIBaseGoSdk, 确保本地AIBase已经安装, 安装go执行环境 ,运行go run main.go
  • Java SDK
    • 敬请期待
  • C SDK
    • 敬请期待