产品概述

      硅基智能语音合成采用先进的端到端神经网络技术,脱离自回归网络结构,声学模型和声码器采用并行化合成技术,可以将文本快速转换成流畅自然的语音。提供多种音色选择,支持音量、语速自定义调节及声音克隆,贴近应用场景,合成音色饱满音质拟人。适用于智能客服、语音导航、新闻播报、有声读物等多种应用场景

功能描述

  • 语言支持
    • 支持中文、英文、中英文混读
  • 音色支持
    • 支持发声人多种选择,目前已支持15种音色,13种成年音色(5男8女)、2种儿童音色,更多音色未来持续添加。
  • 语速调整
    • 支持1-2倍语速的增降速自主调节
  • 音量调节
    • 支持±20分贝的音量自主调节
  • 采样率
    • 支持8K、16K两种采样率的合成效果
  • 合成模式
    • 支持基础语音合成和实时语音合成两种模式

产品优势

  • 价格合理

    自主研发,离线部署基于终端设备或服务器路数计费,对接灵活,价格优惠,商务可协商

  • 高拟人度

    硅基智能采用行业领先技术自主构建的语音合成系统,具备合成速度快、合成语音流畅自然等特点,合成音质饱满亲切,音色拟人度高,让设备和应用轻松自然发声。

  • 多场景离线音库

    提供多种高品质音库供您选择,即将推出更多特色音库。

  • 声音克隆

    支持真人语音克隆,人机协同对话“以假乱真”

  • 离线部署

    本地私有化部署,低延迟,保证企业数据安全,私密性强。

接口说明

      硅基智能语音合成服务提供tcp、ws多种通信方式,后端可对接多种引擎,除直接包装代理通信外,还支持对业务的组合包装,满足多种业务使用场景。

  • ws和tcp接口交互过程分以下几个步骤:
    1. 选择通信协议,建立连接, 完成tcp握手,ws协议升级等操作
    2. 发送请求参数:Len(长度,4B(字节))+Endpoint(功能,2B(字节))+Payload(载荷)
    3. 获取返回结果:Len(长度,4B(字节))+Endpoint(功能,2B(字节))+Payload(载荷)
    4. 循环3-4步骤
    5. 完成交互,断开连接,销毁相关资源。
  • 说明:
    1. 载荷内容可能是音频流, 可能是json,根据具体接口协定,后面具体请求都会有示例
    2. 长度4字节描述是指静载荷长度,不包含包头4B和Endpoint的2B长度
    3. Endpoint 指的是功能点,比如154为asr功能,150为tts功能, 请求的Endpoint和返回的不相同
    4. 包头4B和Endpoint的2B为大端模式
    5. 请求和返回次数不是一一对应, 可能多次请求一次返回,或者一次请求多次返回。
    6. 可以在建立连接后, 正式请求前,建立握手信息,握手信息作用如下:1. 标识请求方的 身份 2.方便精确定位 3. 修改本次请求默认配置信息 后面会有具体示例

请求示例

  • 合成文本:

    参数 格式 样例说明
    包长 数值 130 0~4G
    端点 数值 150 0~65535
    参数 JSON {"Text":"您好,我这边给您做一个回访可以吗?","speaker":"maohui","volume":null,"pitch":null,"speech_rate":null} 合成请求speaker:发音人 volume:音量pitch:语调 speech_rate:语速

  • 返回:

    参数 格式 样例说明
    包长 数值 99960 0~4G
    端点 数值 7 0~65535
    参数 JSON <二进制音频数据> 此次请求平台侧的logid

SDK使用说明

  • Python SDK
    • 下载AIBasePythonSdk, 确保本地AIBase已经安装, 安装python3执行环境 ,运行python3demo.py
  • Go SDK
    • 下载AIBaseGoSdk, 确保本地AIBase已经安装, 安装go执行环境 ,运行go run main.go
  • Java SDK
    • 敬请期待
  • C SDK
    • 敬请期待