海极网

语音SDK

1. 简述

海尔优家uaiSDK是海尔人工智能技术的客户端版本。目标是提供统一架构的人工智能技术API、框架和服务，包括语音识别（ASR，Automatic Speech Recognition，自动语音识别技术）、语音合成（TTS, Text To Speech, 从文本到语言）, 自然语言理解（NLU，Natural Language Understanding）和图像识别等。uaiSDK目标是为家电产业和第三方应用提供高层次接口、框架和服务，统一管理，方便系统集成。

海尔优家uaiSDK根据应用场景和应用领域，提供对设备端的语音信息的探测、采集、处理和压缩等处理，通过本地人工智能引擎或云端人工智能接口完成信息的处理、特征提取、分类、识别等功能，将识别结果通过结果返回。

2. 功能介绍

2.1语音识别

自动语音识别技术（ASR，Automatic Speech Recognition）是一种将人的语音转换为文本的技术。

uaiSDK语音识别模块提供语音唤醒、端点检测（VAD）、云端识别功能。语音识别扩展模块提供录音机功能。

根据平台环境和开发语言的区别，提供Android(java), iOS（Objective-C）等版本。

2.1.1 语音唤醒API

语音唤醒API提供语音唤醒功能。语音唤醒API接收语音缓存区数据，判断是否与唤醒词相同。

2.1.2 语音识别录音机

1. 语音识别录音机提供对录音音频的语音识别功能。

2. 语音识别录音机支持音源设备选择功能。完成录音采集后，通过调用语音识别API进行识别，并返回识别结果功能。录音机支持输出音频。

3. ASR录音机在识别前可开启唤醒功能，即用户通过唤醒词唤醒后，选择进入识别流程。识别流结束后，SDK再次进入等待唤醒状态。语音唤醒功能计算一般发生的设备端，需要算法支持。

4. ASR录音机提供连续录音识别功能。可以选择是否开启VAD检测功能。录音机支持Android, iOS平台。为嵌入式录音实现预留接口。

2.2 语音合成

2.2.1 概述

1. 语音合成技术，TTS（Text To Speech），实现从文本到语音的合成技术，是人机对话的一部分，让机器能够说话。

2. uaiSDK语音合成模块提供语音合成和语音播放功能。语音合成基础模块提供文本向语音数据的转换功能。

3. 语音合成扩展模块提供语音合成播放器。扩展模块提供Android, iOS平台的录音功能和录音功能UI。

4. 语音合成基础模块提供语音合成、进度反馈等功能。

5. 语音合成播放器提供播放通道选择，合成进度反馈，播放进度反馈等功能。

2.2.2 语音合成API

1. 语音合成API提供文本向音频数据的转换功能接口。

2. 根据合成引擎和不同，通过参数控制音色、音量、语速、标记语言等，实现不同的合成和控制效果。

3. 合成接口提供合成进度反馈功能。

2.2.3 语音合成播放器

1. 语音合成播放器用于在目标平台播放语音合成音频。

2. 语音合成播放器支持目标设备选择。

3. 语音合成播放器支持语音的播放、暂停、停止。

4. 语音合成播放器支持播放进度反馈，依据文本分段信息、合成进度反馈等。

5. 针对播放平台的不同，提供Android，iOS不同版本。

2.2.4 统一接口语音合成模块

统一接口语音合成模块是在统一接口基础上实现的云端TTS合成模块。

采取单独提供模块的目的是如果在未来有其他版本协议或者本地识别能力出现时，可以切换。

2.3 语义理解

2.3.1 概述

1. 语义理解（Natural Language Understanding，简称NLU）技术，涵盖领域非常广泛，包括句子检测，分词，词性标注，句法分析，文本分类/聚类，文字角度，信息抽取/自动摘要，机器翻译，自动问答，文本生成等多个领域。

2. uaiSDK提供语义意图理解的功能，提供对文本信息的意图提取，如对冰箱的操作指令。随着算法的改进，也会提供对话功能。对话功能需要对上下文状态进行标识，具体实现依赖于引擎算法。

2.3.2 语义理解API

语义理解API提供语义文本信息的意图提取、对话功能接口。语义理解API输入文本信息，返回识别结果。语义理解API通过参数控制语言理解的领域等信息。

2.3.3 统一接口语义理解模块

1. 统一接口语义理解模块是在统一接口基础上实现的云端语义理解模块。

2. 采取单独提供模块的目的是如果在未来有其他版本协议或者本地理解能力出现时，可以切换。

3. 应用场景

1. 语音识别适应于语音输入、语音控制等应用场景，将语音数据转化为相应文本，提升了应用场景下的交互体验

2. 语音合成可以将用户输入的文字装换成自然的语音输出，让人机交互更为自然

3. 语义理解提取用户意图，让产品更好的理解用户的输入，例如通过语音输入操作智能家居设备