昊天影院 及时语音识别接口讲解
对永劫期的语音数据流进行识别昊天影院,适用于会议演讲、视频直播等永劫期不隔断识别的场景。
ws://nls-gateway.ap-southeast-1-internal.aliyuncs.com:80/ws/v1
交互历程1. 鉴权客户端与办事端开采WebSocket不绝时,使用Token进行鉴权。对于Token取得请参见通过SDK取得Token。
2. 开动识别客户端发起肯求,办事端阐发肯求有用。其中在肯求音尘中需要进行参数成立,各参数由SDK中SpeechTranscriber对象的set方法成立,各参数含义如下:
参数
类型
是否必选
讲解
appkey
String昊天影院
是
管控台创建的模样appkey。
format
String
否
音频编码格局,默许是PCM(无压缩的PCM文献或WAV文献),16bit采样位数的单声谈。
sample_rate
Integer
否
音频采样率,默许是16000Hz,凭据音频采样率在管控台对应模样中树立相沿该采样率及场景的模子。
enable_intermediate_result
Boolean
否
是否复返中间识别效果,默许是False。
enable_punctuation_prediction
Boolean
否
是否在后处理中添加标点,默许是False。
enable_inverse_text_normalization
女同91Boolean
否
是否在后处理中履行ITN,成立为true时,汉文数字将转为阿拉伯数字输出,默许是False。
customization_id
String
否
自学习模子ID。
vocabulary_id
String
否
定制泛热词ID。
max_sentence_silence
Integer
否
语音断句检测阈值,静音时长卓越该阈值会被以为断句,参数范围200ms~2000ms,默许值800ms。
enable_words
Boolean
否
是否开启复返词信息,默许是False。
enable_ignore_sentence_timeout
Boolean
否
是否忽略及时识别中的单句识别超时,默许是False。
disfluency
Boolean
否
是否对识别文本进行顺滑(去除语气词,类似说等),默许是False。
vad_model
String
否
办事端的vad模子id,默许无需成立。
speech_noise_threshold
float
否
杂音参数阈值,参数范围:[-1,1]。取值讲解如下:
取值越趋于-1,杂音被判定为语音的概率越大。
取值越趋于+1,语音被判定为杂音的概率越大。
3. 秉承识别效果客户端轮回发送语音数据,捏续秉承识别效果:
SentenceBegin事件暗示办事端检测到了一句话的开动。及时语音识别办事的智能断句功能会判断出一句话的开动与胁制,例如如下:
{ "header": { "namespace": "SpeechTranscriber", "name": "SentenceBegin", "status": 20000000, "message_id": "a426f3d4618447519c9d85d1a0d1****", "task_id": "5ec521b5aa104e3abccf3d361822****", "status_text": "Gateway:SUCCESS:Success." }, "payload": { "index": 1, "time": 0 } }
header对象参数讲解:
参数
类型
讲解
namespace
String
音尘所属的定名空间。
name
String
音尘称呼,SentenceBegin暗示一个句子的开动。
status
Integer
景况码,暗示肯求是否收效,见办事景况码。
status_text
String
景况音尘。
task_id
String
任务全局独一ID,请记载该值,便于排查问题。
message_id
String
本次音尘的ID。
payload对象参数讲解:
参数
类型
讲解
index
Integer
句子编号,从1开动递加。
time
Integer
现时已处理的音频时长,单元是毫秒。
TranscriptionResultChanged事件暗示识别效果发生了变化。仅当enable_intermediate_result取值为true时会屡次复返此音尘,即一句话的中间识别效果,例如如下:
{ "header": { "namespace": "SpeechTranscriber", "name": "TranscriptionResultChanged", "status": 20000000, "message_id": "dc21193fada84380a3b6137875ab****", "task_id": "5ec521b5aa104e3abccf3d361822****", "status_text": "Gateway:SUCCESS:Success." }, "payload": { "index": 1, "time": 1835, "result": "北京的天", "confidence": 1.0, "words": [{ "text": "北京", "startTime": 630, "endTime": 930 }, { "text": "的", "startTime": 930, "endTime": 1110 }, { "text": "天", "startTime": 1110, "endTime": 1140 }] } }
header对象参数同上述表格讲解,name为TranscriptionResultChanged:暗示句子的中间识别效果。
payload对象参数讲解:
参数
类型
讲解
index
Integer
句子编号,第4 色播从1开动递加。
time
Integer
现时已处理的音频时长,单元是毫秒。
result
String
现时句子的识别效果。
words
List< Word >
现时句子的词信息,需要将enable_words成立为true。
confidence
Double
现时句子识别效果的置信度,取值范围:[0.0,1.0]。值越大暗示置信度越高。
SentenceEnd事件暗示办事端检测到了一句话的胁制,并附带复返该句话的识别效果,例如如下:
{ "header": { "namespace": "SpeechTranscriber", "name": "SentenceEnd", "status": 20000000, "message_id": "c3a9ae4b231649d5ae05d4af36fd****", "task_id": "5ec521b5aa104e3abccf3d361822****", "status_text": "Gateway:SUCCESS:Success." }, "payload": { "index": 1, "time": 1820, "begin_time": 0, "result": "北京的天气。", "confidence": 1.0, "words": [{ "text": "北京", "startTime": 630, "endTime": 930 }, { "text": "的", "startTime": 930, "endTime": 1110 }, { "text": "天气", "startTime": 1110, "endTime": 1380 }] } }
header对象参数同上述表格讲解,name为SentenceEnd暗示识别到句子的胁制。
payload对象参数讲解:
参数
类型
讲解
index
Integer
句子编号,从1开动递加。
time
Integer
现时已处理的音频时长,单元是毫秒。
begin_time
Integer
现时句子对应的SentenceBegin事件的时间,单元是毫秒。
result
String
现时的识别效果。
words
List< Word >
现时句子的词信息,需要将enable_words成立为true。
confidence
Double
现时句子识别效果的置信度,取值范围:[0.0,1.0]。值越大暗示置信度越高。
Word对象参数讲解:
参数
类型
讲解
text
String
文本。
startTime
Integer
词开动时间,单元为毫秒。
endTime
Integer
词胁制时间,单元为毫秒。
4. 胁制识别见告办事端语音数据发送完成,办事端识别胁制后见告客户端识别兑现。
办事景况码在办事的每一次反应中,齐包含status字段,即办事景况码,此处列举通用作假码、网关作假码、树立作假码表格,如下表所示。
通用作假码:
作假码
原因
贬责见解
40000001
身份认证失败
查抄使用的令牌是否正确,是否过时。
40000002
无效的音尘
查抄发送的音尘是否稳妥条款。
403
令牌过时或无效的参数
当先查抄使用的令牌是否过时,然后查抄参数值成立是否合理。
40000004
逍遥超时
阐发是否永劫期(10秒)莫得发送数据到办事端。
40000005
肯求数目过多
查抄是否卓越了并发不绝数冒失每秒钟肯求数。若是卓越并发数,提出从免费版升级到商用版,冒失商用版扩容并发资源。
40000000
默许的客户端作假码
查看作假音尘或提交工单商议家具本领相沿。
41010120
客户端超时作假
客户端一语气10秒及以上莫得发送数据,导致客户端超时作假。
50000000
默许的办事端作假
若是偶现不错忽略,类似出现请提交工单商议家具本领相沿。
50000001
里面调用作假
若是偶现不错忽略,类似出现请提交工单商议家具本领相沿。
52010001
里面调用作假
若是偶现不错忽略,类似出现请提交工单商议家具本领相沿。
网关作假:
作假码
原因
贬责见解
40010001
不相沿的接口
使用了不相沿的接口,若是使用SDK请提交工单商议家具本领相沿。
40010002
不相沿的教导
使用了不相沿的教导,若是使用SDK请提交工单商议家具本领相沿。
40010003
无效的教导
教导格局作假,若是使用SDK请提交工单商议家具本领相沿。
40010004
客户端提前断开不绝
查抄是否在肯求平常完成之前关闭了不绝。
40010005
任务景况作假
发送了现时任务景况不行处理的教导。
树立作假:
作假码
原因
贬责见解
40020105
运用不存在
解析路由时找不到运用。
40020106
appkey和token不匹配
查抄运用apkey是否正确,是否与令牌包摄并吞个账号。
40020503
子账户鉴权失败
使用父账户对调用的子账户授权POP API的拜谒权限。
及时语音识别:
作假码
原因
贬责见解
41040201
客户端10s内住手发送数据
查抄采集问题,冒失查抄业务中是否存在不发数据的情况。
41040202
客户端发送数据过快,办事器资源还是破钞
检测客户端发包是否过快,是否按照1:1的及时率来发包。
41040203
客户端发送音频格局不正确
请将音频数据的格局退换为SDK当今相沿的音频格局发包。
41040204
客户端调用方法至极
客户端应该先调用发送肯求接口,在发送肯求兑现后再调用其他接口。
41040205
客户端成立MAXSILENCE_PARAM方法至极
参数MAXSILENCE_PARAM的取值范围200~2000。
41050008
采样率不匹配
查抄调用时成立的采样率和管控台上appkey绑定的ASR模子采样率是否一致。
51040101
办事端里面作假
未知作假。
51040103
及时语音识别办事不可用
查看及时语音识别办事是否有任务堆积等导致任务提交失败。
51040104
请务及时语音识别办事超时
排查及时语音识别日记。
51040105
调用及时语音识别办事失败
查抄及时语音识别办事是否启动,端口是否平常开启。
51040106
及时语音识别办事负载平衡失败,未取得到及时语音识别办事的IP地址
查抄VPC中的及时语音识别办事机器是否有至极。
51070103
后处理办事参数树立作假
请提交工单商议家具本领相沿。