色尼姑亚洲

昊天影院 及时语音识别接口讲解

发布日期:2024-11-02 12:42    点击次数:105

昊天影院 及时语音识别接口讲解

对永劫期的语音数据流进行识别昊天影院,适用于会议演讲、视频直播等永劫期不隔断识别的场景。

ws://nls-gateway.ap-southeast-1-internal.aliyuncs.com:80/ws/v1

交互历程image1. 鉴权

客户端与办事端开采WebSocket不绝时,使用Token进行鉴权。对于Token取得请参见通过SDK取得Token。

2. 开动识别

客户端发起肯求,办事端阐发肯求有用。其中在肯求音尘中需要进行参数成立,各参数由SDK中SpeechTranscriber对象的set方法成立,各参数含义如下:

参数

类型

是否必选

讲解

appkey

String昊天影院

管控台创建的模样appkey。

format

String

音频编码格局,默许是PCM(无压缩的PCM文献或WAV文献),16bit采样位数的单声谈。

sample_rate

Integer

音频采样率,默许是16000Hz,凭据音频采样率在管控台对应模样中树立相沿该采样率及场景的模子。

enable_intermediate_result

Boolean

是否复返中间识别效果,默许是False。

enable_punctuation_prediction

Boolean

是否在后处理中添加标点,默许是False。

enable_inverse_text_normalization

女同91

Boolean

是否在后处理中履行ITN,成立为true时,汉文数字将转为阿拉伯数字输出,默许是False。

customization_id

String

自学习模子ID。

vocabulary_id

String

定制泛热词ID。

max_sentence_silence

Integer

语音断句检测阈值,静音时长卓越该阈值会被以为断句,参数范围200ms~2000ms,默许值800ms。

enable_words

Boolean

是否开启复返词信息,默许是False。

enable_ignore_sentence_timeout

Boolean

是否忽略及时识别中的单句识别超时,默许是False。

disfluency

Boolean

是否对识别文本进行顺滑(去除语气词,类似说等),默许是False。

vad_model

String

办事端的vad模子id,默许无需成立。

speech_noise_threshold

float

杂音参数阈值,参数范围:[-1,1]。取值讲解如下:

取值越趋于-1,杂音被判定为语音的概率越大。

取值越趋于+1,语音被判定为杂音的概率越大。

3. 秉承识别效果

客户端轮回发送语音数据,捏续秉承识别效果:

SentenceBegin事件暗示办事端检测到了一句话的开动。及时语音识别办事的智能断句功能会判断出一句话的开动与胁制,例如如下:

{
	"header": {
		"namespace": "SpeechTranscriber",
		"name": "SentenceBegin",
		"status": 20000000,
		"message_id": "a426f3d4618447519c9d85d1a0d1****",
		"task_id": "5ec521b5aa104e3abccf3d361822****",
		"status_text": "Gateway:SUCCESS:Success."
	},
	"payload": {
		"index": 1,
		"time": 0
	}
}

header对象参数讲解:

参数

类型

讲解

namespace

String

音尘所属的定名空间。

name

String

音尘称呼,SentenceBegin暗示一个句子的开动。

status

Integer

景况码,暗示肯求是否收效,见办事景况码。

status_text

String

景况音尘。

task_id

String

任务全局独一ID,请记载该值,便于排查问题。

message_id

String

本次音尘的ID。

payload对象参数讲解:

参数

类型

讲解

index

Integer

句子编号,从1开动递加。

time

Integer

现时已处理的音频时长,单元是毫秒。

TranscriptionResultChanged事件暗示识别效果发生了变化。仅当enable_intermediate_result取值为true时会屡次复返此音尘,即一句话的中间识别效果,例如如下:

{
	"header": {
		"namespace": "SpeechTranscriber",
		"name": "TranscriptionResultChanged",
		"status": 20000000,
		"message_id": "dc21193fada84380a3b6137875ab****",
		"task_id": "5ec521b5aa104e3abccf3d361822****",
		"status_text": "Gateway:SUCCESS:Success."
	},
	"payload": {
		"index": 1,
		"time": 1835,
		"result": "北京的天",
		"confidence": 1.0,
		"words": [{
			"text": "北京",
			"startTime": 630,
			"endTime": 930
		}, {
			"text": "的",
			"startTime": 930,
			"endTime": 1110
		}, {
			"text": "天",
			"startTime": 1110,
			"endTime": 1140
		}]
	}
}       

header对象参数同上述表格讲解,name为TranscriptionResultChanged:暗示句子的中间识别效果。

payload对象参数讲解:

参数

类型

讲解

index

Integer

句子编号,第4 色播从1开动递加。

time

Integer

现时已处理的音频时长,单元是毫秒。

result

String

现时句子的识别效果。

words

List< Word >

现时句子的词信息,需要将enable_words成立为true。

confidence

Double

现时句子识别效果的置信度,取值范围:[0.0,1.0]。值越大暗示置信度越高。

SentenceEnd事件暗示办事端检测到了一句话的胁制,并附带复返该句话的识别效果,例如如下:

{
	"header": {
		"namespace": "SpeechTranscriber",
		"name": "SentenceEnd",
		"status": 20000000,
		"message_id": "c3a9ae4b231649d5ae05d4af36fd****",
		"task_id": "5ec521b5aa104e3abccf3d361822****",
		"status_text": "Gateway:SUCCESS:Success."
	},
	"payload": {
		"index": 1,
		"time": 1820,
		"begin_time": 0,
		"result": "北京的天气。",
		"confidence": 1.0,
		"words": [{
			"text": "北京",
			"startTime": 630,
			"endTime": 930
		}, {
			"text": "的",
			"startTime": 930,
			"endTime": 1110
		}, {
			"text": "天气",
			"startTime": 1110,
			"endTime": 1380
		}]
	}
}

header对象参数同上述表格讲解,name为SentenceEnd暗示识别到句子的胁制。

payload对象参数讲解:

参数

类型

讲解

index

Integer

句子编号,从1开动递加。

time

Integer

现时已处理的音频时长,单元是毫秒。

begin_time

Integer

现时句子对应的SentenceBegin事件的时间,单元是毫秒。

result

String

现时的识别效果。

words

List< Word >

现时句子的词信息,需要将enable_words成立为true。

confidence

Double

现时句子识别效果的置信度,取值范围:[0.0,1.0]。值越大暗示置信度越高。

Word对象参数讲解:

参数

类型

讲解

text

String

文本。

startTime

Integer

词开动时间,单元为毫秒。

endTime

Integer

词胁制时间,单元为毫秒。

4. 胁制识别

见告办事端语音数据发送完成,办事端识别胁制后见告客户端识别兑现。

办事景况码

在办事的每一次反应中,齐包含status字段,即办事景况码,此处列举通用作假码、网关作假码、树立作假码表格,如下表所示。

通用作假码:

作假码

原因

贬责见解

40000001

身份认证失败

查抄使用的令牌是否正确,是否过时。

40000002

无效的音尘

查抄发送的音尘是否稳妥条款。

403

令牌过时或无效的参数

当先查抄使用的令牌是否过时,然后查抄参数值成立是否合理。

40000004

逍遥超时

阐发是否永劫期(10秒)莫得发送数据到办事端。

40000005

肯求数目过多

查抄是否卓越了并发不绝数冒失每秒钟肯求数。若是卓越并发数,提出从免费版升级到商用版,冒失商用版扩容并发资源。

40000000

默许的客户端作假码

查看作假音尘或提交工单商议家具本领相沿。

41010120

客户端超时作假

客户端一语气10秒及以上莫得发送数据,导致客户端超时作假。

50000000

默许的办事端作假

若是偶现不错忽略,类似出现请提交工单商议家具本领相沿。

50000001

里面调用作假

若是偶现不错忽略,类似出现请提交工单商议家具本领相沿。

52010001

里面调用作假

若是偶现不错忽略,类似出现请提交工单商议家具本领相沿。

网关作假:

作假码

原因

贬责见解

40010001

不相沿的接口

使用了不相沿的接口,若是使用SDK请提交工单商议家具本领相沿。

40010002

不相沿的教导

使用了不相沿的教导,若是使用SDK请提交工单商议家具本领相沿。

40010003

无效的教导

教导格局作假,若是使用SDK请提交工单商议家具本领相沿。

40010004

客户端提前断开不绝

查抄是否在肯求平常完成之前关闭了不绝。

40010005

任务景况作假

发送了现时任务景况不行处理的教导。

树立作假:

作假码

原因

贬责见解

40020105

运用不存在

解析路由时找不到运用。

40020106

appkey和token不匹配

查抄运用apkey是否正确,是否与令牌包摄并吞个账号。

40020503

子账户鉴权失败

使用父账户对调用的子账户授权POP API的拜谒权限。

及时语音识别:

作假码

原因

贬责见解

41040201

客户端10s内住手发送数据

查抄采集问题,冒失查抄业务中是否存在不发数据的情况。

41040202

客户端发送数据过快,办事器资源还是破钞

检测客户端发包是否过快,是否按照1:1的及时率来发包。

41040203

客户端发送音频格局不正确

请将音频数据的格局退换为SDK当今相沿的音频格局发包。

41040204

客户端调用方法至极

客户端应该先调用发送肯求接口,在发送肯求兑现后再调用其他接口。

41040205

客户端成立MAXSILENCE_PARAM方法至极

参数MAXSILENCE_PARAM的取值范围200~2000。

41050008

采样率不匹配

查抄调用时成立的采样率和管控台上appkey绑定的ASR模子采样率是否一致。

51040101

办事端里面作假

未知作假。

51040103

及时语音识别办事不可用

查看及时语音识别办事是否有任务堆积等导致任务提交失败。

51040104

请务及时语音识别办事超时

排查及时语音识别日记。

51040105

调用及时语音识别办事失败

查抄及时语音识别办事是否启动,端口是否平常开启。

51040106

及时语音识别办事负载平衡失败,未取得到及时语音识别办事的IP地址

查抄VPC中的及时语音识别办事机器是否有至极。

51070103

后处理办事参数树立作假

请提交工单商议家具本领相沿。






Powered by 色尼姑亚洲 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2022 版权所有