public class SentenceRecognitionRequest extends AbstractModel
header, skipSign
Constructor and Description |
---|
SentenceRecognitionRequest() |
SentenceRecognitionRequest(SentenceRecognitionRequest source)
NOTE: Any ambiguous key set via .set("AnyKey", "value") will be a shallow copy,
and any explicit key, i.e Foo, set via .setFoo("value") will be a deep copy.
|
Modifier and Type | Method and Description |
---|---|
Long |
getConvertNumMode()
Get 是否进行阿拉伯数字智能转换。0:不转换,直接输出中文数字,1:根据场景智能转换为阿拉伯数字。默认值为1。
|
String |
getCustomizationId()
Get 自学习模型 id。如设置了该参数,将生效对应的自学习模型。
|
String |
getData()
Get 语音数据,当SourceType 值为1(本地语音数据上传)时必须填写,当SourceType 值为0(语音 URL上传)可不写。要使用base64编码(采用python语言时注意读取文件应该为string而不是byte,以byte格式读取后要decode()。编码后的数据不可带有回车换行符)。音频时长不能超过60s,音频文件大小不能超过3MB(Base64后)。
|
Long |
getDataLen()
Get 数据长度,单位为字节。当 SourceType 值为1(本地语音数据上传)时必须填写,当 SourceType 值为0(语音 URL上传)可不写(此数据长度为数据未进行base64编码时的数据长度)。
|
String |
getEngSerViceType()
Get 引擎模型类型。
电话场景:
• 8k_zh:中文电话通用;
• 8k_en:英文电话通用;
非电话场景:
• 16k_zh:中文通用;
• 16k_zh-PY:中英粤;
• 16k_zh_medical:中文医疗;
• 16k_en:英语;
• 16k_yue:粤语;
• 16k_ja:日语;
• 16k_ko:韩语;
• 16k_vi:越南语;
• 16k_ms:马来语;
• 16k_id:印度尼西亚语;
• 16k_fil:菲律宾语;
• 16k_th:泰语;
• 16k_pt:葡萄牙语;
• 16k_tr:土耳其语;
• 16k_ar:阿拉伯语;
• 16k_es:西班牙语;
• 16k_hi:印地语;
• 16k_fr:法语;
• 16k_de:德语;
• 16k_zh_dialect:多方言,支持23种方言(上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话);
|
Long |
getFilterDirty()
Get 是否过滤脏词(目前支持中文普通话引擎)。0:不过滤脏词;1:过滤脏词;2:将脏词替换为 * 。默认值为 0。
|
Long |
getFilterModal()
Get 是否过滤语气词(目前支持中文普通话引擎)。0:不过滤语气词;1:部分过滤;2:严格过滤 。默认值为 0。
|
Long |
getFilterPunc()
Get 是否过滤标点符号(目前支持中文普通话引擎)。 0:不过滤,1:过滤句末标点,2:过滤所有标点。默认值为 0。
|
String |
getHotwordId()
Get 热词id。用于调用对应的热词表,如果在调用语音识别服务时,不进行单独的热词id设置,自动生效默认热词;如果进行了单独的热词id设置,那么将生效单独设置的热词id。
|
String |
getHotwordList()
Get 临时热词表:该参数用于提升识别准确率。
单个热词限制:"热词|权重",单个热词不超过30个字符(最多10个汉字),权重1-11或者100,如:“腾讯云|5” 或 “ASR|11”;
临时热词表限制:多个热词用英文逗号分割,最多支持128个热词,如:“腾讯云|10,语音识别|5,ASR|11”;
参数 hotword_list(临时热词表) 与 hotword_id(热词表) 区别:
hotword_id:热词表。需要先在控制台或接口创建热词表,获得对应hotword_id传入参数来使用热词功能;
hotword_list:临时热词表。每次请求时直接传入临时热词表来使用热词功能,云端不保留临时热词表。适用于有极大量热词需求的用户;
注意:
• 如果同时传入了 hotword_id 和 hotword_list,会优先使用 hotword_list;
• 热词权重设置为11时,当前热词将升级为超级热词,建议仅将重要且必须生效的热词设置到11,设置过多权重为11的热词将影响整体字准率。
• 热词权重设置为100时,当前热词开启热词增强同音替换功能(仅支持8k_zh,16k_zh),举例:热词配置“蜜制|100”时,与“蜜制”同拼音(mizhi)的“秘制”的识别结果会被强制替换成“蜜制”。因此建议客户根据自己的实际情况开启该功能。建议仅将重要且必须生效的热词设置到100,设置过多权重为100的热词将影响整体字准率。
|
Long |
getInputSampleRate()
Get 支持pcm格式的8k音频在与引擎采样率不匹配的情况下升采样到16k后识别,能有效提升识别准确率。仅支持:8000。如:传入 8000 ,则pcm音频采样率为8k,当引擎选用16k_zh, 那么该8k采样率的pcm音频可以在16k_zh引擎下正常识别。 注:此参数仅适用于pcm格式音频,不传入值将维持默认状态,即默认调用的引擎采样率等于pcm音频采样率。
|
Long |
getProjectId()
Deprecated.
|
Long |
getReinforceHotword()
Deprecated.
|
Long |
getSourceType()
Get 语音数据来源。0:语音 URL;1:语音数据(post body)。
|
Long |
getSubServiceType()
Deprecated.
|
String |
getUrl()
Get 语音的URL地址,需要公网环境浏览器可下载。当 SourceType 值为 0时须填写该字段,为 1 时不填。音频时长不能超过60s,音频文件大小不能超过3MB。
注意:推荐使用 [腾讯云COS](https://cloud.tencent.com/document/product/436/38484) 来存储音频、生成URL并提交请求,此种方式会走内网下载音频,极大降低整体请求时延;并且不会产生外网和流量下行费用,可节约成本(COS桶权限需要设置公有读私有写,或URL设置时效访问签名)
|
String |
getUsrAudioKey()
Deprecated.
|
String |
getVoiceFormat()
Get 识别音频的音频格式,支持wav、pcm、ogg-opus、speex、silk、mp3、m4a、aac、amr。
|
Long |
getWordInfo()
Get 是否显示词级别时间戳。0:不显示;1:显示,不包含标点时间戳,2:显示,包含标点时间戳。默认值为 0。
|
void |
setConvertNumMode(Long ConvertNumMode)
Set 是否进行阿拉伯数字智能转换。0:不转换,直接输出中文数字,1:根据场景智能转换为阿拉伯数字。默认值为1。
|
void |
setCustomizationId(String CustomizationId)
Set 自学习模型 id。如设置了该参数,将生效对应的自学习模型。
|
void |
setData(String Data)
Set 语音数据,当SourceType 值为1(本地语音数据上传)时必须填写,当SourceType 值为0(语音 URL上传)可不写。要使用base64编码(采用python语言时注意读取文件应该为string而不是byte,以byte格式读取后要decode()。编码后的数据不可带有回车换行符)。音频时长不能超过60s,音频文件大小不能超过3MB(Base64后)。
|
void |
setDataLen(Long DataLen)
Set 数据长度,单位为字节。当 SourceType 值为1(本地语音数据上传)时必须填写,当 SourceType 值为0(语音 URL上传)可不写(此数据长度为数据未进行base64编码时的数据长度)。
|
void |
setEngSerViceType(String EngSerViceType)
Set 引擎模型类型。
电话场景:
• 8k_zh:中文电话通用;
• 8k_en:英文电话通用;
非电话场景:
• 16k_zh:中文通用;
• 16k_zh-PY:中英粤;
• 16k_zh_medical:中文医疗;
• 16k_en:英语;
• 16k_yue:粤语;
• 16k_ja:日语;
• 16k_ko:韩语;
• 16k_vi:越南语;
• 16k_ms:马来语;
• 16k_id:印度尼西亚语;
• 16k_fil:菲律宾语;
• 16k_th:泰语;
• 16k_pt:葡萄牙语;
• 16k_tr:土耳其语;
• 16k_ar:阿拉伯语;
• 16k_es:西班牙语;
• 16k_hi:印地语;
• 16k_fr:法语;
• 16k_de:德语;
• 16k_zh_dialect:多方言,支持23种方言(上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话);
|
void |
setFilterDirty(Long FilterDirty)
Set 是否过滤脏词(目前支持中文普通话引擎)。0:不过滤脏词;1:过滤脏词;2:将脏词替换为 * 。默认值为 0。
|
void |
setFilterModal(Long FilterModal)
Set 是否过滤语气词(目前支持中文普通话引擎)。0:不过滤语气词;1:部分过滤;2:严格过滤 。默认值为 0。
|
void |
setFilterPunc(Long FilterPunc)
Set 是否过滤标点符号(目前支持中文普通话引擎)。 0:不过滤,1:过滤句末标点,2:过滤所有标点。默认值为 0。
|
void |
setHotwordId(String HotwordId)
Set 热词id。用于调用对应的热词表,如果在调用语音识别服务时,不进行单独的热词id设置,自动生效默认热词;如果进行了单独的热词id设置,那么将生效单独设置的热词id。
|
void |
setHotwordList(String HotwordList)
Set 临时热词表:该参数用于提升识别准确率。
单个热词限制:"热词|权重",单个热词不超过30个字符(最多10个汉字),权重1-11或者100,如:“腾讯云|5” 或 “ASR|11”;
临时热词表限制:多个热词用英文逗号分割,最多支持128个热词,如:“腾讯云|10,语音识别|5,ASR|11”;
参数 hotword_list(临时热词表) 与 hotword_id(热词表) 区别:
hotword_id:热词表。需要先在控制台或接口创建热词表,获得对应hotword_id传入参数来使用热词功能;
hotword_list:临时热词表。每次请求时直接传入临时热词表来使用热词功能,云端不保留临时热词表。适用于有极大量热词需求的用户;
注意:
• 如果同时传入了 hotword_id 和 hotword_list,会优先使用 hotword_list;
• 热词权重设置为11时,当前热词将升级为超级热词,建议仅将重要且必须生效的热词设置到11,设置过多权重为11的热词将影响整体字准率。
• 热词权重设置为100时,当前热词开启热词增强同音替换功能(仅支持8k_zh,16k_zh),举例:热词配置“蜜制|100”时,与“蜜制”同拼音(mizhi)的“秘制”的识别结果会被强制替换成“蜜制”。因此建议客户根据自己的实际情况开启该功能。建议仅将重要且必须生效的热词设置到100,设置过多权重为100的热词将影响整体字准率。
|
void |
setInputSampleRate(Long InputSampleRate)
Set 支持pcm格式的8k音频在与引擎采样率不匹配的情况下升采样到16k后识别,能有效提升识别准确率。仅支持:8000。如:传入 8000 ,则pcm音频采样率为8k,当引擎选用16k_zh, 那么该8k采样率的pcm音频可以在16k_zh引擎下正常识别。 注:此参数仅适用于pcm格式音频,不传入值将维持默认状态,即默认调用的引擎采样率等于pcm音频采样率。
|
void |
setProjectId(Long ProjectId)
Deprecated.
|
void |
setReinforceHotword(Long ReinforceHotword)
Deprecated.
|
void |
setSourceType(Long SourceType)
Set 语音数据来源。0:语音 URL;1:语音数据(post body)。
|
void |
setSubServiceType(Long SubServiceType)
Deprecated.
|
void |
setUrl(String Url)
Set 语音的URL地址,需要公网环境浏览器可下载。当 SourceType 值为 0时须填写该字段,为 1 时不填。音频时长不能超过60s,音频文件大小不能超过3MB。
注意:推荐使用 [腾讯云COS](https://cloud.tencent.com/document/product/436/38484) 来存储音频、生成URL并提交请求,此种方式会走内网下载音频,极大降低整体请求时延;并且不会产生外网和流量下行费用,可节约成本(COS桶权限需要设置公有读私有写,或URL设置时效访问签名)
|
void |
setUsrAudioKey(String UsrAudioKey)
Deprecated.
|
void |
setVoiceFormat(String VoiceFormat)
Set 识别音频的音频格式,支持wav、pcm、ogg-opus、speex、silk、mp3、m4a、aac、amr。
|
void |
setWordInfo(Long WordInfo)
Set 是否显示词级别时间戳。0:不显示;1:显示,不包含标点时间戳,2:显示,包含标点时间戳。默认值为 0。
|
void |
toMap(HashMap<String,String> map,
String prefix)
Internal implementation, normal users should not use it.
|
any, fromJsonString, getBinaryParams, GetHeader, getMultipartRequestParams, getSkipSign, isStream, set, SetHeader, setParamArrayObj, setParamArraySimple, setParamObj, setParamSimple, setSkipSign, toJsonString
public SentenceRecognitionRequest()
public SentenceRecognitionRequest(SentenceRecognitionRequest source)
public String getEngSerViceType()
public void setEngSerViceType(String EngSerViceType)
EngSerViceType
- 引擎模型类型。
电话场景:
• 8k_zh:中文电话通用;
• 8k_en:英文电话通用;
非电话场景:
• 16k_zh:中文通用;
• 16k_zh-PY:中英粤;
• 16k_zh_medical:中文医疗;
• 16k_en:英语;
• 16k_yue:粤语;
• 16k_ja:日语;
• 16k_ko:韩语;
• 16k_vi:越南语;
• 16k_ms:马来语;
• 16k_id:印度尼西亚语;
• 16k_fil:菲律宾语;
• 16k_th:泰语;
• 16k_pt:葡萄牙语;
• 16k_tr:土耳其语;
• 16k_ar:阿拉伯语;
• 16k_es:西班牙语;
• 16k_hi:印地语;
• 16k_fr:法语;
• 16k_de:德语;
• 16k_zh_dialect:多方言,支持23种方言(上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话);public Long getSourceType()
public void setSourceType(Long SourceType)
SourceType
- 语音数据来源。0:语音 URL;1:语音数据(post body)。public String getVoiceFormat()
public void setVoiceFormat(String VoiceFormat)
VoiceFormat
- 识别音频的音频格式,支持wav、pcm、ogg-opus、speex、silk、mp3、m4a、aac、amr。@Deprecated public Long getProjectId()
@Deprecated public void setProjectId(Long ProjectId)
ProjectId
- 腾讯云项目 ID,废弃参数,填写0即可。@Deprecated public Long getSubServiceType()
@Deprecated public void setSubServiceType(Long SubServiceType)
SubServiceType
- 子服务类型。2: 一句话识别。public String getUrl()
public void setUrl(String Url)
Url
- 语音的URL地址,需要公网环境浏览器可下载。当 SourceType 值为 0时须填写该字段,为 1 时不填。音频时长不能超过60s,音频文件大小不能超过3MB。
注意:推荐使用 [腾讯云COS](https://cloud.tencent.com/document/product/436/38484) 来存储音频、生成URL并提交请求,此种方式会走内网下载音频,极大降低整体请求时延;并且不会产生外网和流量下行费用,可节约成本(COS桶权限需要设置公有读私有写,或URL设置时效访问签名)@Deprecated public String getUsrAudioKey()
@Deprecated public void setUsrAudioKey(String UsrAudioKey)
UsrAudioKey
- 废弃参数,填写任意字符串即可。public String getData()
public void setData(String Data)
Data
- 语音数据,当SourceType 值为1(本地语音数据上传)时必须填写,当SourceType 值为0(语音 URL上传)可不写。要使用base64编码(采用python语言时注意读取文件应该为string而不是byte,以byte格式读取后要decode()。编码后的数据不可带有回车换行符)。音频时长不能超过60s,音频文件大小不能超过3MB(Base64后)。public Long getDataLen()
public void setDataLen(Long DataLen)
DataLen
- 数据长度,单位为字节。当 SourceType 值为1(本地语音数据上传)时必须填写,当 SourceType 值为0(语音 URL上传)可不写(此数据长度为数据未进行base64编码时的数据长度)。public Long getWordInfo()
public void setWordInfo(Long WordInfo)
WordInfo
- 是否显示词级别时间戳。0:不显示;1:显示,不包含标点时间戳,2:显示,包含标点时间戳。默认值为 0。public Long getFilterDirty()
public void setFilterDirty(Long FilterDirty)
FilterDirty
- 是否过滤脏词(目前支持中文普通话引擎)。0:不过滤脏词;1:过滤脏词;2:将脏词替换为 * 。默认值为 0。public Long getFilterModal()
public void setFilterModal(Long FilterModal)
FilterModal
- 是否过滤语气词(目前支持中文普通话引擎)。0:不过滤语气词;1:部分过滤;2:严格过滤 。默认值为 0。public Long getFilterPunc()
public void setFilterPunc(Long FilterPunc)
FilterPunc
- 是否过滤标点符号(目前支持中文普通话引擎)。 0:不过滤,1:过滤句末标点,2:过滤所有标点。默认值为 0。public Long getConvertNumMode()
public void setConvertNumMode(Long ConvertNumMode)
ConvertNumMode
- 是否进行阿拉伯数字智能转换。0:不转换,直接输出中文数字,1:根据场景智能转换为阿拉伯数字。默认值为1。public String getHotwordId()
public void setHotwordId(String HotwordId)
HotwordId
- 热词id。用于调用对应的热词表,如果在调用语音识别服务时,不进行单独的热词id设置,自动生效默认热词;如果进行了单独的热词id设置,那么将生效单独设置的热词id。public String getCustomizationId()
public void setCustomizationId(String CustomizationId)
CustomizationId
- 自学习模型 id。如设置了该参数,将生效对应的自学习模型。@Deprecated public Long getReinforceHotword()
@Deprecated public void setReinforceHotword(Long ReinforceHotword)
ReinforceHotword
- 热词增强功能。1:开启后(仅支持8k_zh,16k_zh),将开启同音替换功能,同音字、词在热词中配置。举例:热词配置“蜜制”并开启增强功能后,与“蜜制”同拼音(mizhi)的“秘制”的识别结果会被强制替换成“蜜制”。因此建议客户根据自己的实际情况开启该功能。public String getHotwordList()
public void setHotwordList(String HotwordList)
HotwordList
- 临时热词表:该参数用于提升识别准确率。
单个热词限制:"热词|权重",单个热词不超过30个字符(最多10个汉字),权重1-11或者100,如:“腾讯云|5” 或 “ASR|11”;
临时热词表限制:多个热词用英文逗号分割,最多支持128个热词,如:“腾讯云|10,语音识别|5,ASR|11”;
参数 hotword_list(临时热词表) 与 hotword_id(热词表) 区别:
hotword_id:热词表。需要先在控制台或接口创建热词表,获得对应hotword_id传入参数来使用热词功能;
hotword_list:临时热词表。每次请求时直接传入临时热词表来使用热词功能,云端不保留临时热词表。适用于有极大量热词需求的用户;
注意:
• 如果同时传入了 hotword_id 和 hotword_list,会优先使用 hotword_list;
• 热词权重设置为11时,当前热词将升级为超级热词,建议仅将重要且必须生效的热词设置到11,设置过多权重为11的热词将影响整体字准率。
• 热词权重设置为100时,当前热词开启热词增强同音替换功能(仅支持8k_zh,16k_zh),举例:热词配置“蜜制|100”时,与“蜜制”同拼音(mizhi)的“秘制”的识别结果会被强制替换成“蜜制”。因此建议客户根据自己的实际情况开启该功能。建议仅将重要且必须生效的热词设置到100,设置过多权重为100的热词将影响整体字准率。public Long getInputSampleRate()
public void setInputSampleRate(Long InputSampleRate)
InputSampleRate
- 支持pcm格式的8k音频在与引擎采样率不匹配的情况下升采样到16k后识别,能有效提升识别准确率。仅支持:8000。如:传入 8000 ,则pcm音频采样率为8k,当引擎选用16k_zh, 那么该8k采样率的pcm音频可以在16k_zh引擎下正常识别。 注:此参数仅适用于pcm格式音频,不传入值将维持默认状态,即默认调用的引擎采样率等于pcm音频采样率。Copyright © 2024. All rights reserved.