TexSmart常见问题解答


Q1: 关于允许的最大文本长度

TexSmart能够处理的最大文本长度为8192个字符(一个中文汉字、英文字母、阿拉伯数字、标点符号、空格等都记为一个字符),对于超过这个长度的文本,返回的response JSON对象中,header.ret_code的值为"error.too_long_text"。

Q2: 关于ner的类型列表

对于粗粒度NER,中文包括12种类型,英文包含3种类型,类型列表参见instructions.html;细粒度的NER种类有近千种,其详细的列表会在后续给出。

Q3:返回结果的hit字段使用

hit数组的第一个值表示str的起始位置,第二个表示这个str的长度;hit数组的后面两个值可以忽略,因为在实际应用上,普通用户无需关注它们。

Q4: 调用次数的限制。是否可以并行调用?

目前处于体验阶段,请单线程调用,但不限制访问次数。 Texsmart支持批量调用方式,即在一次调用中处理多个句子。批量调用的方法可参见HTTP API 说明文档

Q5: 访问方式是什么?源码是否公开?

目前只支持HTTP 远程调用API;暂时没有开放源码的计划,因为这需要根据大家的需求和公司开源协议来安排;但我们近期会推出SDK版本,以便私有化部署。

Q6: 是否支持通过词典自定义分词或者命名实体识别?

Texsmart支持自定义分词和命名实体:用户可以自定义某个片段为一个词或者命名实体。对于分词,用户只需要参见text_seg_data.txt文件(下载SDK工具包解压缩后,它在data/nlu/kb/customization/下)中的解释,在文件的末尾添加符合格式要求的一行,就可以保证Texsmart确定性地将对应的片段输出为一个词。对于命名实体,用户只需要对text_ner_data.txt文件(它也在data/nlu/kb/customization/下)做类似的操作,就可以将对应的片段确定性地输出为指定类型的实体。