TexSmart FAQ

TexSmart常见问题解答

Q1: 关于允许的最大文本长度

TexSmart能够处理的最大文本长度为8192个字符（一个中文汉字、英文字母、阿拉伯数字、标点符号、空格等都记为一个字符），对于超过这个长度的文本，返回的response JSON对象中，header.ret_code的值为"error.too_long_text"。

Q2: 关于ner的类型列表

对于粗粒度NER，中文包括12种类型，英文包含3种类型，类型列表参见instructions.html；细粒度的NER种类有近千种，其详细的列表会在后续给出。

Q3:返回结果的hit字段使用

hit数组的第一个值表示str的起始位置，第二个表示这个str的长度；hit数组的后面两个值可以忽略，因为在实际应用上，普通用户无需关注它们。

Q4: 调用次数的限制。是否可以并行调用？

目前处于体验阶段，请单线程调用，但不限制访问次数。 Texsmart支持批量调用方式，即在一次调用中处理多个句子。批量调用的方法可参见HTTP API 说明文档。

Q5: 访问方式是什么？源码是否公开？

目前只支持HTTP 远程调用API；暂时没有开放源码的计划，因为这需要根据大家的需求和公司开源协议来安排；但我们近期会推出SDK版本，以便私有化部署。

Q6: 是否支持通过词典自定义分词或者命名实体识别？

Texsmart支持自定义分词和命名实体：用户可以自定义某个片段为一个词或者命名实体。对于分词，用户只需要参见text_seg_data.txt文件（下载SDK工具包解压缩后，它在data/nlu/kb/customization/下）中的解释，在文件的末尾添加符合格式要求的一行，就可以保证Texsmart确定性地将对应的片段输出为一个词。对于命名实体，用户只需要对text_ner_data.txt文件(它也在data/nlu/kb/customization/下)做类似的操作，就可以将对应的片段确定性地输出为指定类型的实体。