En | 中

TexSmart: 文本理解工具与服务

[Demo] | [下载] | 使用说明 | 技术方案 | 引用 | 常见问题 | 联系我们

TexSmart 是由 腾讯人工智能实验室自然语言处理(NLP)团队 开发的一套自然语言理解工具与服务, 用以对中文和英文两种语言的文本进行词法、句法和语义分析。 除了支持分词、词性标注、命名实体识别(NER)、句法分析、语义角色标注、文本分类、文本匹配、文本规范化(自动恢复英文大小写)等常见功能外, TexSmart还提供细粒度命名实体识别、语义联想、深度语义表达等特色功能。 此外,我们还增加了文本图谱模块,支持对短文本或单词进行多种重要关系的知识查询。 文本理解技术广泛应用于搜索、个性化推荐、广告匹配、智能对话等场景, 用来对自然语言文本进行结构化分析与处理。TexSmart的更详细介绍,请参见技术报告

TexSmart特色

相比目前公开的自然语言处理工具,TexSmart系统具有以下特色。

特色1:细粒度命名实体识别

TexSmart支持上千种实体类型,类型之间具有层级结构,而目前多数公开的文本理解工具只支持人、地点、机构等几种或者十几种(粗粒度的)实体类型。大规模细粒度的实体类型有望为下游的NLP应用提供更为丰富的语义信息。

图1和图2是TexSmart与现有开源文本理解工具在一个示例中文句子上的对比。 输入文本为:“上个月30号,南昌王先生在自己家里边看流浪地球边吃煲仔饭。”

图1: TexSmart的细粒度命名实体识别与增强的语义理解功能(2020年4月)

图2: 传统工具的命名实体识别(NER)结果



可以看到,TexSmart识别了更多类型的实体(如电影、食物等),支持更细粒度的实体类型标注(如把"南昌"的类型从"地点"细化为"城市")。

TexSmart能够识别的实体类型包括人、地点、机构、产品、商标、作品、时间、数值、生物、食物、药品、病症、学科、语言、天体、器官、事件、活动等上千种。在常见的人、地点、机构等大类中,能够识别出常见的细粒度子类型,如演员、政治人物、运动员、国家、城市、公司、大学、金融机构等。

特色2:增强的语义理解功能

除了细粒度命名实体识别之外,TexSmart还提供了两项增强的语义理解功能:语义联想和针对特定类型实体的深度语义表达。 这两个功能是多数现有的开源文本理解系统所不具备的。

1) 语义联想

语义联想的功能是,对句子中的实体,给出与其相关的一个实体列表。 语义联想是增强理解实体语义的一种方式,它在工业界有着广泛的应用,比如搜索和推荐。 在上述例子中,TexSmart可以从“流浪地球”这一部作品,联想到其它的影视剧如"战狼二"、"上海堡垒"等;从“煲仔饭”联想到其它的食物如"兰州拉面","热干面"等。

2) 特定类型实体的深度语义表达

针对时间、数量等特定类型的实体,TexSmart能够分析它们潜在的结构化表达,以便进一步推导出这些实体的精准语义。 例如在图1的例子中,TexSmart对"上个月30号"给出的深度语义表达为JSON格式:{"value":[2020,3,30]}。 深度语义理解对某些类型的NLP应用至关重要,比如在智能对话中,某用户于2020年4月20日向对话系统发出请求,”帮我预定一张后天下午四点去北京的机票”。 智能对话系统不但需要知道"后天下午四点"是一个时间实体,还需要知道这个实体的语义是"2020年4月22日16点"。 目前大多数公开的NLP工具不提供这样的深度语义表达功能,需要应用层自己去实现。

特色3:为多维度应用需求而设计

学术界和工业界不同的应用场景对速度、精度和时效性的要求有所不同,而速度和精度通常是很难兼得的。 TexSmart的目标是在一套系统中尽可能地考虑这三个方面的需求。 首先,TexSmart针对一项功能(比如词性标注或命名实体识别)实现了多种不同速度和精度的算法与模型供上层应用按需选择,以便满足工业界和学术界不同场景下的多样化应用需求。 其次,TexSmart的构建利用了大规模的无结构化数据以及无监督或弱监督方法。 一方面这些无结构化数据覆盖大量时效性很强的词和实体(比如上文中的"流浪地球",再比如新的疾病"新冠肺炎");另一方面无监督或弱监督方法的采用使得该系统可以以较低的代价进行更新,从而保证它具有较好的时效性。

图3: TexSmart的特色功能

版本说明

TexSmart的最新版本是v0.3.0,同之前的v0.2.0版本相比,主要的更新如下:

使用说明

TexSmart提供了HTTP API调用离线SDK两种使用方式。 请注意,对于同样的文本输入,这两种方式的解析结果可能会有区别。这是因为HTTP API版本采用了更大的知识库,并支持更多的文本理解任务和算法。 详细情况请参见TexSmart说明文档
快捷链接:

技术方案

TexSmart的技术方案简介可以参见TexSmart技术方案.

引用TexSmart

如果您在相关研究中使用了TexSmart, 请引用下面的技术报告:

@article{texsmart2020,
  title={TexSmart: A Text Understanding System for Fine-Grained NER and Enhanced Semantic Analysis}, 
  author={Haisong Zhang and Lemao Liu and Haiyun Jiang and Yangming Li and Enbo Zhao and Kun Xu and
   Linfeng Song and Suncong Zheng and Botong Zhou and Jianchen Zhu and  Xiao Feng and  Tao Chen and 
   Tao Yang and Dong Yu and Feng Zhang and Zhanhui Kang and Shuming Shi}
  journal={arXiv preprint arXiv:2012.15639},
  year={2020}
}

@inproceedings{texsmart2021,
  title={TexSmart: A System for Enhanced Natural Language Understanding}, 
  author={Lemao Liu and Haisong Zhang and Haiyun Jiang and Yangming Li and Enbo Zhao and Kun Xu and
   Linfeng Song and Suncong Zheng and Botong Zhou and Jianchen Zhu and Xiao Feng and Tao Chen and Tao
    Yang and Dong Yu and Feng Zhang and Zhanhui Kang and Shuming Shi}
  booktitle={The Joint Conference of the 59th Annual Meeting of the Association for Computational
   Linguistics and the 11th International Joint Conference on Natural Language Processing 
   (ACL-IJCNLP): System Demonstrations},
  year={2021}
}

常见问题

关于常见问题,请访问FAQs

相关系统/数据

联系我们

如有任何问题,请联系我们的邮箱 texsmart@tencent.com 或者加入下面的QQ群.

Trail appointment QQ group: 1095749969
QQ群:1095749969