HanLP-一个面向生产环境的多语种自然语言处理工具包
前言
本文简单记录介绍一下HanLP。
HanLP是一个多语种自然语言处理工具包,支持中文和拼音简繁转换、文本处理以及语义相关分析。
正文
一、什么是HanLP
HanLP是一个面向生产环境的多语种自然语言处理工具包,支持中文分词、词性标注、命名实体识别、依存句法分析、成分句法分析、语义依存分析、语义角色标注、指代消解、风格转换、语义相似度、新词发现、关键词短语提取、自动摘要、文本分类聚类、拼音简繁转换等多种任务。HanLP具备功能完善、精度准确、性能高效、语料时新、架构清晰、可自定义的特点。
二、HanLP功能
HanLP具有功能完备、精度准确、效率高、语料库更新、结构清晰、可定制性强等特点。在全球最大的多语种语料库的支持下,HanLP2.1支持130种语言(包括简体中文、繁体中文、英语、日语、俄语、法语和德语)的十种联合任务和多项单一任务。HanLP已经在十几项任务上预训练了数十个模型,并不断迭代语料库和模型。
三、HanLP使用与训练
HanLP提供RESTful和native两种API,分别面向轻量级和海量级两种场景。无论何种API何种语言,HanLP接口在语义上保持一致,在代码上坚持开源。可以在CPU上运行,推荐GPU/TPU。安装PyTorch版:Native API的输入单位为句子,需使用多语种分句模型或基于规则的分句函数先行分句。RESTful和native两种API的语义设计完全一致,用户可以无缝互换。
native api其实就是本地python运行:
1 | # pip install hanlp |
四、总结
最近,在处理相关的子任务时,我研究了HanLP并发现它具有广泛的功能并表现良好。然而,它需要基于特定项目的参数调整。
话虽如此,自ChatGPT发布以来,传统的NLP项目无疑受到了极大的影响。基本上,ChatGPT可以完成传统NLP可以完成的任务,甚至更简单、更多功能(搞NLP的很愁呀)。
尽管如此,传统NLP仍然有其用途,出于各种原因并不是所有项目都可以利用ChatGPT或其他LLM。
最后
参考文章:
声明
本文仅作为个人学习记录。
本文永久记录于区块链博客xlog。