适合自然语言处理任务的框架有哪些自然语言处理工具包

2024-07-02 14:45| 来源: 网络整理| 查看: 265

awesome_nlp_tools

整理常用的自然语言处理工具(包括Python接口)，如Stanford NLP、NLTK、Spacy、NLPIR、Pyltp、HanLP、Jieba。

Collates commonly used natural language processing tools (including Python interfaces) such as Stanford NLP, NLTK, Spacy, NLPIR, Pyltp, HanLP, Jieba.

描述：“结巴”中文分词：做最好的 Python 中文分词组件

功能：分词(支持自定义词典)，词性标注，关键词提取，模型可手动加载(默认延迟加载机制)

online: pip install jieba

offline: https://pypi.python.org/pypi/jieba/ # 解压运行 python setup.py install

描述：HanLP是由一系列模型与算法组成的工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点；HanLP的Python接口，支持自动下载与升级HanLP，兼容py2、py3，模型可延迟加载。

功能：词法分析(中文分词(支持自定义词典)、词性标注、命名实体识别)、关键词提取，自动摘要，拼音转换，简繁转换，文本推荐，文本分类，句法分析、文本分类和情感分析。

pip install pyhanlp

Python接口下提供的功能有限：分词，关键词提取，自动摘要，依存句法分析；如果要使用java版本的全部功能，需要python调用java环境下的接口，方法如下：

from pyhanlp import * PerceptronLexicalAnalyzer = JClass('com.hankcs.hanlp.model.perceptron.PerceptronLexicalAnalyzer') analyzer = PerceptronLexicalAnalyzer()

print(analyzer.analyze("上海华安工业(集团)公司董事长谭旭光和秘书胡花蕊来到美国纽约现代艺术博物馆参观"))

描述：Stanfordcorenlp is a Python wrapper for Stanford CoreNLP. It provides a simple API for text processing tasks.

功能：Tokenization, Part of Speech Tagging, Named Entity Reconigtion, Constituency Parsing, Dependency Parsing, and more.

pip install stanfordcorenlp # 需要下载对应语言版本的模型,或者all in one

描述：NLTK是构建Python程序以使用人类语言数据的领先平台。

功能：分词，分句，实体识别，词干化，标记，解析和语义推理的文本处理库

pip install nltk

import nltk

nltk.download() # 下载需要的库

描述：一个工业级别的自然语言处理工具目前不支持中文

功能：分词，词性标注，句法分析，命名实体识别，词向量，词干化，词形还原

1.pip install spacy

2.下载模型 en_core_web_sm

2.1 在线安装

python -m spacy download en_core_web_sm

2.2 离线安装

下载模型到本地，解压

python setup.py install

3.使用模型 spacy.load("en_core_web_sm")

描述：pyltp 是 LTP 的 Python 封装，提供了分词，词性标注，命名实体识别，依存句法分析，语义角色标注的功能。

功能：分词，词性标注，命名实体识别，依存句法分析，语义角色标注

pip install pyltp # 使用需要下载模型到本地

【本文地址】

公司简介

联系我们

适合自然语言处理任务的框架有哪些 自然语言处理工具包

适合自然语言处理任务的框架有哪些自然语言处理工具包