自然语言工具包-入门(1)

📌 相关文章

📜 自然语言工具包-入门(1)

📅 最后修改于: 2023-12-03 15:41:24.639000 🧑 作者: Mango

自然语言工具包(NLTK)-入门

自然语言处理是一门涉及到使用计算机对人类语言进行分析、理解、生成的领域。自然语言工具包(NLTK)是一个用于自然语言处理的Python库。NLTK包含了一系列工具和数据集，使计算机能够对人类语言进行自动处理。本文将介绍如何入门使用NLTK。

安装

要安装NLTK，打开终端并输入以下命令：

pip install nltk

NLTK还需要一些附加数据集，可以使用如下命令下载：

import nltk
nltk.download()

常用功能

分词

将一段文本分割成一些较小的部分，或者称为标记。这些部分可以是单词、标点符号或其他语言学单位。在NLTK中使用的默认分词器是TreeBankTokenizer。使用方法如下：

from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()
text = "This is NLTK Tokenization tutorial."
tokens = tokenizer.tokenize(text)
print(tokens)
# ['This', 'is', 'NLTK', 'Tokenization', 'tutorial', '.']

词性标注

给文本中的单词打上相应的词性标签（例如，名词、动词、形容词等）。在NLTK中，使用tag()方法进行词性标注：

from nltk import pos_tag
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()
text = "This is NLTK POS tutorial."
tokens = tokenizer.tokenize(text)
tags = pos_tag(tokens)
print(tags)
# [('This', 'DT'), ('is', 'VBZ'), ('NLTK', 'NNP'), ('POS', 'NNP'), ('tutorial', 'NN'), ('.', '.')]

停用词移除

停用词是指在文本中出现的常见单词，这些单词在帮助建立文本上下文方面没有任何作用。在NLTK中有一个停用词列表。使用方法如下：

from nltk.corpus import stopwords

stop_words = set(stopwords.words('english'))

text = "This is NLTK Stopwords tutorial."
words = text.split()
filtered_words = [word for word in words if word.casefold() not in stop_words]
print(filtered_words)
# ['NLTK', 'Stopwords', 'tutorial.']

词干提取

将单词缩小到其基本形式，例如将“running”和“ran”都转换为“run”。这一步通常是为了将不同的单词形式映射到同一个单词上，以便进行比较或分组。NLTK库中有多种不同的stemmer可以使用（如PorterStemmer，LancasterStemmer等）。使用方法如下：

from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

print(stemmer.stem('running')) # 'run'

总结

这里我们简单地介绍了NLTK的常用功能，包括分词、词性标注、停用词移除和词干提取等。在自然语言处理中，NLTK是非常有用的工具库，非常值得尝试。