Python删除停用词(1)

📌 相关文章

📜 Python删除停用词(1)

📅 最后修改于: 2023-12-03 15:34:27.900000 🧑 作者: Mango

Python删除停用词

在文本分析领域中，停用词是指在处理自然语言数据时需要过滤掉的词语。这些词语在文本中出现的频率较高，但在文本分类、信息检索等应用中常常无关紧要，因此需要将其删除以便得到更有用的信息。

Python自然语言处理库NLTK（Natural Language Toolkit）包含了一些用于处理停用词的方法。这些方法基于常见停用词列表，例如英语停用词表。

以下是使用NLTK删除英语停用词的示例代码：

import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

stop_words = set(stopwords.words('english'))

text = "This is an example sentence containing stop words."
tokens = text.split()

filtered_tokens = [word for word in tokens if not word in stop_words]

print(filtered_tokens)

该代码将打印出以下内容：

['This', 'example', 'sentence', 'containing', 'stop', 'words.']

在这个例子中，我们首先下载了NLTK的英语停用词表，然后使用set()函数将其转换为一个集合。接下来，我们定义了一个文本字符串，将其分割成单词，并使用列表推导式过滤掉了停用词。

NLTK也支持其他语言的停用词列表。如果您需要删除其他语言的停用词，请查阅NLTK文档。

总之，Python和NLTK的结合可以非常容易地实现停用词的过滤，这对于文本分析和信息检索应用非常有用。