📜  Python删除停用词(1)

📅  最后修改于: 2023-12-03 15:34:27.900000             🧑  作者: Mango

Python删除停用词

在文本分析领域中,停用词是指在处理自然语言数据时需要过滤掉的词语。这些词语在文本中出现的频率较高,但在文本分类、信息检索等应用中常常无关紧要,因此需要将其删除以便得到更有用的信息。

Python自然语言处理库NLTK(Natural Language Toolkit)包含了一些用于处理停用词的方法。这些方法基于常见停用词列表,例如英语停用词表。

以下是使用NLTK删除英语停用词的示例代码:

import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

stop_words = set(stopwords.words('english'))

text = "This is an example sentence containing stop words."
tokens = text.split()

filtered_tokens = [word for word in tokens if not word in stop_words]

print(filtered_tokens)

该代码将打印出以下内容:

['This', 'example', 'sentence', 'containing', 'stop', 'words.']

在这个例子中,我们首先下载了NLTK的英语停用词表,然后使用set()函数将其转换为一个集合。接下来,我们定义了一个文本字符串,将其分割成单词,并使用列表推导式过滤掉了停用词。

NLTK也支持其他语言的停用词列表。如果您需要删除其他语言的停用词,请查阅NLTK文档。

总之,Python和NLTK的结合可以非常容易地实现停用词的过滤,这对于文本分析和信息检索应用非常有用。