Python | NLTK的词形还原lemmatization

📌 相关文章

📜 Python | NLTK的词形还原lemmatization

📅 最后修改于: 2020-04-27 14:02:00 🧑 作者: Mango

词形还原是将单词的不同变形形式组合在一起的过程，因此可以将它们作为单个项目进行分析。词形还原与词干相似，但它为单词带来了上下文。因此，它将具有相似含义的单词链接到一个单词。
文本预处理包括词干和词法化。很多时候人们发现这两个术语令人困惑。有些人将这两个视为相同。实际上，词干比词干更适合，因为词干对词进行形态分析。
lemmatization的应用是：

用于搜索引擎等全面的检索系统。
用于紧凑型索引

词形还原的示例：

-> rocks : rock
-> corpora : corpus
-> better : good

与词干的主要区别在于，词形还原采用语音参数“ pos”的一部分，如果未提供，则默认值为“ noun”。
以下是使用NLTK的词形化词的实现：

# 导入这些模块
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
print("rocks :", lemmatizer.lemmatize("rocks"))
print("corpora :", lemmatizer.lemmatize("corpora"))
# a表示“ pos"中的形容词
print("better :", lemmatizer.lemmatize("better", pos ="a"))

输出：

rocks : rock
corpora : corpus
better : good