📜  Python | NLTK的词形还原lemmatization

📅  最后修改于: 2020-04-27 14:02:00             🧑  作者: Mango

词形还原是将单词的不同变形形式组合在一起的过程,因此可以将它们作为单个项目进行分析。词形还原与词干相似,但它为单词带来了上下文。因此,它将具有相似含义的单词链接到一个单词。
文本预处理包括词干和词法化。很多时候人们发现这两个术语令人困惑。有些人将这两个视为相同。实际上,词干比词干更适合,因为词干对词进行形态分析。
lemmatization的应用是:

  • 用于搜索引擎等全面的检索系统。
  • 用于紧凑型索引

词形还原的示例:

-> rocks : rock
-> corpora : corpus
-> better : good

与词干的主要区别在于,词形还原采用语音参数“ pos”的一部分,如果未提供,则默认值为“ noun”。
以下是使用NLTK的词形化词的实现:

# 导入这些模块
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
print("rocks :", lemmatizer.lemmatize("rocks"))
print("corpora :", lemmatizer.lemmatize("corpora"))
# a表示“ pos"中的形容词
print("better :", lemmatizer.lemmatize("better", pos ="a"))

输出:

rocks : rock
corpora : corpus
better : good