📜  Python|使用 NLTK 进行词形还原

📅  最后修改于: 2022-05-13 01:55:11.160000             🧑  作者: Mango

Python|使用 NLTK 进行词形还原

词形还原是将单词的不同变形形式组合在一起的过程,以便可以将它们作为单个项目进行分析。词形还原类似于词干提取,但它为单词带来了上下文。因此,它将具有相似含义的单词链接到一个单词。
文本预处理包括词干提取和词形还原。很多时候,人们发现这两个术语令人困惑。有些人将这两者视为相同。实际上,词形还原优于词干提取,因为词形还原对单词进行形态分析。
词形还原的应用是:

  • 用于搜索引擎等综合检索系统。
  • 用于紧凑索引

Examples of lemmatization:

-> rocks : rock
-> corpora : corpus
-> better : good

词干提取的一个主要区别是 lemmatize 采用词性参数“pos” 如果未提供,则默认为“名词”。
下面是使用 NLTK 实现词形还原词:

Python3
# import these modules
from nltk.stem import WordNetLemmatizer
 
lemmatizer = WordNetLemmatizer()
 
print("rocks :", lemmatizer.lemmatize("rocks"))
print("corpora :", lemmatizer.lemmatize("corpora"))
 
# a denotes adjective in "pos"
print("better :", lemmatizer.lemmatize("better", pos ="a"))


输出 :

rocks : rock
corpora : corpus
better : good