在Python使用NLTK标记文本 - 芒果文档

📌 相关文章

📜 在Python使用NLTK标记文本

📅 最后修改于: 2021-04-16 08:52:46 🧑 作者: Mango

要运行以下Python程序，必须在系统中安装(NLTK)自然语言工具包。
NLTK模块是一个庞大的工具包，旨在帮助您使用整个自然语言处理(NLP)方法。
为了安装NLTK，请在终端中运行以下命令。

sudo pip安装nltk
然后，只需键入Python ，即可在终端中输入Python shell
输入import nltk
nltk.download(’全部’)

由于大量的令牌生成器，分块器，其他算法以及所有要下载的语料库，因此上述安装将花费相当长的时间。

语料库–文本主体，单数。语料库是其中的复数形式。
词汇–单词及其含义。
令牌–每个“实体”都是根据规则拆分的内容的一部分。例如，当将一个句子“标记”为单词时，每个单词都是一个标记。如果您将段落中的句子标记化，则每个句子也可以是标记。
因此，基本上标记化涉及从文本主体中拆分句子和单词。
```
# import the existing word and sentence tokenizing 
# libraries
from nltk.tokenize import sent_tokenize, word_tokenize
  
text = "Natural language processing (NLP) is a field " + \
       "of computer science, artificial intelligence " + \
       "and computational linguistics concerned with " + \
       "the interactions between computers and human " + \
       "(natural) languages, and, in particular, " + \
       "concerned with programming computers to " + \
       "fruitfully process large natural language " + \
       "corpora. Challenges in natural language " + \
       "processing frequently involve natural " + \
       "language understanding, natural language" + \
       "generation frequently from formal, machine" + \
       "-readable logical forms), connecting language " + \
       "and machine perception, managing human-" + \
       "computer dialog systems, or some combination " + \
       "thereof."
  
print(sent_tokenize(text))
print(word_tokenize(text))`
```
输出
[‘自然语言处理(NLP)是计算机科学，人工智能和计算语言学的一个领域，它与计算机和人类(自然)语言之间的相互作用有关，尤其是与对计算机编程以有效地处理大型自然语言语料库有关。 ‘，’自然语言处理中的挑战通常涉及自然语言理解，自然语言生成(通常来自正式的机器可读逻辑形式)，连接语言和机器感知，管理人机对话系统或它们的某种组合。”
[“自然”，“语言”，“处理”，“(”，“ NLP”，“)”，“是”，“一个”，“字段”，“的”，“计算机”，“科学”，“ ”，“人工”，“智能”，“与”，“计算”，“语言学”，“有关”，“有”，“该”，“交互”，“之间”，“计算机”，“和” ，“人类”，“(”，“自然”，“)”，“语言”，“，”，“和”，“，”，“中”，“特定”，“，”，“有关”，“与”，“编程”，“计算机”，“到”，“富有成效”，“过程”，“大型”，“自然”，“语言”，“语料库”，“。”，“挑战”，“输入” ，“自然”，“语言”，“处理”，“频繁”，“参与”，“自然”，“语言”，“理解”，“，”，“自然”，“语言”，“生成”，“ (’，’经常’，’从’，’形式’，’，’，’机器可读’，’逻辑’，’形式’，’)’，’，’，’连接’，’语言’，’和”，“机器”，“感知”，“，”，“管理”，“人机”，“对话”，“系统”，“，”，“或”，“某些”，“组合”，“其中”，“。”]

因此，在这里，我们创建了令牌，这些令牌最初是句子，之后是单词。