📜  在Python使用NLTK标记文本

📅  最后修改于: 2021-04-16 08:52:46             🧑  作者: Mango

要运行以下Python程序,必须在系统中安装(NLTK)自然语言工具包。
NLTK模块是一个庞大的工具包,旨在帮助您使用整个自然语言处理(NLP)方法。
为了安装NLTK,请在终端中运行以下命令。

  • sudo pip安装nltk
  • 然后,只需键入Python ,即可在终端中输入Python shell
  • 输入import nltk
  • nltk.download(’全部’)

由于大量的令牌生成器,分块器,其他算法以及所有要下载的语料库,因此上述安装将花费相当长的时间。

    一些经常使用的术语是:
  • 语料库–文本主体,单数。语料库是其中的复数形式。
  • 词汇–单词及其含义。
  • 令牌–每个“实体”都是根据规则拆分的内容的一部分。例如,当将一个句子“标记”为单词时,每个单词都是一个标记。如果您将段落中的句子标记化,则每个句子也可以是标记。

    因此,基本上标记化涉及从文本主体中拆分句子和单词。

    # import the existing word and sentence tokenizing 
    # libraries
    from nltk.tokenize import sent_tokenize, word_tokenize
      
    text = "Natural language processing (NLP) is a field " + \
           "of computer science, artificial intelligence " + \
           "and computational linguistics concerned with " + \
           "the interactions between computers and human " + \
           "(natural) languages, and, in particular, " + \
           "concerned with programming computers to " + \
           "fruitfully process large natural language " + \
           "corpora. Challenges in natural language " + \
           "processing frequently involve natural " + \
           "language understanding, natural language" + \
           "generation frequently from formal, machine" + \
           "-readable logical forms), connecting language " + \
           "and machine perception, managing human-" + \
           "computer dialog systems, or some combination " + \
           "thereof."
      
    print(sent_tokenize(text))
    print(word_tokenize(text))`
    

    输出
    [‘自然语言处理(NLP)是计算机科学,人工智能和计算语言学的一个领域,它与计算机和人类(自然)语言之间的相互作用有关,尤其是与对计算机编程以有效地处理大型自然语言语料库有关。 ‘,’自然语言处理中的挑战通常涉及自然语言理解,自然语言生成(通常来自正式的机器可读逻辑形式),连接语言和机器感知,管理人机对话系统或它们的某种组合。”
    [“自然”,“语言”,“处理”,“(”,“ NLP”,“)”,“是”,“一个”,“字段”,“的”,“计算机”,“科学”,“ ”,“人工”,“智能”,“与”,“计算”,“语言学”,“有关”,“有”,“该”,“交互”,“之间”,“计算机”,“和” ,“人类”,“(”,“自然”,“)”,“语言”,“,”,“和”,“,”,“中”,“特定”,“,”,“有关”,“与”,“编程”,“计算机”,“到”,“富有成效”,“过程”,“大型”,“自然”,“语言”,“语料库”,“。”,“挑战”,“输入” ,“自然”,“语言”,“处理”,“频繁”,“参与”,“自然”,“语言”,“理解”,“,”,“自然”,“语言”,“生成”,“ (’,’经常’,’从’,’形式’,’,’,’机器可读’,’逻辑’,’形式’,’)’,’,’,’连接’,’语言’,’和”,“机器”,“感知”,“,”,“管理”,“人机”,“对话”,“系统”,“,”,“或”,“某些”,“组合”,“其中”,“。”]

    因此,在这里,我们创建了令牌,这些令牌最初是句子,之后是单词。