📜  Gensim-简介

📅  最后修改于: 2020-10-16 02:20:37             🧑  作者: Mango


本章将帮助您了解Gensim的历史和功能,以及其用法和优点。

什么是Gensim?

Gensim =“生成类似”是流行的开源自然语言处理(NLP)库,用于无监督主题建模。它使用顶级学术模型和现代统计机器学习来执行各种复杂的任务,例如-

  • 建立文件或文字向量
  • 语料库
  • 执行主题识别
  • 执行文档比较(检索语义相似的文档)
  • 分析纯文本文档的语义结构

除了执行上述复杂任务外,Gensim还以Python和Cython实现,旨在使用数据流和增量在线算法来处理大型文本集合。这使其不同于仅针对内存处理的机器学习软件包。

历史

在2008年,Gensim开始时是捷克数字数学的各种Python脚本的集合。在那里,它用于生成与特定给定文章最相似的文章的简短列表。但是在2009年,RARE Technologies Ltd.发布了其初始版本。然后,在2019年7月下旬,我们获得了其稳定版本(3.8.0)。

各种功能

以下是Gensim提供的一些特性和功能-

可扩展性

Gensim可以使用其递增的在线训练算法轻松处理大型和Web规模的语料库。它本质上是可扩展的,因为不需要任何时候整个输入语料库都完全驻留在随机存取存储器(RAM)中。换句话说,就语料库大小而言,其所有算法均与内存无关。

强大的

Gensim本质上很健壮,并且已经由各种人和组织在各种系统中使用了4年以上。我们可以轻松地插入我们自己的输入语料库或数据流。使用其他向量空间算法进行扩展也非常容易。

平台不可知

我们知道Python是一种非常通用的语言,因为Python是纯粹的Gensim在支持Python和Numpy的所有平台(例如Windows,Mac OS,Linux)上运行。

高效的多核实施

为了加快机器集群上的处理和检索,Gensim提供了各种流行算法的有效多核实现,例如潜在语义分析(LSA),潜在狄利克雷分配(LDA),随机投影(RP),分层狄利克雷过程(HDP)

开源和丰富的社区支持

Gensim已获得OSI批准的GNU LGPL许可,并允许其免费用于个人和商业用途。 Gensim中所做的任何修改都将是开源的,并且也得到了社区的大量支持。

Gensim的用途

Gensim已在数千种商业和学术应用中使用和引用。各种研究论文和学生论文也引用了它。它包括以下流的并行化实现-

fastText

fastText,使用神经网络进行词嵌入,是用于学习词嵌入和文本分类的库。它是由Facebook的AI Research(FAIR)实验室创建的。基本上,该模型使我们能够创建一种监督或无监督的算法来获取单词的矢量表示。

Word2vec

Word2vec用于生成单词嵌入,它是一组浅层和两层神经网络模型。基本上对模型进行了训练以重建单词的语言环境。

LSA(潜在语义分析)

这是NLP(自然语言处理)中的一项技术,它使我们能够分析一组文档及其包含的术语之间的关系。通过产生与文档和术语相关的一组概念来完成此操作。

LDA(潜在狄利克雷分配)

这是NLP中的一种技术,它允许由未观察到的组解释观察组。这些未被观察的群体解释了为什么数据的某些部分相似。这就是原因,这是一个生成统计模型。

tf-idf(词频-文档频率的倒数)

tf-idf是信息检索中的数字统计,它反映了单词对语料库中文档的重要性。搜索引擎通常使用它在给定用户查询的情况下对文档的相关性进行评分和排名。它也可以用于文本摘要和分类中的停用词过滤。

所有这些都将在下一部分中详细说明。

好处

Gensim是用于主题建模的NLP软件包。 Gensim的重要优点如下-

  • 我们可能会在‘scikit-learn’‘R’等其他软件包中获得主题建模和单词嵌入的功能,但是Gensim提供的用于构建主题模型和单词嵌入的功能是无与伦比的。它还为文本处理提供了更方便的功能。

  • Gensim的另一个最重要的优点是,即使不将整个文件加载到内存中,它也可以使我们处理大型文本文件。

  • Gensim不需要使用昂贵的注释或手工标记文档,因为它使用不受监督的模型。