📜  自然语言话语处理

📅  最后修改于: 2020-11-23 04:41:06             🧑  作者: Mango


AI的最困难问题是通过计算机处理自然语言,换句话说,自然语言处理是人工智能最困难的问题。如果我们谈论自然语言处理中的主要问题,那么自然语言处理中的主要问题之一就是语篇处理-建立有关话语如何粘在一起形成连贯语篇的理论和模型。实际上,语言总是由并置,结构化和连贯的句子组组成,而不是像电影那样孤立且无关的句子。这些连贯的句子组称为语篇。

连贯的概念

连贯性和话语结构以多种方式相互联系。连贯性以及良好文本的属性用于评估自然语言生成系统的输出质量。这里出现的问题是文本连贯是什么意思?假设我们从报纸的每一页上收集了一个句子,那么这将是一种话语吗?当然不是。这是因为这些句子没有表现出连贯性。连贯的话语必须具有以下特性-

话语之间的连贯关系

如果话语之间具有有意义的联系,那么话语将是连贯的。此属性称为相干关系。例如,必须存在某种解释以证明话语之间的联系是正确的。

实体之间的关系

使话语连贯的另一个属性是与实体之间必须存在某种类型的关系。这种一致性称为基于实体的一致性。

话语结构

关于话语的一个重要问题是话语必须具有什么样的结构。这个问题的答案取决于我们对话语的细分。话语细分可以定义为确定大型话语结构的类型。实现语篇分割是非常困难的,但是对于信息检索,文本摘要和信息提取类型的应用来说却非常重要。

语篇分割算法

在本节中,我们将学习语篇分割算法。算法描述如下-

无监督话语分割

无监督话语分割的类别通常表示为线性分割。借助示例,我们可以了解线性分割的任务。在此示例中,任务是将文本分割成多段单元。单位代表原始文本的段落。这些算法取决于内聚力,内聚力可以定义为使用某些语言设备将文本单元捆绑在一起。另一方面,词汇内聚是由两个单位中的两个或多个单词之间的关系所表示的内聚,例如使用同义词。

监督话语分割

较早的方法没有任何手动标记的段边界。另一方面,监督性话语分割需要具有边界标记的训练数据。这很容易获得。在监督性话语分割中,话语标记或提示词起着重要作用。话语标记或提示词是用于发出话语结构信号的单词或短语。这些话语标记是特定领域的。

文字连贯

词汇重复是一种在话语中寻找结构的方式,但它不能满足语篇连贯的要求。要实现连贯的论述,我们必须特别关注连贯关系。众所周知,连贯关系定义了话语中话语之间的可能联系。赫布提出了以下这种关系-

我们采用两个项S 0S 1来表示两个相关句子的含义-

结果

它推断出由项S 0声明的状态可能导致由S 1声明的状态。例如,以下两个语句显示了关系结果:Ram被困在大火中。他的皮肤烧了。

说明

它推断出由S 1声明的状态可能导致由S 0声明的状态。例如,有两个陈述显示了这种关系-Ram与Shyam的朋友战斗。他喝醉了。

平行

它根据S 0的断言推论p(a1,a2,…)和根据断言S 1的推论p(b1,b2,…)。在这里,ai和bi对于所有i都是相似的。例如,两个陈述是平行的-Ram想要的汽车。 Shyam要钱。

细化

它从两个断言-S 0S 1推断出相同的命题P。例如,以下两个语句显示了关系的阐述:Ram是来自昌迪加尔。 Shyam来自喀拉拉邦。

场合

当可以从S 0的断言中推断出状态变化时,就会发生状态变化,而从S 1的断言中可以推断出最终状态,反之亦然。例如,以下两个语句显示了关联的场合:Ram拿起了书。他把它送给了Shyam。

建立分层话语结构

整个话语的连贯性也可以通过连贯关系之间的层次结构来考虑。例如,以下段落可以表示为层次结构-

  • S 1 –拉姆去银行存钱。

  • S 2 –然后,他乘火车去了Shyam的布料店。

  • S 3-他想买些衣服。

  • S 4-他没有聚会用的新衣服。

  • S 5-他还想与Shyam谈谈他的健康状况

建立分层话语结构

参考解析度

任何话语的句子解释都是另一项重要任务,要实现这一目标,我们需要知道正在谈论谁或什么实体。在这里,解释性参考是关键要素。引用可以被定义为表示实体或个人的语言表达。例如,在段落中, ABC银行经理Ram在一家商店里看到了他的朋友Shyam。去见他,Ram,他的,他的语言表达是参考。

同样,参考解析可以定义为确定哪种语言表达引用哪些实体的任务。

参考解析中使用的术语

我们在参考分辨率中使用以下术语-

  • 引用表达-用于执行引用的自然语言表达称为引用表达。例如,上面使用的段落是引用表达式。

  • 引用对象-是被引用的实体。例如,在最后一个给定的示例中,Ram是对象。

  • Corefer-当两个表达式用于引用同一实体时,它们称为corefers。例如, Ram是核心。

  • 前提-该术语具有使用另一个术语的许可。例如, Ram是引用he的前身。

  • 回指和回指-可以定义为对先前已引入句子中的实体的引用。并且,引用表达称为回指。

  • 话语模型-包含话语中已提及实体的实体及其所处关系的模型。

引用表达的类型

现在,让我们看看引用表达式的不同类型。下面介绍了五种类型的引用表达式:

不定名词短语

这种参考表示在话语上下文中对于听者来说是新的实体。例如,在句子中,拉姆(Ram)有一天要给他带些食物-有些是不确定的。

定名词短语

与上述相反,这种引用表示在话语上下文中对于听众来说不是新的或不可识别的实体。例如,在我以前读过《印度时报》的句子中,《印度时报》是一个明确的参考。

代词

它是确定引用的一种形式。例如,Ram尽力大笑。代表代词指代表达的单词。

指示语

这些表现和行为与简单的定词不同。例如,this和that是指示代词。

名字

它是引用表达式的最简单类型。也可以是个人名称,组织和位置。例如,在以上示例中,Ram是名称引用表达式。

参考解析任务

下面介绍了两个参考解析任务。

共指解析

这是在文本中查找引用同一实体的引用表达式的任务。简而言之,这是找到corefer表达式的任务。一组coreferring表达式称为共指链。例如,他,首席执行官和他的-这些是在作为示例给出的第一段中提到的表达。

约束共指解析

用英语,共指解析的主要问题是代词。其背后的原因是它的代词有很多用途。例如,它可以像他和她一样引用。代词也指不指特定事物的事物。例如,正在下雨。真的很好

代词回指解析度

与共指解析不同,代词回指解析可以定义为寻找单个代词的先行词的任务。例如,代词是他的代词,而代词回指解析的任务是找到单词Ram,因为Ram是先行词。