📜  自然语言处理-句法分析

📅  最后修改于: 2020-11-23 04:39:08             🧑  作者: Mango


语法分析或语法分析是NLP的第三阶段。此阶段的目的是绘制确切含义,或者您可以从文本中说出字典含义。语法分析检查文本与形式语法规则相比是否有意义。例如,诸如“热冰淇淋”之类的句子将被语义分析器拒绝。

从这个意义上说,句法分析或解析可以定义为分析自然语言中符合形式语法规则的符号字符串的过程。 “ parsing”一词的起源来自拉丁语“ pars” ,意为“ part”

解析器的概念

它用于实现解析任务。它可以定义为设计用于获取输入数据(文本)并在根据形式语法检查正确语法后给出输入结构表示的软件组件。它还通常以解析树或抽象语法树或其他分层结构的形式构建数据结构。

符号表

解析的主要作用包括-

  • 报告任何语法错误。

  • 从常见错误中恢复,以便可以继续处理程序的其余部分。

  • 创建分析树。

  • 创建符号表。

  • 产生中间表示(IR)。

解析类型

推导将解析分为以下两种类型-

  • 自顶向下解析

  • 自下而上的解析

自顶向下解析

在这种解析中,解析器开始从起始符号构造解析树,然后尝试将起始符号转换为输入。自上而下解析的最常见形式是使用递归过程来处理输入。递归下降解析的主要缺点是回溯。

自下而上的解析

在这种解析中,解析器从输入符号开始,然后尝试构造解析器树直到起始符号。

衍生概念

为了获得输入字符串,我们需要一系列生产规则。推导是一组生产规则。在解析过程中,我们需要确定非终结符,该非终结符将被替换,同时还要确定生产规则,借助该规则将替换非终结符。

派生类型

在本节中,我们将学习两种派生类型,它们可用于确定要用生产规则替换的非终端-

最左边的导数

在最左侧的推导中,将扫描输入的句子形式并从左到右进行替换。这种情况下的句子形式称为左句子形式。

最右派生

在最左侧的推导中,将扫描输入的句子形式并从右向左替换。这种情况下的句子形式称为右句形式。

解析树的概念

可以将其定义为推导的图形描述。派生的开始符号用作解析树的根。在每个解析树中,叶节点是终端,内部节点是非终端。解析树的一个属性是按顺序遍历将产生原始输入字符串。

语法概念

语法对于描述格式良好的程序的语法结构非常重要,也很重要。在文学意义上,它们表示自然语言对话的句法规则。自从自然语言(例如英语,印地语等)诞生以来,语言学一直试图定义语法。

形式语言理论也主要适用于编程语言和数据结构,也适用于计算机科学领域。例如,使用“ C”语言,精确的语法规则说明了如何从列表和语句中构造函数。

1956年,诺姆·乔姆斯基( Noam Chomsky )给出了一种语法数学模型,该模型可有效地编写计算机语言。

在数学上,语法G可以正式写成4元组(N,T,S,P),其中-

  • NV N =非终结符号集,即变量。

  • T =一组终端符号。

  • S =起始符号,其中S∈N

  • P表示终端机和非终端机的生产规则。它有α→β,其中α和β是在V N∪Σ字符串和至少α的一个符号属于V N的形式

短语结构或选区语法

Noam Chomsky引入的短语结构语法基于选区关系。这就是为什么它也被称为选区语法的原因。它与依存语法相反。

在给出选区语法示例之前,我们需要了解关于选区语法和选区关系的基本要点。

  • 所有相关框架都从选区关系的角度来看句子结构。

  • 选区关系源自拉丁文的主谓谓词以及希腊文语法。

  • 基本的从句结构可以通过名词短语NP动词短语VP来理解。

我们可以这样写一句“这棵树在说明选区关系” ,如下所示:

选区关系

依存语法

它与选区语法相反,基于依存关系。它是由Lucien Tesniere引入的。依存语法(DG)与选区语法相反,因为它缺少短语节点。

在给出依赖关系语法示例之前,我们需要了解有关依赖关系语法和依赖关系的基本知识。

  • 在DG中,语言单元(即单词)通过定向链接相互连接。

  • 动词成为从句结构的中心。

  • 就定向链接而言,所有其他句法单元都与动词相连。这些语法单元称为依赖项

我们可以这样写: “这棵树在说明依赖关系”

说明依赖性

使用选区语法的分析树称为基于选区的分析树。使用依赖语法的解析树称为基于依赖的解析树。

上下文无关文法

上下文无关语法,也称为CFG,是一种用于描述语言的符号,也是常规语法的超集。可以在下图中看到-

上下文无关文法

CFG的定义

CFG由有限的语法规则集组成,其中包含以下四个组成部分:

非终端集

它由V表示。非终结符是表示字符串集的语法变量,可进一步帮助定义由语法生成的语言。

端子套

它也称为令牌,由Σ定义。字符串由终端的基本符号组成。

生产集

用P表示。该集合定义了终端和非终端的组合方式。每个产品(P)都由非终端,箭头和终端(终端的顺序)组成。非终端称为生产的左侧,终端称为生产的右侧。

起始符号

生产从开始符号开始。它用符号S表示。非终止符号始终指定为开始符号。