人工智能山东大学期末考试知识点复习

更新时间:2023-08-27 12:44:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

山东大学信息科学与工程学院《人工智能》课程复习资料

第七章 自然语言理解

1.1 自然语言及其理解

1.自然语言概述

自然语言是音、形、义结合的词汇和语法体系,是人类实现思维活动的物质表现形式。词汇和语法体系是构成自然语言的两大要素,两者缺一不可。词是构成自然语言的最基本单位,语法则是用来支配和控制词以构成有意义的、可理解的语句,进而再由语句按照一定的逻辑构成篇章的规则。

词汇分为词和熟语。熟语就是一些词的固定组合,如汉语中的成语。词又由词素构成,词素是构成词的最小的、有意义的单位。例如,在汉语中的“工人”这个词,就是由“工”和“人”这两个词素构成的,“工”有工作和做工的意义,而“人”则包含了有能力工作的自然人的意义。由词素构成词的规则称作构词法,如工+人→工人。而构造词形的规则称为构形法,如教师+们→教师们,teacher+s→teachers。构词法和构形法统称为词法。

除了词法之外,语法中的另一部分就是句法。句法就是利用词构造语句的规则,它由两部分构成,一部分称作词组构造法,另一部分称作造句法。词组构造法就是将词搭配成词组的规则,如蓝+帽子→蓝帽子。造句法则是将词或词组搭配成语句的规则。

2.自然语言理解

自然语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括:

①回答有关提问。计算机能正确理解人们用自然语言输入的信息,并能正确回答输入信息中的有关问题。

②摘要生成。对于输入的文本信息,计算机能够产生相应的摘要。

③文本释义。能用不同词语和句型对输入的信息进行复述或解释。

山东大学信息科学与工程学院《人工智能》课程复习资料

④不同语言间的翻译。计算机能把用某一种自然语言表示的信息自动地翻译为另一种自然语言。例如,把英语翻译成汉语,或把汉语翻译成英语,等等。 无论计算机具有的什么样的特性,无论程序设计采用什么样的算法,只要具有上述功能之一,它就可以在机器翻译或机助翻译、文本理解、文本生成、自然语言接口等场合得到广泛的应用。

3.自然语言理解过程的层次

自然语言的分析和理解过程是一个层次化的过程。许多现代语言学家把这一过程分为3个层次:词法分析、句法分析和语义分析。如果接收到的是语音流,那么在上述3个层次之前还应当加入一个语音分析层。虽然这种层次之间并非是完全隔离的,但是这种层次化的划分的确有助于更好地体现自然语言本身的构成。

1.2 词法分析

词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息,如unchangeable是由un-change-able构成的,英语中词尾中的词素“s”通常表示名词复数,或动词第三人称单数,“ly”是副词的后缀,而“ed”通常是动词的过去式与过去分词等,这些信息对于句法分析都是非常有用的。另一方面,一个词可有许多的派生、变形,如work,可变化出works、worked、working、worker、workings、workable、workability等。这些词若全部放入词典将是非常庞大的,而它们的词根只有一个。

下面给出英语词法分析的一个基本算法:

repeat

if not found,

then modify the word.

山东大学信息科学与工程学院《人工智能》课程复习资料

其中word是一个变量,其初值就是当前词。当然更完整的词法分析还应当包括复合词的切分等,这里就不再进一步讨论了。

1.3 句法分析

句法分析就是要对句子或短语的结构进行分析,以确定构成句子的各个词、短语等之间的相互关系以及各自在句子中的作用等,并将这些关系用层次结构加以表达。在对一个句子进行分析过程中,如果把分析句子各成分间关系的推导过程用树形图表示出来的话,那么,这种图称作句法分析树。也就是说,句法分析的过程就是构造句法树的过程,对每个输入句子通过构造句法树来完成对它的分析。

分析自然语言的方法主要有两大类:一类是基于规则的方法,一类是基于统计的方法。基于规则的句法分析理论和方法主要有短语结构语法、乔姆斯基(Chomsky)语法、语言串分析法、递归转移网络和扩充转移网络、范畴语法、依存语法和配价语法、管辖和约束理论、词汇功能语法、功能合一语法、蒙太格语法、广义短语结构语法等。其中短语结构语法是各种理论和方法的基础。

1.短语结构语法理论与乔姆斯基语法体系

短语结构语法和乔姆斯基语法是描写形式语言和自然语言的有力工具。

(1)短语结构语法理论

一部短语结构语法G可以用一个四元组来定义:

G=(Vt,Vn,P,S)

其中,Vt是终结符的集合,终结符是指被定义的哪个语言的词或符号;Vn是非终结符的集合,这些符号不能出现在最终生成的句子中,是专门用来描述语法的。Vt和Vn的并(∪)构成了符号集V,称为总词汇表,且Vt和Vn不相交,因此有:V=Vt∪Vn,Vt∩Vn=¢(¢表示空集);P为如下形式的有穷产生式集:

山东大学信息科学与工程学院《人工智能》课程复习资料

α→β

式中α V*VnV*,β V*,*表示它前面的字符可以出现任意次;S为非终结符表Vn的一个元素,称为起始符。

(2)约束的短语结构语法——乔姆斯基语法体系

短语结构语法具有很强的描述能力,它可用来描述任何一种可递归枚举的语言,而这些语言却可能不是递归的。用短语结构语法所构造的语言,可能不能编写出一个程序,用计算机实现对其进行自动句法分析。为了实现对语言的自动分析,要对短语结构语法进行一些限制或约束,使其所描述的语言是可递归的,这样就可以通过编写程序对这些语言进行自动分析。乔姆斯基语法体系就是一组受限的短语结构语法。

乔姆斯基曾定义了4种语法:0型语法、1型语法、2型语法和3型语法。 0型语法:是一种无约束的短语结构语法,前面已经作了介绍。

1型语法:也称作上下文有关语法,是一种满足下列约束条件的短语结构语法:对于每一条形式为

x→y

的产生式,符号串y中所包含的字符个数不少于字符串x中所包含的字符个数,而且x,y V*。

2型语法:也称作上下文无关语法,是一种满足下列约束条件的短语结构语法:对于每一条形式为

A→x

的产生式,其左侧必须是一个单独的非终结符,而右侧则是任意的符号串,即A Vn,x V*。在这种语法中,由于产生式规则的应用不依赖于符号A所处的上下文,因此称为上下文无关语法。

3型语法:也称作正则语法,分左线性语法和右线性语法两种形式。在左线

山东大学信息科学与工程学院《人工智能》课程复习资料

性语法中,每一条产生式的形式为

A→Bt或A→t

而在右线性语法中,每一条产生式的形式为

A→tB或A→t

这里,A和B都是单独的非终结符,£是单独的终结符,即A,B Vn,t Vt。

在这4种语法中,型号越高,所受到的约束就越多,其生成语言的能力就越弱,因而生成的语言集就越小,也更易于对其生成的语言进行计算机自动分析。

(3)句法分析树

在对一个句子进行分析过程中,如果把分析句子各成分间关系的推导过程用树形图表示出来的话,那么,这种图称作句法分析树。在句法分析树中,起始符总是出现在树的根上,终结符则出现在树的叶子上。

2.递归转移网络与扩充转移网络

递归转移网络(Recursive Transition Networks,RTN)是对有限状态转移网络(TN)的一种扩展,在RTN中每条弧的标注不仅可以是一个终结符(词或词类)而且可以是一个用来指明另一个网络名字的非终结符。

扩充转移网络(Augmerted Transition Networks,ATN)是由一组网络构成的递归转移网络,每个网络都有一个网络名,它在以下3个方面对RTN进行了扩充: ①增加了一组寄存器,用以存储分析过程中得到的中间结果和有关信息。 ②每条弧上除了用句法范畴(如词类和短语标记)来标注外,可以附加任意的测试,只有当弧上的这种测试成功之后才能通过这条弧。

③每条弧上还可以附加某些操作,当通过一条弧时,相应的动作便被依次执行,这些动作主要用来设置或修改寄存器的内容。

山东大学信息科学与工程学院《人工智能》课程复习资料

3.词汇功能语法

词汇功能语法是由J.Bresnan和R.M.Kaplan在1982年提出的,它是一种功能语法,但是更加强调词汇的作用。词汇功能语法(LFG)试图通过互不矛盾的多层描述来消除这种有序性限制,它利用一种结构来表达特征、功能、词汇和成分的顺序。

在LFG中,对句子的描述包括两部分:一个直接成分结构(C-structure)和一个功能结构(F-structure)。直接成分结构(C-structure)是由上下文无关语法产生的,用来描述表层句子的层次结构。功能结构(F-structure)则是通过附加到语法规则和词条定义上的功能方程来生成,其作用是表示句子的结构功能。

LFG采用了两种规则,一种是带有功能方程式的上下文无关语法规则,一种是词汇规则。

用LFG语法对句子进行分析的过程如下:

①用上下文无关语法分析获得C-structure,不考虑语法中的功能方程式;该C-structure就是一棵直接成分树。

②将各个非叶节点定义为变量,并用这些变量置换词汇规则和语法规则中功能方程式的元变量(↑或↓),建立功能描述,这一描述实际上就是一组功能方程式。

③对方程式作代数变换,求出各个变量,获得功能结构F-structure。 LFG的分析还依赖于句子中的词汇,词汇也带有功能方程式。

例题分析部分的例7.5是一个应用词汇功能语法(LFG)对语句进行分析的例子。

LFG同样也可以用于句子的生成。分析和生成的区别仅在于第一步,分析是由句子到C-structure,而生成则是由上下文无关语法直接产生C-structure和句子。同样如果通过求解最终可有一个以上的解,则该句子就是正确的。

山东大学信息科学与工程学院《人工智能》课程复习资料

4.自动句法分析算法

基于短语结构语法的自动分析算法主要有自顶向下回溯算法、自底向上并行算法、富田算法、左角分析算法和CYK算法等。

自顶向下分析算法的思想就是从起始符开始向着被分析的句子进行推导,推导过程的语法树建立从根节点开始,自上而下进行。每次推导只选择一种路径进行尝试,并保留其他可选择的路径,当推导失败时,进行回溯,尝试另一种推导路径。

在分析推导过程中,使用给定语法,对输入语句进行分析找到一个句法分析树的过程,可以看成是一个搜索过程,搜索的对象首先是初始符S。从S开始,选择语法中的适用规则,用规则的右边部分替换搜索对象,然后同被分析句子中的单词进行匹配比较,如果匹配,则从搜索对象和输入句子遗留部分中去掉这个单词,并记录下所使用的有关规则,再继续对输入句子的遗留部分进行搜索。如果分析到句子的结尾时,搜索对象也正好为空,则分析成功。否则,如果还没有分析到句子末尾,而搜索对象已经为空,这时就需要回溯,重新选择适用规则。 自底向上分析算法是从输入句子的句首开始依次取词向前移进,并应用合适的语法规则逐级向上归约(产生式倒过来用),直到构造出表示句子结构的整个推导树为止。换句话说,句法树的建立从树底部的叶节点(即词和词类)开始,直到根部。

自底向上分析算法实际上分移进、归约两个步骤。在移进一归约过程中信息以“栈”的形式存放,主要的操作有移进、归约、拒绝、接受。栈中存放着分析过程的有关“历史”信息,在分析时根据这些历史信息和当前正在处理的符号串来决定究竟是移进还是归约。所谓移进,就是把一个尚未处理过的符号移入栈顶,并等待更多的信息到来之后再做决定;所谓归约,就是对栈顶的那些与某一语法规则右边相匹配的符号,用该语法规则左边的符号来取代。用这两种操作对栈中符号和输入符号串进行处理,直到输入串处理完毕并且栈中只剩初始符S时,就认为输入符号串被接受。否则,若在当前状态,无法移进,又无法归约,并且输

山东大学信息科学与工程学院《人工智能》课程复习资料

入串中的符号未处理完毕或者栈中又不是唯一的初始符S,那么认为输入串就被拒绝。

移进一归约的自底向上分析算法,虽然分析效率较高,但在处理自然语言的歧义问题时却比较困难。

1.4 语义分析

语义分析就是通过分析找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。在自然语言理解中,语义愈来愈成为一个重要的研究内容。为了进行语义分析,讨论语义的表达形式及分析方法,无论在理论上还是在实际上都很有意义。

语义表示方法可以采用谓词逻辑的形式在对语句用逻辑形式表达以后,应用一些语义解析规则对它进行解析,就可以得到该语句的意义。因此,在应用谓词逻辑方法理解一个句子的语义时,一般包括两个步骤:第一步,利用逻辑形式表达语句;第二步,利用语义解析规则对逻辑表达式进行解析。

语义表示的另一种方法是义素分析法。义素是意义的基本要素,它是词的理性意义的区别特征。词的理性意义是一束语义特征的总和。例如,汉语“哥哥”的理性意义是[+人][+亲属][+同胞][+年长][+男性]等义素的总和;“姐姐”的理性意义是[+人][+亲属][+同胞][+年长][-男性]等义素的总和;“妹妹”的理性意义是

[+人][+亲属][+同胞][-年长][-男性]等义素的总和。这里,“+”表示肯定,“-”表示否定,[-年长]就是“年幼”,[-男性]就是“女性”。一组词的义素可以用矩阵来表示,纵坐标表示词,横坐标表示义素,纵横两坐标的交叉点上注以“+、-”号,这种矩阵称为义素矩阵。例如,下面的矩阵就是表示汉语中同胞亲属词的义素矩阵。

[人] [亲属] [同胞] [年长] [男性]

哥哥 + + + + +

弟弟 + + + - +

山东大学信息科学与工程学院《人工智能》课程复习资料

姐姐 + + + + -

妹妹 + + + - -

进行语义分析的第三种方法为语义文法。所谓语义文法,是在传统短语结构语法的基础上将N(名词)、V(动词)等语法类别的概念,用某种专门的语义类别来代替。即可以将语义文法表示成类似短语结构语法的四元组,也有终结符集合、非终结符结合和语义规则。

有了语义文法之后,就可以使用和分析短语结构语法相类似的方法来对语义进行分析。例如,可以使用自顶向下和自底向上的分析方法对语义进行分析。

1.5 大规模真实文本的处理

1.语料库语言学及其特点

在大量的真实文本当中蕴涵着理解自然语言所需的各种知识,通过对大量真实文本进行分析处理,可以从中获取理解自然语言所需的各种知识,建立相应知识库,从而实现以知识为基础的智能型自然语言理解系统。为了从大量的真实文本中获取知识,要构建相应的语料库,并对语料库进行适当的处理与加工,这就需要对语料库建设的理论、方法和工具等方面进行研究。语料库语言学(Corpus Linguistics)在自然语言理解的研究中得以崛起。

在基于大规模真实文本的自然语言理解系统中,下列的一些问题研究需要优先考虑:

①大规模真实语料库的设计与建设方法。

②大规模、信息丰富的机读词典或知识库的编制方法。

③基于语料库或机读知识库的自然语言理解方法。

2.汉语语料库加工的基本方法

对大规模汉语语料库的加工主要包括自动分词和标注,包括词性标注和词义标注。

山东大学信息科学与工程学院《人工智能》课程复习资料

(1)汉语自动分词

汉语自动分词的方法主要以基于词典的机械匹配分词方法为主。近年来,也有人提出无词典分词法、基于专家系统和人工神经网络的分词方法。基于词典的机械匹配分词法主要包括以下3种。①最大匹配法;②逆向最大匹配法;③逐词遍历匹配法。

汉语分词的难点主要有:①词的概念问题;②分词过程中的歧义问题;③未登录词的识别问题。

(2)汉语词性标注

词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。在自然语言处理中,研究词性自动标注的目的主要是:第一,为了对文本进行语法分析或句法分析等更高层次的文本加工提供基础,以便在文摘、自动校对、OCR识别后处理等应用系统开发中提高准确率。第二,通过对标注过的语料进行统计分析等处理,可以抽取蕴涵在文本中的语言知识,为语言学的研究提供可靠的数据。同时,又可以进一步运用这些知识,改进词性标注系统,提高词性标注系统的准确率。

词性标注的难点主要是兼类词的自动词类歧义排除。

词性标注的方法主要就是兼类词的歧义排除方法。目前的方法主要有两大类:一类是基于概率统计模型的词性标注方法;另一类是基于规则的词性标注方法。基于概率统计模型词性标注的代表性系统是CLAWS系统;基于规则的方法的代表性系统是TAGGIT系统。

(3)汉语词义标注

词义标注就是对文本中的每个词根据其所属上下文给出它的语义编码,这个编码可以是词典释义文本中的某个义项号,也可以是义类词典中相应的义类编码。自动词义标注就是利用计算机通过逻辑推理机制,利用文本的上下文环境,对词的词义进行自动判断,选择词的某一正确义项并加以标注的过程。研究词义

山东大学信息科学与工程学院《人工智能》课程复习资料

自动标注除了对语言学研究有重要意义外,在自然语言处理的很多领域都有非常重要的作用,是当前自然语言信息处理的一个热门课题。

词义标注的难点是对多义词的歧义排除。

目前,多义词排歧的研究尚处于初级阶段。英语的多义词排歧的方法主要有人工智能方法、基于词典的方法和基于语料库的方法。近几年来,基于语料库的概率统计方法在词义标注方面应用越来越广,在语义标注体系、词义标注算法方面的研究也越来越多,基于实例的汉语义项标注算法就是一种比较典型的方法。

本文来源:https://www.bwwdw.com/article/meji.html

Top