摘要
该文介绍了在汉语文本中抽取定义语句的方法。方法的主要特点是:给定被定义的词汇(字符串),应用Bo-yer-Moore算法查找该串在文本中的位置,继而在该句子中查找符合定义特征的谓词。在这个工作基础上,根据谓词字符串的特征排除谓词歧义,并按照句法分析的结果对定义语句修饰谓词的不同语法单元进行识别,从而实现了基于字符串和语法特征的识别的定义语句抽取。
Using Boyer-Moore algorithm and grammar parsing technology,the paper studies extracting the Chinese sentences,which make some definitions,in texts.In the work,defined words,verbs and some functional phrases for definition are recognized so a more precise extractions are completed,and some words which might make incorrect extractions are avoided.
出处
《计算机与数字工程》
2011年第10期45-47,112,共4页
Computer & Digital Engineering
关键词
知识抽取
信息抽取
汉语句子识别
定义语句
BOYER-MOORE算法
自然语言理解
knowledge extraction
information extraction
Chinese sentence recognition
definition recognition
Boyer-Moore algorithm
natural language processing