-
题名信息抽取研究综述
被引量:178
- 1
-
-
作者
李保利
陈玉忠
俞士汶
-
机构
北京大学计算机科学与技术系计算语言学研究所
-
出处
《计算机工程与应用》
CSCD
北大核心
2003年第10期1-5,66,共6页
-
基金
国家自然科学基金项目(编号:69973005)
国家973重点基础研究发展规划项目(编号:G1998030507-4)
北大985项目支持
-
文摘
信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。与信息检索不同,信息抽取直接从自然语言文本中抽取事实信息。过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,其独特的发展轨迹———通过系统化、大规模的定量评测推动研究向前发展,以及某些成功启示,如部分分析技术的有效性、快速NLP系统开发的必要性,都极大地推动了自然语言处理研究的发展,促进了NLP研究与应用的紧密结合。回顾信息抽取研究的历史,总结信息抽取研究的现状,将有助于这方面研究工作向前发展。
-
关键词
自然语言处理
信息抽取
信息检索
命名实体识别
计算机
信息处理
-
Keywords
Natural Language Processing,Information Extraction,Information Retrieval,Named Entity Recognization
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名统计句法分析建模中基于信息论的特征类型分析
被引量:4
- 2
-
-
作者
穗志方
赵军
俞士汶
-
机构
北京大学计算机科学与技术系计算语言学研究所
香港科技大学计算机科学系人类语言技术中心
-
出处
《计算机学报》
EI
CSCD
北大核心
2001年第2期144-151,共8页
-
基金
国家"九七三"项目! (G19980 30 5 0 7-4 )
国家自然科学基金! (6 94830 0 3)资助
-
文摘
统计句法分析利用概率评价模型评价每棵候选句法树存在的可能性 ,选择概率值最高的候选句法树作为最终的句法分析结果 .因此 ,统计句法分析的核心是一个概率评价模型 ,而各种概率评价模型的本质区别主要在于它们分别是根据上下文中的哪些特征来赋予句法树概率的 .在统计句法分析研究领域 ,虽然已经提出了大量的概率评价模型 ,然而 ,不同的模型用到了不同类型的特征 .如何评价这些特征类型对于句法分析的作用呢 ?针对以上的问题 ,本研究为统计句法分析提出了一种特征类型的分析模型 ,该模型可以从信息论的角度量化地分析不同类型的上下文特征对于句法结构的预测作用 .其基本思想是利用信息论中熵与条件熵的度量来显示一个特征类型是否抓住了预测句法结构的主要信息 .如果加入某个特征类型之后当前句法结构的不确定性 (熵 )明显下降 ,则认为该特征类型抓住了上下文中影响句法结构的某些主要信息 .特征类型分析的信息论模型利用预测信息量、预测信息增益、预测信息关联度以及预测信息总量四种度量从不同的侧面量化地分析各种特征类型及特征类型组合对于当前目标的预测作用 .实验以 Penn Tree Bank为训练集 ,将上下文中不同的特征类型对于句法分析规则的预测作用进行了系统的量化分析 。
-
关键词
统计句法分析
信息论
概率建模
特征类型分析
语音识别
-
Keywords
Entropy
Information theory
-
分类号
TN912.34
[电子电信—通信与信息系统]
-