-
题名一种混合的汉语简单名词短语识别方法
被引量:1
- 1
-
-
作者
田雪
黄德根
-
机构
大连理工大学计算机学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2017年第4期749-754,共6页
-
基金
国家自然科学基金项目(61672127
61173100
+1 种基金
61672126
61272375)资助
-
文摘
针对汉语简单名词短语提出一种混合的识别模型,该模型包括组合分类器方法和一种并列结构识别算法.分析简单名词短语与其他类型名词短语的异同,进一步确定其识别任务;利用词、词性和词义信息构建层叠的组合分类器对其进行识别;最后,创新性地利用词性组合模板和基于词向量的语义相似度构造一种并列结构识别算法,提高了简单名词短语的识别精度的同时,保持了其内部结构的清晰.简单名词短语识别的F-值为91.19%,比目前最好结果提高了0.85%,验证了该方法识别简单名词短语的有效性;内部并列结构左右边界的识别精确率分别为80.93%和82.11%,在一定程度上解决了目前多名词并列结构难以识别的问题.
-
关键词
简单名词短语
条件随机场
支持向量机
并列结构
词向量
-
Keywords
simple noun phrase
conditional random field
support vector machine
coordinate structure
word vector
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于简单名词短语的汉语介词短语识别研究
被引量:2
- 2
-
-
作者
桑乐园
黄德根
-
机构
大连理工大学电信学部计算机学院
-
出处
《中文信息学报》
CSCD
北大核心
2015年第6期8-12,22,共6页
-
基金
国家自然科学基金(61173100
61173101
+1 种基金
61272375)
2013教育部人文社会科学研究规划基金项目(13YJAZH062)
-
文摘
该文提出一种融入简单名词短语信息的介词短语识别方法。该方法首先使用CRF模型识别语料中的简单名词短语,并使用转换规则对识别结果进行校正,使其更符合介词短语的内部短语形式;然后依据简单名词短语识别结果对语料进行分词融合;最后,通过多层CRFs模型对测试语料进行介词短语识别,并使用规则进行校正。介词短语识别的精确率、召回率及F-值分别为:93.02%、92.95%、92.99%,比目前发表的最好结果高1.03个百分点。该实验结果表明基于简单名词短语的介词短语识别算法的有效性。
-
关键词
简单名词短语识别
CRF
分词融合
-
Keywords
simple noun phrase recognition
CRF
participle fusion
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多模型融合的汉语介词短语识别
- 3
-
-
作者
刘彤
黄德根
张聪
-
机构
大连理工大学计算机学院
-
出处
《中文信息学报》
CSCD
北大核心
2017年第6期25-32,共8页
-
基金
国家自然科学基金(61672127
61672126)
-
文摘
该文提出了一种多模型融合的介词短语识别方法,不仅能识别并列型介词短语,而且提高了嵌套型介词短语的识别精度。首先,利用简单名词短语识别模型识别出语料中的短语信息并进行融合,简化语料,降低介词短语内部复杂性;其次,用CRF模型识别嵌套的内层介词短语,即若存在嵌套则识别嵌套的内层,若无嵌套则识别该介词短语;最后,将初始语料中识别出来的内层介词短语进行分词融合并修改其特征信息,重新训练外层介词短语识别模型进行识别。在内外层介词短语自动识别后,利用双重错误校正系统对识别的介词短语进行校正。在2000年《人民日报》语料中的7 028个介词短语进行五倍交叉实验,结果表明,该方法识别的介词短语的正确率、召回率、F值分别为94.11%、94.02%、94.06%,比基于简单名词短语的介词短语识别方法(baseline)分别提高了1.09%、1.07%、1.08%,有效提高了介词短语识别的性能。
-
关键词
简单名词短语
分词融合
分层嵌套结构
双重错误校正系统
-
Keywords
simple noun phrase
word segmentation fusion
hierarchical nested structure
double error correction system
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-