-
题名基于混合策略的汉语最长名词短语识别
被引量:7
- 1
-
-
作者
钱小飞
侯敏
-
机构
上海大学文学院
中国传媒大学国家语言资源监测与研究中心有声媒体语言分中心
-
出处
《中文信息学报》
CSCD
北大核心
2013年第6期16-22,共7页
-
基金
上海市哲学社会科学规划青年课题资助项目(2013EYY005)
国家语言资源监测与研究中心科研项目(YZYS08-04)
-
文摘
该文提出一种基于语言知识评价的分类器集成方法,利用自动获得的搭配资源和人工评价规则,融合了基于支持向量机的最长名词短语识别结果和基于条件随机场的归约识别结果,进一步基于确定性规则有针对性地识别了分类器易出错的特殊结构,提高了对连续动词介词和连续名词造成的边界歧义的识别能力。实验取得了89.30%的正确率和89.62%的召回率,多词结构F1值较归约方法提高了0.75%。
-
关键词
最长名词短语识别
语言知识评价
分类器集成
规则
-
Keywords
maximal noun phrase recognition
language knowledge assess
classifier ensemble
rule
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于双向标注融合的汉语最长短语识别方法
被引量:9
- 2
-
-
作者
鉴萍
宗成庆
-
机构
中国科学院自动化研究所模式识别国家重点实验室
-
出处
《智能系统学报》
2009年第5期406-413,共8页
-
基金
国家自然科学基金资助项目(60736014
90820303)
+2 种基金
"十一五"国家科技支撑计划项目(2006BAH03B02)
国家"863"计划资助项目(2006AA010108-4)
中国新加坡数字媒体研究院资助项目
-
文摘
汉语最长短语(最长名词短语和介词短语)具有显著的语言学特点.采用基于分类器的确定性标注方法进行双向标注,其结果能够显示最长短语识别在汉语句子正(由左至右)反(由右至左)2个方向上的互补性.基于此,利用确定性的双向标注技术来识别汉语最长短语,并提出了一种基于"分歧点"的概率融合策略以融合该双向标注结果.实验表明,这一融合算法能够有效发掘这2个方向的互补特性,从而获得较好的短语识别效果.
-
关键词
最长名词短语识别
介词短语识别
序列标注
双向标注
分歧点
-
Keywords
maximal-length noun phrase identification
prepositional phrase identification
sequence labeling
bidi- rectional labeling
fork position
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-