基于归约的汉语最长名词短语识别方法被引量：4

Chinese Maximal Noun Phrase Recognition Based on Reduction

下载PDF

导出

摘要该文提出了最长名词短语(MNP)的操作性定义,分析了其构造和分布特征,并设计了一种基于baseNP归约的识别方法,利用MNP结构特性及起始有定成分、语义核心等语言学特征,缓解了最长名词短语长距离依赖与模型观察窗口受限的矛盾。开放测试取得了88.68%的正确率和89.21%的召回率;归约方法全面提升了识别性能,特别是将多词结构的调和平均值提高1%,优化幅度达6%以上,并且对长距离复杂结构有着更好的识别效果。 This paper proposes an operational definition of Maximal Noun Phrase（MNP）, and then analyzes its structure and distribution features. A MNP recognition based on baseNP reduction is also designed, which exploits the structural characteristics of MNP as well as the linguistic features such as initial definite references and semantic heads. This method eases the conflict between the long distance dependency of MNP and the limits of observation windows in classical models. The experiment indicates a good precision of 88.68% and a recall of 89.21%. The reduction method comprehensively improves system performance, especially it improves Fl-score by 1% and optimal margin by 6 % on multiword MNP, showing its efficiency in complex MNP recognition.

作者钱小飞侯敏

机构地区上海大学文学院中国传媒大学国家语言资源监测与研究中心有声媒体中心

出处《中文信息学报》 CSCD 北大核心 2015年第2期40-48,共9页 Journal of Chinese Information Processing

基金上海市高校青年教师培养资助计划(shu11053) 国家语言资源监测与研究中心科研项目(YZYS08-04)

关键词最长名词短语识别归约基本名词短语 maximal noun phrase recognize reduction baseNP

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1Voutilainen A. NPTool: a detector of English nounphrases [C]//Proceedings of the Workshop on VeryLarge Corpora: Academic and Industrial Perspectives,1993.
2李文捷,周明,潘海华,等.基于语料库的中文最长名词短语的自动提取[C]//陈力为,袁琦,计算语言学进展与应用.北京:清华大学出版社,1995,119-124.
3周强,孙茂松,黄昌宁.汉语最长名词短语的自动识别[J].软件学报,2000,11(2):195-201. 被引量：37
4Guiping Zhang, Wenjing Lang, Qiaoli Zhou, et al. I-dentification of Maximal-Length Noun Phrases Basedon Maximal-Length Preposition Phrases in Chinese[C]//Proceedings of IALP 2010 : 65-68.
5Changhao Yin. Identification of Maximal Noun Phrasein Chinese: Using the Head of Base Phrases [D].POSTECH, Korea,2005.
6Xue-Mei Bai, Jin-Ji Li, Dong-U Kim, et al. Identifica-tion of Maximal-Length Noun Phrases Based on Ex-panded Chunks and Classified Punctuations in Chinese[Cj//Proceedings of the 21st ICCPOL,2006 : 268-276.
7Kuang-hua Chen. Extracting noun phrases from large-scale texts: a hybrid approach and its automatic evalu-ation[C]//Proceedings of the 32nd ACL, 1994.
8代翠,周俏丽,蔡东风,杨洁.统计和规则相结合的汉语最长名词短语自动识别[J].中文信息学报,2008,22(6):110-115. 被引量：16
9鉴萍,宗成庆.基于双向标注融合的汉语最长短语识别方法[J].智能系统学报,2009,4(5):406-413. 被引量：9
10Steven Abney. Syntactic affixation and performancestructures[C] //Proceeding of Views on Phrase Struc-ture, 1990.

二级参考文献58

1马真,陆俭明.“名词+动词”词语串浅析[J].中国语文,1996(3):183-188. 被引量：14
2黄河燕,陈肇雄.基于多策略的交互式智能辅助翻译平台总体设计[J].计算机研究与发展,2004,41(7):1266-1272. 被引量：12
3孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74-83. 被引量：38
4王立霞,孙宏林.现代汉语介词短语边界识别研究[J].中文信息学报,2005,19(3):80-86. 被引量：11
5干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4):17-23. 被引量：14
6冯冲,陈肇雄,黄河燕,张亮,王江伟.基于条件随机域的复杂最长名词短语识别[J].小型微型计算机系统,2006,27(6):1134-1139. 被引量：16
7张卫国.三种定语、三类意义及三个槽位[J].中国人民大学学报,1996,(4):97-100.
8李文捷潘海华等.基于语料库的中文最长名词短语的自动抽取.计算语言学进展与应用[M].北京:清华大学出版社,1995.119-125.
9邵敬敏郑定欧.双音节V＋N结构的配价分析.现代汉语配价语法研究[M].北京:北京大学出版社,1995..
10Bourigauh D. Surface grammatical analysis for the ex traction of terminological noun phrases[C]//Boitet C ed. Proceedings of the 15th International Conference on Computational Linguistics (COLING'92). Nantes: Academic Press, 1992. 977-981.

共引文献64

1王东波.基于规则的单层单标记联合结构自动识别[J].文教资料,2008(9):29-31. 被引量：6
2李晋霞.面向计算机的“V_双+N_双”结构类型研究[J].语言文字应用,2002(4):69-76. 被引量：5
3冯冲,陈肇雄,黄河燕,张亮,王江伟.基于条件随机域的复杂最长名词短语识别[J].小型微型计算机系统,2006,27(6):1134-1139. 被引量：16
4姜韶华,党延忠.无词典中英文混合术语抽取及算法研究[J].情报学报,2006,25(3):301-305. 被引量：2
5钱小飞.“地”字结构识别[J].现代语文（下旬．语言研究）,2006(5):61-63. 被引量：2
6姜韶华,党延忠,宣照国.无词典抽词的RMMFS和BMMFS方法及其比较研究[J].情报学报,2006,25(4):499-503. 被引量：5
7李荣,郑家恒.基于语料库的名词短语识别方法[J].济南大学学报（自然科学版）,2007,21(3):243-245. 被引量：2
8奚建清,罗强.基于HMM的汉语介词短语自动识别研究[J].计算机工程,2007,33(3):172-173. 被引量：9
9徐艳华.基于语料库的基本名词短语研究[J].语言文字应用,2008(1):120-125. 被引量：5
10代翠,周俏丽,蔡东风,杨洁.统计和规则相结合的汉语最长名词短语自动识别[J].中文信息学报,2008,22(6):110-115. 被引量：16

同被引文献24

1冯冲,陈肇雄,黄河燕,张亮,王江伟.基于条件随机域的复杂最长名词短语识别[J].小型微型计算机系统,2006,27(6):1134-1139. 被引量：16
2徐昉,宗成庆,王霞.中文Base NP识别:错误驱动的组合分类器方法[J].中文信息学报,2007,21(1):115-119. 被引量：7
3周强.汉语基本块描述体系[J].中文信息学报,2007,21(3):21-27. 被引量：25
4周强,赵颖泽.汉语功能块自动分析[J].中文信息学报,2007,21(5):18-24. 被引量：13
5邹宏梅,王挺.SVM和基于转换的错误驱动学习相结合的汉语组块识别[J].计算机工程与科学,2007,29(4):91-94. 被引量：4
6徐艳华.基于语料库的基本名词短语研究[J].语言文字应用,2008(1):120-125. 被引量：5
7陈亿,周强,宇航.分层次的汉语功能块描述库构建分析[J].中文信息学报,2008,22(3):24-31. 被引量：8
8代翠,周俏丽,蔡东风,杨洁.统计和规则相结合的汉语最长名词短语自动识别[J].中文信息学报,2008,22(6):110-115. 被引量：16
9胡乃全,朱巧明,周国栋.混合的汉语基本名词短语识别方法[J].计算机工程,2009,35(20):199-201. 被引量：7
10鉴萍,宗成庆.基于双向标注融合的汉语最长短语识别方法[J].智能系统学报,2009,4(5):406-413. 被引量：9

引证文献4

1赵京胜,张丽,朱巧明,周国栋.中文文学作品中的社会网络抽取与分析[J].中文信息学报,2017,31(2):99-106. 被引量：16
2钱小飞,侯敏.面向信息处理的汉语最长名词短语界定研究[J].语言文字应用,2017(2):127-134. 被引量：3
3钱小飞.组块分析研究综述[J].现代语文,2018(6):166-170. 被引量：2
4王闻慧.融合边界信息的越南语名词短语深度学习识别方法[J].计算机应用与软件,2019,36(12):169-175.

二级引证文献21

1彭丽丽,奚雪峰.人物关系网络在包装产品精准营销中的应用[J].苏州科技大学学报（自然科学版）,2018,35(3):70-73. 被引量：2
2魏会洋,袁曦临.社会网络分析在文学阅读研究中的适用性问题——以数字人文视角下的《白鹿原》人物关系阐释为例[J].新世纪图书馆,2019(3):30-34. 被引量：8
3李艳丽,李宛蓉,廖欣,李静娟,汤露,刘喜平.基于计量风格学的小说质量分析[J].计算机与现代化,2019(5):19-24. 被引量：2
4张旋,梁循,李志宇,张树森,赵晓磊.金庸小说中主角复杂爱情模式的识别与分析[J].中文信息学报,2019,33(4):109-119. 被引量：5
5林泽斐,欧石燕.基于在线百科的大规模人物社会网络抽取与分析[J].中国图书馆学报,2019,45(6):100-118. 被引量：6
6钱小飞.汉语内层最长名词短语的识别研究[J].浙江外国语学院学报,2019(6):59-67.
7黄娟,陈崇成,叶晓燕,马腾.“民国清流”名人文化主题数据的组织和可视化方法[J].地球信息科学学报,2020,22(5):954-966. 被引量：6
8钮亮.水浒人物社会网络统计分析[J].文献与数据学报,2020,2(2):99-109. 被引量：1
9贾玉祥,王璐,刘鹏程,王钤,张岳,昝红英.小说人物的分布表示及其应用研究[J].中文信息学报,2020,34(12):92-99.
10李卓宇,马乐荣,何进荣.基于复杂网络的人物关系建模研究——以《红楼梦》为例[J].现代信息科技,2021,5(3):1-4. 被引量：3

1周培锋,韩江洪,卫星.基于动态传输功率的重编程能量均衡算法[J].合肥工业大学学报（自然科学版）,2015,38(5):610-614.
2谷建军,王洪国,丁艳辉.粗糙集理论及其在数据归约中的应用[J].信息技术与信息化,2006(3):143-145. 被引量：2
3许满英,张永奎.基于HMM的中文BaseNp的识别[J].电脑开发与应用,2008,21(12):39-41.
4殷俊.IPv6简述[J].才智,2010,0(29):34-35.
5张琳.基于WEB服务的语义信息表示框架[J].武汉工业学院学报,2009,28(4):94-100.
6伍星,迟毅林,陈进.基于熵度量和遗传算法的粗糙集归约方法[J].振动与冲击,2009,28(2):82-85. 被引量：5
7李春生.一种体现长距离依赖关系的语言模型[J].科技视界,2014(5):55-56. 被引量：4
8TKScope新增支持ARM内核仿真Printf输出功能[J].单片机与嵌入式系统应用,2012,12(1):84-85.
9闵永智,王红霞,康飞,党建武.MNP法在接触网热状态检测中的研究[J].光电工程,2014,41(10):7-11.
10李明,王亚斌,张其文,王旭阳.基于树状条件随机场模型的语义角色标注[J].计算机工程,2010,36(18):41-42. 被引量：4

中文信息学报

2015年第2期

浏览历史

内容加载中请稍等...

基于归约的汉语最长名词短语识别方法被引量：4

参考文献14

二级参考文献58

共引文献64

同被引文献24

引证文献4

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于归约的汉语最长名词短语识别方法 被引量：4

参考文献14

二级参考文献58

共引文献64

同被引文献24

引证文献4

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于归约的汉语最长名词短语识别方法被引量：4