基于主题相似度的宏观篇章主次关系识别方法被引量：5

A Macro Discourse Primary and Secondary Relation Recognition Method Based on Topic Similarity

下载PDF

导出

摘要篇章分析是自然语言处理领域的一个重要任务。分析篇章主次关系有助于理解篇章的结构和语义,并为自然语言处理的应用提供有力的支持。该文在微观篇章主次关系识别研究的基础上,重点研究宏观篇章主次关系,提出了一种基于word2vec和LDA的主题相似度的宏观篇章主次关系识别模型。基于word2vec的主题相似度和基于LDA的主题相似度在不同维度上计算语义相似度,两者在语义层面形成互补,因而增强了模型识别宏观篇章主次关系的能力。该模型在宏观汉语篇章树库(MCDTB)上实验的F1值达到79.9%,正确率达到81.82%,相较基准系统分别提升了1.7%和1.81%。 Discourse analysis is an important task in the field of natural language processing.The analysis of primary and secondary relations at discourse-level helps to understand the discourse structure and semantics.Based on the research of micro discourse-level primary and secondary relation recognition,this paper aims at macro discourse-level primary and secondary relation and provides a recognition model based on topic similarity with word2vec and LDA.The topic similarity based on word2vce and the topic similarity based on LDA calculate the semantic similarity on different dimensions.They are complementary at the semantic level,which enhances the ability of the model to recognize the macro discourse-level primary and secondary relations.Experimental results on the Macro Chinese Discourse TreeBank（MCDTB）show that our model achieves 79.9% in F1-score,and 81.82% in accuracy,which improves the baseline by 1.7% and 1.81% ,respectively.

作者蒋峰褚晓敏徐昇李培峰朱巧明 JIANG Feng;CHU Xiaomin;XU Sheng;LI Peifeng;ZHU Qiaoming(School of Computer Sciences and Technology, Soochow University, Suzhou, Jiangsu 215006, China;Provincial Key Laboratory for Computer Information Processing Technology, Suzhou, Jiangsu 215006, China)

机构地区苏州大学计算机科学与技术学院江苏省计算机信息技术处理重点实验室

出处《中文信息学报》 CSCD 北大核心 2018年第1期43-50,共8页 Journal of Chinese Information Processing

基金国家自然科学基金(61773276 61472265 61772354) 江苏省科技计划(BK20151222)

关键词宏观篇章主次关系主题相似度 word2vec LDA macro discourse-level primary and secondary relation topic similarity word2vec LDA

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1褚晓敏,朱巧明,周国栋.自然语言处理中的篇章主次关系研究[J].计算机学报,2017,40(4):842-860. 被引量：23
2李锦,廖开洪.汉英语篇主题与段落结构模式的比较研究[J].暨南学报（哲学社会科学版）,2001,23(5):89-93. 被引量：5

二级参考文献9

1安纯人.汉英段落结构比较[J].解放军外国语学院学报,1993,16(2):1-5. 被引量：8
2Dijk, T.A. Van. Text and Context[M]. Longman, 1980.
3Dijk, T.A. Van. Handbook of Discourse Analysis[M].Vol.2, Dimensions of Discourse. Academic Press, 1985.
4Longacre. The Paragraph as a Grammatical Unit[J]. Talmy Givon, Syntax and Semantic,Discourse and Syntax. Academic Press, 1979, (12).
5Gerdel F. and M.C. Slocum. Paez Discourse, Paragraph and Sentence Structure[A]. in Longacre ed., Discourse Grammar, Part I, The Summer Institute of Linguistics, Dallas, 1976.
6张静,郑远汉.修辞学教程[M].河南:河南教育出版社,1990.
7Evelyn Hatch, Hossein Farhady. Research Design and Statistics for Applied Linguistics[M]. Newbury House Publishers, INC. Rowley, Massachusettes 01969, 1982.
8乐明.汉语篇章修辞结构的标注研究[J].中文信息学报,2008,22(4):19-23. 被引量：27
9徐凡,朱巧明,周国栋.基于树核的隐式篇章关系识别[J].软件学报,2013,24(5):1022-1035. 被引量：15

共引文献26

1褚晓敏,奚雪峰,蒋峰,徐昇,朱巧明,周国栋.宏观篇章结构表示体系和语料建设[J].软件学报,2020,31(2):321-343. 被引量：5
2赵文仓,陈聪聪,郑鸿磊.基于SSU-SGD的动态手持物体识别[J].计算机应用研究,2020,37(2):621-624.
3王会凯.英汉写作中主题句的对比分析[J].忻州师范学院学报,2004,20(6):109-111. 被引量：1
4李春芳,邓跃平.大学英语主题句写作教学实验研究[J].牡丹江大学学报,2008,17(11):124-126.
5许天成,张姝涵,但唐朋,王思懿.基于QQBot的个人资讯管理系统设计与实现[J].电子技术与软件工程,2018(3):70-71.
6李洪民.自然语言处理中的技术评测以及相关英语专业考试分析[J].电脑知识与技术（过刊）,2017,23(10X):166-167. 被引量：1
7戈其平,钟艳如.基于数学教学的知识图谱构建[J].计算机技术与发展,2019,29(3):187-189. 被引量：9
8孔芳,王红玲,周国栋.汉语篇章理解研究综述[J].软件学报,2019,30(7):2052-2072. 被引量：5
9张迎,王中卿,王红玲.基于篇章主次关系的单文档抽取式摘要方法研究[J].中文信息学报,2019,33(8):67-76. 被引量：13
10杨菊英,江兵,罗佳.自然语言语义库构建方法研究[J].重庆理工大学学报（自然科学）,2019,33(10):103-108. 被引量：2

同被引文献20

1亢晓勉,宗成庆.融合篇章结构位置编码的神经机器翻译[J].智能科学与技术学报,2020(2):144-152. 被引量：5
2褚晓敏,奚雪峰,蒋峰,徐昇,朱巧明,周国栋.宏观篇章结构表示体系和语料建设[J].软件学报,2020,31(2):321-343. 被引量：5
3郝晓燕,刘伟,李茹,刘开瑛.汉语框架语义知识库及软件描述体系[J].中文信息学报,2007,21(5):96-100. 被引量：52
4张龙凯,王厚峰.文本摘要问题中的句子抽取方法研究[J].中文信息学报,2012,26(2):97-101. 被引量：10
5李艳翠,冯文贺,周国栋,朱坤华.基于逗号的汉语子句识别研究[J].北京大学学报（自然科学版）,2013,49(1):7-14. 被引量：22
6徐凡,朱巧明,周国栋.篇章分析技术综述[J].中文信息学报,2013,27(3):20-32. 被引量：15
7张牧宇,秦兵,刘挺.中文篇章级句间语义关系体系及标注[J].中文信息学报,2014,28(2):28-36. 被引量：24
8孙成,孔芳.基于转移的中文篇章结构解析研究[J].中文信息学报,2018,32(12):48-56. 被引量：5
9严为绒,徐扬,朱珊珊,洪宇,姚建民,朱巧明.篇章关系分析研究综述[J].中文信息学报,2016,30(4):1-11. 被引量：6
10褚晓敏,朱巧明,周国栋.自然语言处理中的篇章主次关系研究[J].计算机学报,2017,40(4):842-860. 被引量：23

引证文献5

1周懿,褚晓敏,朱巧明,蒋峰,李培峰.基于宏观语义表示的宏观篇章关系识别方法[J].中文信息学报,2019,33(3):1-7. 被引量：3
2张迎,王中卿,王红玲.基于篇章主次关系的单文档抽取式摘要方法研究[J].中文信息学报,2019,33(8):67-76. 被引量：13
3孙振华,周懿,朱巧明,蒋峰,李培峰.基于篇章主题的中文宏观篇章主次关系识别方法[J].中文信息学报,2020,34(12):30-38. 被引量：4
4杜梦琦,蒋峰,褚晓敏,李培峰,孔芳.融合全局语义信息和结构特征的篇章功能语用识别方法[J].中文信息学报,2022,36(11):50-59.
5蒋峰,范亚鑫,褚晓敏,李培峰,朱巧明.英汉篇章结构分析研究综述[J].软件学报,2023,34(9):4167-4194.

二级引证文献17

1Shengxiang Zhang,Chao Shi,Xin Jiang,Ying Zhang,Lu Zhang.Analysis of the trend of global power sources based on comment emotion mining[J].Global Energy Interconnection,2020,3(3):283-291. 被引量：3
2牛伟农,吴林,于水源.一种基于词聚类信息熵的新闻提取方法[J].软件导刊,2020,19(1):36-40. 被引量：1
3周俊颢,朱巧明,蒋峰,褚晓敏,李培峰.基于语义和主题模型的宏观篇章关系识别方法[J].山西大学学报（自然科学版）,2021,44(3):393-402. 被引量：1
4谭金源,刁宇峰,杨亮,祁瑞华,林鸿飞.基于BERT-SUMOPN模型的抽取-生成式文本自动摘要[J].山东大学学报（理学版）,2021,56(7):82-90. 被引量：10
5张乐,冷基栋,吕学强,崔卓,王磊,游新冬.RLCPAR:一种基于强化学习的中文专利摘要改写模型[J].数据分析与知识发现,2021,5(7):59-69. 被引量：3
6李伯涵,李红莲.一种融合关键词的生成式摘要方法[J].计算机应用研究,2021,38(11):3289-3292. 被引量：2
7赵海燕,杜丽娟,刘琨,王廷梅,刘建国.基于深度学习的情感类文本数据蕴含关系识别方法[J].电子技术与软件工程,2021(20):138-139.
8杨振宇,张登辉.一种结合BERT与双层LSTM的复杂长句意图分类方法[J].计算机应用与软件,2021,38(12):207-212. 被引量：7
9徐宸涵,顾宇浩,张志昊,褚晓敏,蒋峰.基于流程控制的汉语篇章结构语料协同标注系统[J].计算机与数字工程,2021,49(12):2519-2525. 被引量：1
10杨涛,黄良,吴建蓉,申彧,李冶.基于长短期记忆网络的电网数据自动摘要研究[J].电子测量技术,2021,44(19):122-127. 被引量：1

1毕锦雄.基于攻击防御树的态势感知预警模型[J].信息安全与通信保密,2017,15(9):48-57. 被引量：1
2黄姣姣.汉语篇章中连接词初探[J].山海经（故事）（上）,2016,0(S1):144-145.
3石琴琴,张建平,徐强.基于“主题专讲”的Office高级应用课程教学改革[J].电脑知识与技术,2018,14(2):121-123. 被引量：2
4潘明霞.汉语语篇中“倒装结构”的衔接力考察[J].淮北师范大学学报（哲学社会科学版）,2017,38(5):68-72.
5黄奕宇.基于学习者问题解决能力培养的微课教学策略研究[J].中国教育信息化,2018,24(6):30-31. 被引量：3
6赵宁宁,赵宇婷.ADS-B设备提供监视服务的可靠性分析[J].数学的实践与认识,2017,47(23):108-116. 被引量：3
7徐晶凝.预科阅读与写作课教学设计[J].国际汉语教学研究,2017(4):68-74.
8朱淑琴,彭炜明,宋继华,郭冬冬.基于句本位图解树库的汉语句式实例获取[J].中文信息学报,2017,31(5):32-39.
9张金柱,吕品.基于主题关联度改进的主题演变和突变分析[J].情报理论与实践,2018,41(3):129-135. 被引量：11
10邓钟晟.基于主题文本的推断社会关系强度的熵模型[J].计算机与现代化,2015(2):30-30.

中文信息学报

2018年第1期

浏览历史

内容加载中请稍等...

基于主题相似度的宏观篇章主次关系识别方法被引量：5

参考文献2

二级参考文献9

共引文献26

同被引文献20

引证文献5

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于主题相似度的宏观篇章主次关系识别方法 被引量：5

参考文献2

二级参考文献9

共引文献26

同被引文献20

引证文献5

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于主题相似度的宏观篇章主次关系识别方法被引量：5