基于细粒度依存关系的中文长句相似度计算被引量：4

Chinese Long Sentences Similarity Calculation Based on Fine-grained Dependency Syntax

下载PDF

导出

摘要长句是中文书面语的常见现象,其由于结构复杂在计算句子相似度时难度较大。综合考虑依存关系中的关键元素,对中文依存句法树进行研究和分析,提出了一种细粒度依存关系的相似度计算方法。通过研究依存句法树中的各节点的词语、词性以及它们之间的依赖关系及其重要性权重等多个特征量,给出了两个依存句法树的相似度计算方法;基于该算法实现中文长句的相似度计算。实验结果表明该方法用于计算中文长句相比较其他算法有更高的准确率。 Long sentence is a common phenomenon in Chinese written material. It is difficult to calculate the sentence similarity because of its complex structure. Multi-feature fusion method is proposed to research and analysis the Chinese dependency syntax tree. A similarity computing method for dependency syntactic tree is introduced. Based on the dependency syntactic tree structure, the node words, parts of speech, and the dependencies between words are considered. The similarity calculation method between two dependency syntactic trees is proposed through comprehensive analysis of feature weights of dependency relation. And a similarity calculation for Chinese long sentences is realized based on the method. Experimental results show that this method achieved a higher accuracy rate comparing with other method.

作者熊晶王继鹏魏墨济

机构地区安阳师范学院计算机与信息工程学院汉语海外传播河南省协同创新中心山东省科学院情报研究所

出处《科学技术与工程》北大核心 2017年第11期277-281,共5页 Science Technology and Engineering

基金国家自然科学基金(U1504612) 河南省高校创新人才计划(15HASTIT023) 河南省高校重点科研项目(17A520002)资助

关键词自然语言处理句子相似度依存句法知网 NLP sentence similarity dependency syntax HowNet

分类号 TP391.2 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1杨思春.一种改进的句子相似度计算模型[J].电子科技大学学报,2006,35(6):956-959. 被引量：34
2卡哈尔江.阿比的热西提,吐尔根.依布拉音,姚天昉,艾山.吾买尔,艾山.毛力尼亚孜.一种改进的维吾尔语句子相似度计算方法[J].中文信息学报,2011,25(4):50-53. 被引量：8
3刘宏哲.一种基于本体的句子相似度计算方法[J].计算机科学,2013,40(1):251-256. 被引量：17
4李彬,刘挺,秦兵,李生.基于语义依存的汉语句子相似度计算[J].计算机应用研究,2003,20(12):15-17. 被引量：127
5车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：63
6冯凯,王小华,谌志群.基于动态规划的汉语句子相似度算法[J].计算机工程,2013,39(2):220-224. 被引量：8
7周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
8胡宝顺,王大玲,于戈,马婷.基于句法结构特征分析及分类技术的答案提取算法[J].计算机学报,2008,31(4):662-676. 被引量：24
9李欢,刘文印,陈小平,郝天永.依存关系树在文本多语义约束检测中的运用[J].小型微型计算机系统,2010,31(6):1112-1116. 被引量：2
10王步康,王红玲,袁晓虹,周国栋.基于依存句法分析的中文语义角色标注[J].中文信息学报,2010,24(1):25-29. 被引量：23

二级参考文献115

1朱礼军,陶兰,刘慧.领域本体中的概念相似度计算[J].华南理工大学学报（自然科学版）,2004,32(z1):147-150. 被引量：48
2陈耀东,王挺,陈火旺.浅层语义分析研究[J].计算机研究与发展,2008,45(z1):321-325. 被引量：12
3刘海涛.依存语法和机器翻译[J].语言文字应用,1997(3):91-95. 被引量：43
4顾榕,王小平,曹立明.一种基于潜在语义分析的查询扩展算法[J].计算机工程与应用,2004,40(18):23-25. 被引量：8
5郭艳华,周昌乐.一种汉语语句依存关系网协动生成方法研究[J].杭州电子工业学院学报,2000,20(4):24-32. 被引量：11
6戴浩一.概念结构与非自主性语法:汉语语法概念系统初探[J].当代语言学,2002,4(1):1-12. 被引量：109
7李霞,张太红,李莉.潜在语义索引在FAQ构建中的应用研究[J].石河子大学学报（自然科学版）,2005,23(6):778-781. 被引量：3
8杨晓明,罗振声.模式匹配在中文问答系统中的应用研究[J].科学技术与工程,2006,6(3):319-322. 被引量：4
9文勖,张宇,刘挺,马金山.基于句法结构分析的中文问题分类[J].中文信息学报,2006,20(2):33-39. 被引量：82
10杜小勇,李曼,王珊.本体学习研究综述[J].软件学报,2006,17(9):1837-1847. 被引量：241

共引文献338

1贾善崇,周兰江,张建安,周枫.融入多特征的汉-老双语对齐方法[J].中国水运（下半月）,2020,20(3):78-80. 被引量：2
2张嵩,杨晓明,田露.基于语义相似度计算的航天标准关联度评价[J].南京航空航天大学学报,2021,53(S01):153-156. 被引量：3
3孙凯丽,邓沌华,李源,李妙,李洋.基于句内注意力机制多路CNN的汉语复句关系识别方法[J].中文信息学报,2020(6):9-17. 被引量：10
4李茂胜,王天一.基于多特征融合的羊养殖问句相似度评价方法[J].智能计算机与应用,2021,11(12):22-27.
5付晓歌.汉语动结式依存结构与特征结构对比分析[J].襄樊学院学报,2009,30(4):62-65.
6余正涛,邓锦辉,韩露,毛存礼,郑志蕴,郭剑毅.受限域FAQ中文问答系统研究[J].计算机研究与发展,2007,44(z2):388-393. 被引量：6
7秦兵,刘挺,李生.基于局部主题判定与抽取的多文档文摘技术[J].自动化学报,2004,30(6):905-910. 被引量：10
8党政法,周强.短语树到依存树的自动转换研究[J].中文信息学报,2005,19(3):21-27. 被引量：12
9李幸,宗成庆.引入标点处理的层次化汉语长句句法分析方法[J].中文信息学报,2006,20(4):8-15. 被引量：22
10于凤,郑德权,赵铁军,李生.基于上下文多元信息的文档相似度计算研究[J].哈尔滨工程大学学报,2006,27(B07):397-402. 被引量：2

同被引文献42

1李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：53
2王辰成,杨麟儿,王莹莹,杜永萍,杨尔弘.基于Transformer增强架构的中文语法纠错方法[J].中文信息学报,2020(6):106-114. 被引量：26
3陈耀东,王挺,陈火旺.浅层语义分析研究[J].计算机研究与发展,2008,45(z1):321-325. 被引量：12
4刘海涛.依存语法和机器翻译[J].语言文字应用,1997(3):91-95. 被引量：43
5刘亚军,徐易.一种基于加权语义相似度模型的自动问答系统[J].东南大学学报（自然科学版）,2004,34(5):609-612. 被引量：35
6胡宝顺,王大玲,于戈,马婷.基于句法结构特征分析及分类技术的答案提取算法[J].计算机学报,2008,31(4):662-676. 被引量：24
7蔡玮,黄陈蓉,林忠,韩磊.一种基于向量空间模型的主观题批改算法[J].计算机与现代化,2008(12):88-90. 被引量：4
8钟敏娟,万常选,刘爱红.基于词共现模型的常问问题集的自动问答系统研究[J].情报学报,2009,28(2):242-247. 被引量：7
9施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
10田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报（信息科学版）,2010,28(6):602-608. 被引量：176

引证文献4

1陈耀东,彭蝶飞,刘琴,王珂玲.基于语义角色向量的半监督情感分类方法[J].自动化技术与应用,2018,37(10):115-119.
2曹建文,万福成.面向自动问答系统的问句相似度计算研究[J].重庆大学学报（自然科学版）,2019,42(9):114-122. 被引量：4
3付鹏斌,陈帅帅,杨惠荣,李建君.结合依存关系与同义词词林的相似度计算[J].计算机技术与发展,2020,30(1):13-18. 被引量：3
4孙劭芃,汪颢懿,左敏,张青川.基于深度学习的食品安全领域实体关系抽取研究[J].中国酿造,2021,40(7):231-236. 被引量：1

二级引证文献8

1郭坤,丁有伟.基于依存关系和倒排索引的中医电子病历检索方法[J].计算机时代,2020(12):56-59. 被引量：2
2王兵,郑亚梅,陈茂柯,高凌云.基于Tri-BiLSTM-CNN 的钻井安全问答系统[J].西南石油大学学报（自然科学版）,2020,42(6):157-164. 被引量：5
3毛存礼,高旭,余正涛,王振晗,高盛祥,满志博.结构特征一致性约束的双语平行句对抽取[J].重庆大学学报,2021,44(1):46-56. 被引量：2
4王辉,Mariu.sPetrescu,潘俊辉,王浩畅,张强.基于知网的词语语义相似度改进算法研究[J].计算机与数字工程,2022,50(2):225-228.
5申震,王逊,黄树成,周尓昊.基于依存句法与词语语义的汉语句子相似度计算[J].江苏科技大学学报（自然科学版）,2022,36(2):65-72. 被引量：1
6卜意磊,庞文迪,吴甜甜,杜奕坤,李珊.面向食品监管领域的知识图谱构建研究[J].计算机技术与发展,2023,33(6):202-207. 被引量：2
7王娜,李杰.基于AHP-熵权法的FAQ问答系统用户满意度评价研究——以高校图书馆问答型机器人为例[J].情报科学,2023,41(9):164-172. 被引量：1
8周朝阳,贺艳菊,夏岭梅,闵昭浩.融合词性与语义相关性的图书馆智能咨询系统问句相似性计算方法研究[J].情报探索,2024(5):1-8.

1胡涛,刘怀亮.中文文本分类中一种基于语义的特征降维方法[J].现代情报,2011,31(11):46-50. 被引量：3
2薛慧芳.句子相似度计算初探[J].科技信息,2009(19):162-162. 被引量：2
3苏武荣.电脑病毒及常见现象[J].电脑技术——Hello-IT,1996(1):35-37.
4张艳杰,邵雄凯,刘建舟.一种基于语义与结构的句子相似度计算方法[J].湖北工业大学学报,2015,30(5):82-85. 被引量：5
5尹文婷.网络信息管理中入侵检测技术分析[J].信息安全与技术,2012,3(5):30-31. 被引量：2
6刘佳.搜狗全球首推云输入[J].互联网周刊,2009(22):18-18.
7张超,侯青青,陶宏敏,李俊杰,邹威.基于句子相似度语句定位的文本作业检测技术[J].计算机光盘软件与应用,2013,16(4):278-278.
8中文输入进入“云＂时代[J].大众科技,2009(12):3-3.
9王鹏,樊兴华.中文文本分类中利用依存关系的实验研究[J].计算机工程与应用,2010,46(3):131-133. 被引量：16
10张培颖.多特征融合的语句相似度计算模型[J].计算机工程与应用,2010,46(26):136-137. 被引量：19

科学技术与工程

2017年第11期

浏览历史

内容加载中请稍等...

基于细粒度依存关系的中文长句相似度计算被引量：4

参考文献11

二级参考文献115

共引文献338

同被引文献42

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于细粒度依存关系的中文长句相似度计算 被引量：4

参考文献11

二级参考文献115

共引文献338

同被引文献42

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于细粒度依存关系的中文长句相似度计算被引量：4