基于多谓词语义框架的长短语文本相似度计算被引量：3

Long phrase text similarity calculation based on multi predicate semantic frame

下载PDF

导出

摘要已有的文本相似度计算方法处理长短语时只考虑比较其核心词部分,但核心词的修饰词也会对语义造成一定影响,导致文本相似度计算结果不够准确。为此提出基于多谓词语义框架的长短语文本相似度计算,将文本内容进行多谓词语义框架填充,利用依存句法分析法将长短语构建成短语树,采用层次分析法确定树层权值,结合不同层次的结点相似度得出长短语相似度。对句子、短篇和长篇文本相似度计算的实验分析结果表明,该方法达到了较高准确性,且准确性随文本数量增加而提高。 The existing methods for calculating the similarity of text only consider the key words in the phrase when dealing with long phrase forms.However,the modifiers of the core words also have some influence on the semantics,leading to the lack of comprehensive consideration on the aspect of text semantics.A method of long phrase text similarity calculation method based on multi predicate semantic frame was then proposed.The text content was filled with multi predicate semantic frame,when dealing with the phrase similarity,the dependency parsing method was used to construct the phrase into a tree,and the analytic hierarchy process was used to determine the weight of the tree layer.Combining the similarity of nodes at different levels,the final similarity value was got.The analysis of sentence,short and long text similarity calculation test show the proposed method achieves high accuracy,and the accuracy increases with the increase in the number of text.

作者王景中杨彬彬何云华 WANG Jing-zhong;YANG Bin-bin;HE Yun-hua(College of Computer,North China University of Technology,Beijing 100144,China)

机构地区北方工业大学计算机学院

出处《计算机工程与设计》北大核心 2018年第4期1022-1028,1052,共8页 Computer Engineering and Design

基金北京市教委科技创新服务能力建设基金项目(pxm2017-014212-000002)

关键词文本相似度语义框架多谓词依存句法分析层次分析 text similarity semantic frame multiple predicates dependency parsing hierarchical analysis

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1王荣波,张璐瑶,李杰,黄孝喜,周昌乐.基于句群的自动文摘方法[J].计算机应用,2016,36(A01):58-62. 被引量：2
2王智强,李茹,梁吉业,张旭华,武娟,苏娜.基于汉语篇章框架语义分析的阅读理解问答研究[J].计算机学报,2016,39(4):795-807. 被引量：19
3汤皖宁,王明文,万剑怡.基于文档团的Markov网络检索模型[J].计算机研究与发展,2014,51(10):2248-2254. 被引量：3
4黄贤英,张金鹏,刘英涛,赵明军.基于词项语义映射的短文本相似度算法[J].计算机工程与设计,2015,36(6):1514-1518. 被引量：11
5孙建旺,吕学强,张雷瀚.基于语义与最大匹配度的短文本分类研究[J].计算机工程与设计,2013,34(10):3613-3618. 被引量：18
6李茹,王智强,李双红,梁吉业,Collin Baker.基于框架语义分析的汉语句子相似度计算[J].计算机研究与发展,2013,50(8):1728-1736. 被引量：47
7石佼,李茹,王智强.汉语核心框架语义分析[J].中文信息学报,2014,28(6):48-55. 被引量：6
8万常选,江腾蛟,钟敏娟,边海容.基于词性标注和依存句法的Web金融信息情感计算[J].计算机研究与发展,2013,50(12):2554-2569. 被引量：17
9陈宏朝,李飞,朱新华,马润聪.基于路径与深度的同义词词林词语相似度计算[J].中文信息学报,2016,30(5):80-88. 被引量：29

二级参考文献109

1左家莉,王明文,王希.基于Markov网络的信息检索扩展模型[J].清华大学学报（自然科学版）,2005,45(S1):1847-1852. 被引量：9
2王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
3董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：59
4李国林,万常选,边海容,杨莉,钟敏娟.基于语素的金融证劵域文本情感探测[J].计算机研究与发展,2011,48(S3):54-59. 被引量：7
5梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
6刘德荣 ,王永成 ,刘传汉 .基于主题概念的多文档自动摘要研究[J].情报学报,2005,24(1):69-74. 被引量：7
7张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
8李良富,樊孝忠,李宏乔.语义相似计算驱动领域自动问答[J].北京理工大学学报,2005,25(11):958-962. 被引量：5
9赵军,金千里,徐波.面向文本检索的语义计算[J].计算机学报,2005,28(12):2068-2078. 被引量：28
10余正涛,樊孝忠,郭剑毅,耿增民.基于潜在语义分析的汉语问答系统答案提取[J].计算机学报,2006,29(10):1889-1893. 被引量：44

共引文献137

1贾善崇,周兰江,张建安,周枫.融入多特征的汉-老双语对齐方法[J].中国水运（下半月）,2020,20(3):78-80. 被引量：2
2余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：10
3熊李艳,陈建军,钟茂生.基于E-A-V结构的概念图匹配算法[J].计算机应用研究,2014,31(8):2290-2293. 被引量：5
4翟继友.一种混合型的句子语义相似度计算方法[J].科学技术与工程,2014,22(28):81-85. 被引量：4
5朱宝华.基于HowNet的用户兴趣挖掘研究及应用[J].计算机与数字工程,2014,42(10):1949-1951. 被引量：1
6翟继友.基于深度置信网络的语义相关度计算模型[J].科学技术与工程,2014,22(32):58-62. 被引量：4
7李景玉,张仰森,陈若愚.面向用户查询意图的句子相似度分层计算[J].计算机科学,2015,42(1):227-231. 被引量：3
8秦春秀,祝婷,赵捧未,张毅.自然语言语义分析研究进展[J].图书情报工作,2014,58(22):130-137. 被引量：31
9李湘东,曹环,丁丛,黄莉.利用《知网》和领域关键词集扩展方法的短文本分类研究[J].现代图书情报技术,2015(2):31-38. 被引量：17
10李业刚,黄河燕,史树敏,冯冲,苏超.多策略机器翻译研究综述[J].中文信息学报,2015,29(2):1-9. 被引量：21

同被引文献19

1刘淑梅,桑书娟,山岚.文本过滤研究概述[J].信息技术,2009,33(9):187-189. 被引量：3
2林鸿飞,战学刚,姚天顺.文本结构分析与基于示例的文本过滤[J].小型微型计算机系统,2000,21(4):422-425. 被引量：23
3邓一贵,伍玉英.基于文本内容的敏感词决策树信息过滤算法[J].计算机工程,2014,40(9):300-304. 被引量：32
4刘梅彦,黄改娟.面向信息内容安全的文本过滤模型研究[J].中文信息学报,2017,31(2):126-131. 被引量：18
5陈二静,姜恩波.文本相似度计算方法研究综述[J].数据分析与知识发现,2017,1(6):1-11. 被引量：77
6赵胜辉,李吉月,徐碧,孙博研.基于TFIDF的社区问答系统问句相似度改进算法[J].北京理工大学学报,2017,37(9):982-985. 被引量：11
7黄姝婧,张仰森.基于多特征融合的句子相似度计算方法[J].北京信息科技大学学报（自然科学版）,2017,32(5):45-49. 被引量：3
8张仰森,郑佳,李佳媛.一种基于语义关系图的词语语义相关度计算模型[J].自动化学报,2018,44(1):87-98. 被引量：10
9谷重阳,徐浩煜,周晗,张俊杰.基于词汇语义信息的文本相似度计算[J].计算机应用研究,2018,35(2):391-395. 被引量：30
10吴克介,王家伟.基于知网与搜索引擎的词汇语义相似度计算[J].计算机与现代化,2018(4):90-94. 被引量：6

引证文献3

1徐智威.基于《知网》的词语相似度计算算法研究[J].包装世界,2018,0(4):101-102.
2翟社平,李兆兆,段宏宇,李婧,董迪迪.多特征融合的句子语义相似度计算方法[J].计算机工程与设计,2019,40(10):2867-2873. 被引量：14
3曹春萍,武婷.多主题下基于LSTM语义关联的长文本过滤研究[J].计算机技术与发展,2019,29(11):1-6. 被引量：4

二级引证文献18

1陈焕泽.基于隐马尔科夫模型的语音识别技术实现[J].数码世界,2019,0(12):17-17.
2李凡,白尚旺,党伟超,潘理虎.基于Do-Bi-LSTM模型的电子政务文本相似度评估模型[J].计算机与现代化,2020,0(7):71-75. 被引量：1
3付鹏斌,杨广越,杨惠荣.结合学科同义词与词向量的相似度评分算法[J].计算机工程与设计,2020,41(12):3390-3396. 被引量：3
4巫奕君,秦永红.基于相似度模型的英语机器翻译研究[J].现代科学仪器,2020(6):159-162. 被引量：1
5潘红丽.基于RNN弱监督网络的英语语义分析技术研究[J].电子设计工程,2021,29(15):97-101. 被引量：4
6杨延娇,赵国涛,王丕栋.基于语义与情感的句子相似度计算方法[J].计算机工程与应用,2021,57(16):151-158. 被引量：1
7左世亮,刘稳良.融合多源信息的平行语料库相似句段去重算法[J].计算机仿真,2021,38(8):344-347. 被引量：1
8田红鹏,马博,冯健.多模型加权融合的文本相似度计算[J].计算机工程与设计,2021,42(11):3239-3245. 被引量：7
9付鹏斌,刘曼,杨惠荣.结合学科情感分析与依存关系的相似度评分[J].计算机技术与发展,2022,32(2):32-38.
10袁绍正,周艳平.基于句子的多属性融合相似度计算方法[J].计算机系统应用,2022,31(4):303-308. 被引量：3

1“公信力”和“公信度”一样吗?[J].月读,2013,0(11):39-39.
2金科芳.符号学视角下汉语绰号的生成机制[J].新余学院学报,2018,23(1):73-77. 被引量：1
3谌志群,王冰,王荣波,黄孝喜.基于双向LSTM的图结构依存句法分析[J].杭州电子科技大学学报（自然科学版）,2018,38(1):43-48. 被引量：1
4马勋,周长胜,吕学强,周建设.基于SAO结构的非分类关系抽取研究[J].计算机工程与应用,2018,54(8):220-225. 被引量：7
5刘家霖,史舒扬,张悦眉,邵蓥侠,崔斌.社交网络高效高精度去匿名化算法[J].软件学报,2018,29(3):772-785. 被引量：5
6海客.汉、阿、法语构词法对比分析及其在对突尼斯学生汉语词汇教学中的应用[J].现代交际,2018,0(4):189-193.
7李科政.康德的实存问题与本体论批判——反驳当代几种典型的质疑[J].北京社会科学,2018(4):120-128. 被引量：4
8杨小彦,张晖,赵旭剑.基于特征词的领域知识起源研究[J].电脑与信息技术,2018,26(2):5-8.
9张丹,周俏丽,张桂平.基于语言学的依存分析结果动宾关系补全研究[J].计算机应用研究,2018,35(4):1062-1065.
10邱先标,陈笑蓉.一种基于特征加权的文本相似度计算算法[J].贵州大学学报（自然科学版）,2018,35(1):63-68. 被引量：4

计算机工程与设计

2018年第4期

浏览历史

内容加载中请稍等...

基于多谓词语义框架的长短语文本相似度计算被引量：3

参考文献9

二级参考文献109

共引文献137

同被引文献19

引证文献3

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于多谓词语义框架的长短语文本相似度计算 被引量：3

参考文献9

二级参考文献109

共引文献137

同被引文献19

引证文献3

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于多谓词语义框架的长短语文本相似度计算被引量：3