基于加权语义网的文本相似度计算方法研究被引量：3

Research on Computing Method of Text Similarity Based on Weighted Semantic Web

下载PDF

导出

摘要为了更加准确地计算文本特征权重,提高文本相似度计算的精确度,文章提出了一种基于《知网(HowNet)》语义知识库的加权语义复杂网络文本相似度计算方法.该方法首先以特征词为节点,以特征词窗口共现为边,以特征词的TF-IDF值为特征词节点的初始权重,以融合共现频率和概念间语义距离计算特征词节点之间边的权重,构建加权语义文本复杂网络.然后利用综合特征指数作为加权语义网中文本的特征权重.最后基于公开数据集和KNN算法进行文本聚类实验,实验结果表明,在基于F-度量值标准上本文提出的方法要优于传统基于向量空间模型的TF-IDF方法和另一种结合复杂网络权重的方法.

作者张弛周艳玲张贯虹 ZHANG Chi;ZHOU Yan-ling;ZHANG Guan-hong

机构地区合肥学院计算机科学与技术系

出处《赤峰学院学报（自然科学版）》 2019年第5期19-23,共5页 Journal of Chifeng University(Natural Science Edition)

基金合肥学院重点教学研究项目(2018hfjyxm08) 安徽省自然科学基金青年项目(051308085QF115) 高校优秀青年人才支持计划重点项目(GXYQZD2016275)

关键词复杂网络特征词 KNN算法文本相似度 HOWNET

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1赵辉,刘怀亮,范云杰.复杂网络理论在中文文本特征选择中的应用研究[J].现代图书情报技术,2012(9):23-28. 被引量：17
2夏冰,李宝安,吕学强.综合词位置和语义信息的专利文本相似度计算[J].计算机工程与设计,2018,39(10):3087-3091. 被引量：8
3廖开际,杨彬彬.基于加权语义网的文本相似度计算的研究[J].情报杂志,2012,31(7):182-186. 被引量：10
4叶雪梅,毛雪岷,夏锦春,王波.文本分类TF-IDF算法的改进研究[J].计算机工程与应用,2019,55(2):104-109. 被引量：108
5葛斌,李芳芳,郭丝路,汤大权.基于知网的词汇语义相似度计算方法研究[J].计算机应用研究,2010,27(9):3329-3333. 被引量：66
6尹丽英,赵捧未.基于语义网络社团划分的中文文本分类研究[J].图书情报工作,2014,58(19):124-128. 被引量：7
7赵京胜,张丽,肖娜.基于复杂网络的中文文本关键词提取研究[J].青岛理工大学学报,2018,39(3):102-108. 被引量：4
8杜坤,刘怀亮,郭路杰.结合复杂网络的特征权重改进算法研究[J].现代图书情报技术,2015(11):26-32. 被引量：6
9张硕望,欧阳纯萍,阳小华,刘永彬,刘志明.融合《知网》和搜索引擎的词汇语义相似度计算[J].计算机应用,2017,37(4):1056-1060. 被引量：16
10周源,刘怀兰,杜朋朋,廖岭.基于改进TF-IDF特征提取的文本分类模型研究[J].情报科学,2017,35(5):111-118. 被引量：51

二级参考文献108

1靳小波.文本分类综述[J].自动化博览,2006,23(z1):24-29. 被引量：16
2徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
3耿焕同,蔡庆生,赵鹏,于琨.一种基于词共现图的文档自动摘要研究[J].情报学报,2005,24(6):651-656. 被引量：15
4刘里,何中市.基于关键词语的文本特征选择及权重计算方案[J].计算机工程与设计,2006,27(6):934-936. 被引量：12
5张承立,陈剑波,齐开悦.基于语义网的语义相似度算法改进[J].计算机工程与应用,2006,42(17):165-166. 被引量：38
6张雪英.基于机器学习的文本自动分类研究进展[J].情报学报,2006,25(6):730-739. 被引量：11
7席运江,党延忠.基于加权知识网络的个人知识存量表示与度量方法[J].管理学报,2007,4(1):28-31. 被引量：8
8李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
9李佳,祝铭,刘辰,杨正球.中文本体映射研究与实现[J].中文信息学报,2007,21(4):27-33. 被引量：10
10夏天.汉语词语语义相似度计算研究[J].计算机工程,2007,33(6):191-194. 被引量：63

共引文献273

1余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：10
2严娇,马静,房康.基于融合共现距离的句法网络下文本语义相似度计算[J].数据分析与知识发现,2019,3(12):93-100. 被引量：3
3吴晓春,洪晨,张岳.高校实验仪器与设备管理问答系统[J].中国科技论文在线精品论文,2023(2):179-185.
4侯宇豪,杨维芳,马文骏,王卓,余懿韬,闫香蓉,闫浩文.一种利用VSM检索微地图的方法[J].测绘科学,2023,48(12):225-233.
5叶焕倬,吴迪.基于改进编辑距离的相似重复记录清理算法[J].现代图书情报技术,2011(7):82-90. 被引量：7
6孙喜来,王欣,葛昂,郑家民,邓宏斌.面向相似度的多维异构数据比对模型研究[J].信息安全与技术,2011,2(9):71-76.
7张瑞霞,杨国增,吴慧欣.基于《知网》的汉语未登录词语义相似度计算[J].中文信息学报,2012,26(1):16-21. 被引量：8
8何莉.改革开放的弄潮者——记大朗镇经济发展总公司[J].东莞科技,2000(3):29-29.
9孙海霞,吴英杰,李军莲,李丹亚.中文关键词-主题词自动映射方法研究综述[J].医学信息学杂志,2012,33(3):47-52. 被引量：2
10马建国,杨金山,赵静,赵秀云.综合物探在宾州浸出油厂找水的应用[J].黑龙江水利科技,2000,28(2):64-65.

同被引文献19

1蔡文,杨春燕.可拓学的基础理论与方法体系[J].科学通报,2013,58(13):1190-1199. 被引量：206
2盛步云,张成雷,卢其兵,李新龙,程旭东.云制造服务平台供需智能匹配的研究与实现[J].计算机集成制造系统,2015,21(3):822-830. 被引量：28
3索俊锋,刘勇.基于农业本体的语义相似度算法及其在农作物本体中的应用[J].农业工程学报,2016,32(16):175-182. 被引量：7
4郑志蕴,阮春阳,李伦,李钝.本体语义相似度自适应综合加权算法研究[J].计算机科学,2016,43(10):242-247. 被引量：15
5池哲洁,张全.基于概念基元的词语相似度计算研究[J].电子与信息学报,2017,39(1):150-158. 被引量：4
6张硕望,欧阳纯萍,阳小华,刘永彬,刘志明.融合《知网》和搜索引擎的词汇语义相似度计算[J].计算机应用,2017,37(4):1056-1060. 被引量：16
7汪卫星.云制造资源语义描述和服务匹配策略[J].重庆大学学报（自然科学版）,2017,40(5):1-6. 被引量：11
8文家富,郭伟,邵宏宇.基于领域本体和CBR的案例知识检索方法[J].计算机集成制造系统,2017,23(7):1377-1385. 被引量：32
9张立波,孙一涵,罗铁坚.一种基于大规模知识库的语义相似性计算方法[J].计算机研究与发展,2017,54(11):2576-2585. 被引量：14
10卢玲,杨武,杨有俊,陈梦晗.结合语义扩展和卷积神经网络的中文短文本分类方法[J].计算机应用,2017,37(12):3498-3503. 被引量：19

引证文献3

1杨春蕾.基于可拓语义的农产品生产销售知识检索[J].新一代信息技术,2020,3(21):14-20.
2杨春蕾.一种可拓语义分析的农产品生产销售知识检索方法[J].新一代信息技术,2021,4(6):43-49.
3高慧星.语义网中基于相似度计算的本体映射研究[J].网络安全技术与应用,2022(2):41-42.

1涂曼姝,潘接林.关于深度神经网络在交叉领域的情感分类任务中的可迁移性探究[J].情报工程,2018,4(6):13-24. 被引量：1
2张自锋,周育忠,陶秀杰.文本相似度指标分析及文本相似性分析方法研究[J].信息系统工程,2019,32(4):147-147. 被引量：2
3王艳茹,马慧芳,刘海姣,魏家辉.基于多标签语义关联关系的微博用户兴趣建模方法[J].计算机工程与科学,2018,40(11):2067-2073. 被引量：5
4谢万里,李宏志,周辉,尹绍武.基于迁移学习与卷积神经网络的鱼濒死预警系统研究[J].中国农机化学报,2019,40(2):186-192. 被引量：9
5于瑞云,薛林,安轩邈,夏兴有.基于改进GA-BP的移动通信用户流失预测算法[J].东北大学学报（自然科学版）,2019,40(2):180-185. 被引量：6
6王思博,王裴岩,张桂平.航空术语语义知识库辅助构建方法[J].中文信息学报,2018,32(12):57-66. 被引量：4
7刘翔鹏.基于KNN算法建模的法人银行机构不良资产分类研究[J].品牌研究,2018(3):195-195.
8罗衎,马佳佳.基于文档结构的特征权重计算方法研究[J].软件导刊,2019,18(5):65-68.
9李开成,王翼娴.基于双语LDA的列控系统需求规范差异性分析[J].铁道通信信号,2019,55(4):1-5. 被引量：1
10蔡天鸿,邓金,史国阳,朱晋,怀丽波.基于TF-IDF方法的文本人物群体人格分析方法[J].计算机应用与软件,2019,36(5):35-38. 被引量：7

赤峰学院学报（自然科学版）

2019年第5期

浏览历史

内容加载中请稍等...

基于加权语义网的文本相似度计算方法研究被引量：3

参考文献12

二级参考文献108

共引文献273

同被引文献19

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于加权语义网的文本相似度计算方法研究 被引量：3

参考文献12

二级参考文献108

共引文献273

同被引文献19

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于加权语义网的文本相似度计算方法研究被引量：3