一种面向科技项目文本的相似度度量方法被引量：2

A similarity measurement method for science and technology project text

下载PDF

导出

摘要现有的文本相似度度量方法主要采用TF-IDF方法,把文本建模为词频向量,但未考虑文本的结构特征。现将文本的结构特征和TF-IDF方法进行融合,提出了一种面向科技项目文本的相似度度量方法。该方法首先对文本进行预处理,其次根据文本的结构特征提取模块文本,然后使用TF-IDF方法提取每个模块文本的TOP-N关键词,作为模块文本的特征向量表示,最后使用余弦聚类计算文本的相似度。实验结果表明,在电力行业的科技项目文档数据集上,所提方法优于TF-IDF方法。 Existing text similarity measurements often use the TF-IDF method to model texts as term frequency vectors without considering the structural features of texts.This paper combines the structural features of texts with the TF-IDF method and proposes a text similarity measurement for science and technology project texts.This approach firstly pre-processes a text and extracts module texts according to its structural features.After applying the TF-IDF method to these extracted module texts,this method extracts the top keywords of each module text,obtains its feature vector representation,and finally uses cosine formula to calculate the similarity of two texts.By comparing with the TF-IDF method,experimental results show that the proposed method can promote the evaluation metrics of F-measure.

作者赵晓平马文刘雪萍陈达 Zhao Xiaoping;Ma Wen;Liu Xueping;Chen Da(Information Center,Yunnan Power Grid Co.,Ltd.,Kunming 650011,China;Yunnan Yundian Tongfang Technology Co.,Ltd.,Kunming 650220,China)

机构地区云南电网有限责任公司信息中心云南云电同方科技有限公司

出处《电子技术应用》 2020年第5期31-34,39,共5页 Application of Electronic Technique

基金国家自然科学基金项目(61702442)。

关键词文本相似度 TF-IDF 文本聚类自然语言处理 text similarity TF-IDF text clustering natural language process

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献14

1殷晓雨,阿力木江·艾沙,库尔班·吾布力.基于卷积递归模型的文本分类研究[J].电子技术应用,2019,45(10):29-32. 被引量：2
2董蕊芳,柳长安,杨国田.一种基于改进TF-IDF的SLAM回环检测算法[J].东南大学学报（自然科学版）,2019,49(2):251-258. 被引量：11
3翟娟,汤震浩,李彬,赵建华,李宣东.常用循环摘要的自动生成方法及其应用[J].软件学报,2017,28(5):1051-1069. 被引量：2
4曾祥坤,张俊辉,石拓,邵可佳.基于主题提取模型的交通违法行为文本数据的挖掘[J].电子技术应用,2019,45(6):41-45. 被引量：7
5那海洋,杨庚,束晓伟.基于B^+树的多关键字密文排序检索方法[J].计算机科学,2017,44(1):149-154. 被引量：7
6王杨,王非凡,张舒宜,黄少芬,许闪闪,赵晨曦,赵传信.基于TF-IDF和改进BP神经网络的社交平台垃圾文本过滤[J].计算机系统应用,2019,28(3):126-132. 被引量：11
7叶雪梅,毛雪岷,夏锦春,王波.文本分类TF-IDF算法的改进研究[J].计算机工程与应用,2019,55(2):104-109. 被引量：103
8代飞,陈凤强,莫启,王炜,李彤,梁志宏.一种保持编排与参与者间行为一致的映射方法[J].软件学报,2018,29(5):1451-1470. 被引量：7
9代飞,赵文卓,杨云,莫启,李彤,周华.BPMN 2.0编排的形式语义和分析[J].软件学报,2018,29(4):1094-1114. 被引量：19
10杨传慧,吉根林,章志刚.AP算法在图像聚类中的应用研究[J].计算机与数字工程,2012,40(10):119-121. 被引量：6

二级参考文献83

1徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
2任靖,李春平.最小距离分类器的改进算法——加权最小距离分类器[J].计算机应用,2005,25(5):992-994. 被引量：30
3徐淑平,林福宗.基于图像中心加权特征的图像检索[J].计算机应用与软件,2006,23(2):3-5. 被引量：13
4Fung B C M,Wang K,Ester M.Hierarchical document clustering//Wang John ed.The Encyclopedia of Data Warehousing and Mining,idea Group.2005:970-975.
5Salton G.The SMART Retrieval System-Experiments in Automatic Document Processing.Englewood Cliffs,New Jersey:Prentice Hall Inc,1971.
6Wang Y,Julia H.Document clustering with semantic analysis//Proceedings of the 39th Hawaii International Conferences on System Sciences.Hawaii,US,2006:54-63.
7Hotho A,Staab S,Stumme G.Wordnet improves text document clustering//Proceedings of the Semantic Web Workshop at SIGIR-2003,26th Annual International ACM SIGIR Conference.Toronto,Canada,2003:541-550.
8Hall P,Dowling G.Approximate string matching.Computing Survey,1980,12(4):381-402.
9Coelho T,Calado P,Souza L,Ribeiro-Neto B,Muntz R.Image retrieval using multiple evidence ranking.IEEETransactions on Knowledge and Data Engineering,2004,16(4):408-417.
10Ko Y,Park J,Seo J.Improving text categorization using the importance of sentences.lnformation Processing and Management,2004,40(1):65-79.

共引文献376

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：11
2张新阳,帅强,李伟.基于高阶矩模型的电力负荷预测研究[J].云南大学学报（自然科学版）,2020,42(S02):60-64. 被引量：1
3张春辉,白翠芝,张蔓娴.基于小波的电力负荷异常检测[J].云南大学学报（自然科学版）,2020,42(S02):49-54. 被引量：11
4李零,杨捷,段明明.基于长短时记忆网络的电力故障维修效果情感分析[J].云南大学学报（自然科学版）,2020,42(S02):44-48. 被引量：2
5杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
6许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：3
7马文,杨铮宇,张梅.基于偏差熵的低压电力用户信用组合评价研究[J].云南大学学报（自然科学版）,2020,42(S02):1-5. 被引量：5
8赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
9吴晓春,洪晨,张岳.高校实验仪器与设备管理问答系统[J].中国科技论文在线精品论文,2023(2):179-185.
10孙红,黎铨祺,赵娜.基于双层树状支持向量机的观点挖掘与倾向分析[J].智能计算机与应用,2021,11(3):44-47. 被引量：3

同被引文献18

1赵秦怡,王丽珍.一种基于互信息的串扫描中文文本分词方法[J].情报杂志,2010,29(7):161-162. 被引量：10
2方延风.科技项目查重中特征词TF-IDF值计算方法的改进[J].情报探索,2012(1):1-3. 被引量：15
3张建娥.基于多特征融合的中文文本关键词提取方法[J].情报理论与实践,2013,36(10):105-108. 被引量：16
4李文坤,张仰森,陈若愚.基于词内部结合度和边界自由度的新词发现[J].计算机应用研究,2015,32(8):2302-2304. 被引量：34
5曾田日,王晋国.基于统计的云搜索中文分词算法[J].西北大学学报（自然科学版）,2015,45(4):568-572. 被引量：3
6陶金泽亚,吴凤羽.工业4.0背景下的个性化定制探讨[J].改革与开放,2015(21):17-18. 被引量：16
7罗燕,赵书良,李晓超,韩玉辉,丁亚飞.基于词频统计的文本关键词提取方法[J].计算机应用,2016,36(3):718-725. 被引量：73
8张新民,张爱霞,郑彦宁.科技项目查重系统构建研究[J].情报学报,2016,35(9):917-922. 被引量：4
9陈伟鹤,刘云.基于词或词组长度和频数的短中文文本关键词提取算法[J].计算机科学,2016,43(12):50-57. 被引量：14
10卢兆麟,王波,石清吟.面向汽车造型设计模糊前端的思维机制研究[J].汽车工程,2017,39(5):517-523. 被引量：3

引证文献2

1季曹婷,马伟锋,楼姣,马来宾.融合多特征TFIDF文本分析的汽车造型需求提取方法[J].电子技术应用,2021,47(2):16-19. 被引量：2
2李善青,安淑荻,邢晓昭.一种基于关联数据的科技项目查重系统[J].计算机与数字工程,2022,50(5):959-963.

二级引证文献2

1鞠清绘,刘炜祯,阮景奎.基于感性意象的概念汽车车身造型评价研究[J].包装工程,2023,44(4):270-276. 被引量：3
2苏佳幸,李伽熙,李睿思,李俊豪,赵云芸.基于文本数据的汽车造型需求分析[J].时代汽车,2023(21):150-153.

1方春,孙福振,李彩虹,宋莉.基于长短期记忆网络的抗癌肽的预测[J].山东理工大学学报（自然科学版）,2020,34(3):34-39. 被引量：1
2黄婵.基于语义词向量的自媒体短文本主题建模[J].计算机时代,2019,0(12):57-60.
3余本功,许庆堂,张培行.基于MAC-LSTM的问题分类研究[J].计算机应用研究,2020,37(1):40-43. 被引量：15
4彭文川,羊宣科,蔡克奇,吴科榜.海南特种野猪与屯昌黑猪肌肉挥发性风味化合物比较研究[J].黑龙江畜牧兽医,2020(1):125-130. 被引量：3

电子技术应用

2020年第5期

浏览历史

内容加载中请稍等...

一种面向科技项目文本的相似度度量方法被引量：2

参考文献14

二级参考文献83

共引文献376

同被引文献18

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

一种面向科技项目文本的相似度度量方法 被引量：2

参考文献14

二级参考文献83

共引文献376

同被引文献18

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

一种面向科技项目文本的相似度度量方法被引量：2