期刊文献+

一种面向科技项目文本的相似度度量方法 被引量:2

A similarity measurement method for science and technology project text
下载PDF
导出
摘要 现有的文本相似度度量方法主要采用TF-IDF方法,把文本建模为词频向量,但未考虑文本的结构特征。现将文本的结构特征和TF-IDF方法进行融合,提出了一种面向科技项目文本的相似度度量方法。该方法首先对文本进行预处理,其次根据文本的结构特征提取模块文本,然后使用TF-IDF方法提取每个模块文本的TOP-N关键词,作为模块文本的特征向量表示,最后使用余弦聚类计算文本的相似度。实验结果表明,在电力行业的科技项目文档数据集上,所提方法优于TF-IDF方法。 Existing text similarity measurements often use the TF-IDF method to model texts as term frequency vectors without considering the structural features of texts.This paper combines the structural features of texts with the TF-IDF method and proposes a text similarity measurement for science and technology project texts.This approach firstly pre-processes a text and extracts module texts according to its structural features.After applying the TF-IDF method to these extracted module texts,this method extracts the top keywords of each module text,obtains its feature vector representation,and finally uses cosine formula to calculate the similarity of two texts.By comparing with the TF-IDF method,experimental results show that the proposed method can promote the evaluation metrics of F-measure.
作者 赵晓平 马文 刘雪萍 陈达 Zhao Xiaoping;Ma Wen;Liu Xueping;Chen Da(Information Center,Yunnan Power Grid Co.,Ltd.,Kunming 650011,China;Yunnan Yundian Tongfang Technology Co.,Ltd.,Kunming 650220,China)
出处 《电子技术应用》 2020年第5期31-34,39,共5页 Application of Electronic Technique
基金 国家自然科学基金项目(61702442)。
关键词 文本相似度 TF-IDF 文本聚类 自然语言处理 text similarity TF-IDF text clustering natural language process
  • 相关文献

参考文献14

二级参考文献83

  • 1徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量:56
  • 2任靖,李春平.最小距离分类器的改进算法——加权最小距离分类器[J].计算机应用,2005,25(5):992-994. 被引量:30
  • 3徐淑平,林福宗.基于图像中心加权特征的图像检索[J].计算机应用与软件,2006,23(2):3-5. 被引量:13
  • 4Fung B C M,Wang K,Ester M.Hierarchical document clustering//Wang John ed.The Encyclopedia of Data Warehousing and Mining,idea Group.2005:970-975.
  • 5Salton G.The SMART Retrieval System-Experiments in Automatic Document Processing.Englewood Cliffs,New Jersey:Prentice Hall Inc,1971.
  • 6Wang Y,Julia H.Document clustering with semantic analysis//Proceedings of the 39th Hawaii International Conferences on System Sciences.Hawaii,US,2006:54-63.
  • 7Hotho A,Staab S,Stumme G.Wordnet improves text document clustering//Proceedings of the Semantic Web Workshop at SIGIR-2003,26th Annual International ACM SIGIR Conference.Toronto,Canada,2003:541-550.
  • 8Hall P,Dowling G.Approximate string matching.Computing Survey,1980,12(4):381-402.
  • 9Coelho T,Calado P,Souza L,Ribeiro-Neto B,Muntz R.Image retrieval using multiple evidence ranking.IEEETransactions on Knowledge and Data Engineering,2004,16(4):408-417.
  • 10Ko Y,Park J,Seo J.Improving text categorization using the importance of sentences.lnformation Processing and Management,2004,40(1):65-79.

共引文献376

同被引文献18

引证文献2

二级引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部