期刊文献+

基于句中词语间关系的文本向量化算法 被引量:4

Document Vectorization based on Relationship of Words
原文传递
导出
摘要 文本向量化是将文本转化为向量的代数模型建立过程,在文本处理领域具有重要的应用价值,是文本数据挖掘算法的关键环节。在著名的PageRank算法基础上,提出一种基于句中词语间关系的文本向量化算法。通过引入语义层面的词语关联来克服传统的基于词频统计数据的向量化方法语义敏感度不佳的缺陷。在不同的语料测试集上的实验表明,基于句中词语间关系的文本向量化算法有更高的准确率。 Document vectorization is the process of building vector space model which has a number of potential applications on natural language processing. This paper describes an algorithm of vectorization through the relationships of word in a sentence based on the PageRank algorithm. The introduction of semantics relationship is then proposed to overcome the disadvantage of traditional statistics-based vectorization. Experimental results show that the new method has a better accuracy rate.
出处 《信息安全与通信保密》 2014年第4期84-88,共5页 Information Security and Communications Privacy
基金 国家自然科学基金资助项目(批准号:61272441 61171173)
关键词 向量模型 文本表示 PAGERANK 词语关系 vector space model text representation PageRank word relationship
  • 相关文献

参考文献11

  • 1PAGE L,BRIN S,MOTWANI R,et al.PageRank:Bringing Order to the Web[J].Available at:www// pcd.stanford,edu/-page/papers/pagerank.Accessed:January,1997,29:2001.
  • 2MIHALCEA R,TARAU P.TextRank:Bringing Order into Texts[C]//Proceedings of EMNLP.2004,4(4).
  • 3李鹏,王斌,石志伟,等.Tag-TextRank:一种基于Tag的网页关键词抽取方法[C]∥第六届全国信息检索学术会议论文集,2010.
  • 4CLARK S.Vector Space Models of Lexical Meaning[J].Handbook of Contemporary Semantics-second Edition.Wiley-Blackwell,2012.
  • 5张越龄.单文档关键词自动提取方法述评[J].信息工程期刊(中英文版),2013,3(1):1-7. 被引量:2
  • 6LU W,CHENG Q,LIOMA C.Fixed Versus Dynamic Co-occurrence Windows in TextRank Term Weights for Information Retrieval[C]//Proceedings of the 35th International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2012:1079-1080.
  • 7杨陟卓,黄河燕.基于词语距离的网络图词义消歧[J].软件学报,2012,23(4):776-785. 被引量:22
  • 8BARRERA A,VERMA R.Combining Syntax and Semantics for Automatic Extractive Single-document Summarization[M]// Computational Linguistics and Intelligent Text Processing.Springer Berlin Heidelberg,2012:366-377.
  • 9蒋昌金,彭宏,陈建超,马千里,严桂夺.基于组合词和同义词集的关键词提取算法[J].计算机应用研究,2010,27(8):2853-2856. 被引量:18
  • 10娄玉娟,徐慧.中文文本关键词抽取方法的研究[J].企业技术开发(下半月),2011(4):106-107. 被引量:1

二级参考文献27

共引文献82

同被引文献39

引证文献4

二级引证文献23

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部