基于句中词语间关系的文本向量化算法被引量：4

Document Vectorization based on Relationship of Words

导出

摘要文本向量化是将文本转化为向量的代数模型建立过程,在文本处理领域具有重要的应用价值,是文本数据挖掘算法的关键环节。在著名的PageRank算法基础上,提出一种基于句中词语间关系的文本向量化算法。通过引入语义层面的词语关联来克服传统的基于词频统计数据的向量化方法语义敏感度不佳的缺陷。在不同的语料测试集上的实验表明,基于句中词语间关系的文本向量化算法有更高的准确率。 Document vectorization is the process of building vector space model which has a number of potential applications on natural language processing. This paper describes an algorithm of vectorization through the relationships of word in a sentence based on the PageRank algorithm. The introduction of semantics relationship is then proposed to overcome the disadvantage of traditional statistics-based vectorization. Experimental results show that the new method has a better accuracy rate.

作者许阳刘功申孟魁

机构地区上海交通大学信息安全工程学院

出处《信息安全与通信保密》 2014年第4期84-88,共5页 Information Security and Communications Privacy

基金国家自然科学基金资助项目(批准号:61272441 61171173)

关键词向量模型文本表示 PAGERANK 词语关系 vector space model text representation PageRank word relationship

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1PAGE L,BRIN S,MOTWANI R,et al.PageRank:Bringing Order to the Web[J].Available at:www// pcd.stanford,edu/-page/papers/pagerank.Accessed:January,1997,29:2001.
2MIHALCEA R,TARAU P.TextRank:Bringing Order into Texts[C]//Proceedings of EMNLP.2004,4(4).
3李鹏,王斌,石志伟,等.Tag-TextRank:一种基于Tag的网页关键词抽取方法[C]∥第六届全国信息检索学术会议论文集,2010.
4CLARK S.Vector Space Models of Lexical Meaning[J].Handbook of Contemporary Semantics-second Edition.Wiley-Blackwell,2012.
5张越龄.单文档关键词自动提取方法述评[J].信息工程期刊（中英文版）,2013,3(1):1-7. 被引量：2
6LU W,CHENG Q,LIOMA C.Fixed Versus Dynamic Co-occurrence Windows in TextRank Term Weights for Information Retrieval[C]//Proceedings of the 35th International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2012:1079-1080.
7杨陟卓,黄河燕.基于词语距离的网络图词义消歧[J].软件学报,2012,23(4):776-785. 被引量：22
8BARRERA A,VERMA R.Combining Syntax and Semantics for Automatic Extractive Single-document Summarization[M]// Computational Linguistics and Intelligent Text Processing.Springer Berlin Heidelberg,2012:366-377.
9蒋昌金,彭宏,陈建超,马千里,严桂夺.基于组合词和同义词集的关键词提取算法[J].计算机应用研究,2010,27(8):2853-2856. 被引量：18
10娄玉娟,徐慧.中文文本关键词抽取方法的研究[J].企业技术开发（下半月）,2011(4):106-107. 被引量：1

二级参考文献27

1钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
2郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量：41
3唐培丽,王树明,胡明.基于语义的汉语文献主题词提取算法研究[J].吉林大学学报（信息科学版）,2005,23(5):535-540. 被引量：16
4姜亚莉,关泽群.用于Web文档聚类的基于相似度的软聚类算法[J].计算机工程,2006,32(2):59-61. 被引量：6
5耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
6索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
7张敏,耿焕同,王煦法.一种利用BC方法的关键词自动提取算法研究[J].小型微型计算机系统,2007,28(1):189-192. 被引量：19
8刘佳宾,陈超,邵正荣,吉翔华.基于机器学习的科技文摘关键词自动提取方法[J].计算机工程与应用,2007,43(14):170-172. 被引量：15
9程涛,施水才,王霞,吕学强.基于同义词词林的中文文本主题词提取[J].广西师范大学学报（自然科学版）,2007,25(2):145-148. 被引量：11
10中国科学院计算技术研究所.汉语词法分析系统ICTCLAS2009版[EB/OL].http://ictclas.org/,2009-02-19/2009-07-06.

共引文献82

1潘光友,李娅芳,许易琦.学术论文关键词的概念辨析和选词应注意问题[J].云南大学学报（自然科学版）,2011,33(S2):57-58. 被引量：6
2刘俊,邹东升,邢欣来,李英豪.基于主题特征的关键词抽取[J].计算机应用研究,2012,29(11):4224-4227. 被引量：30
3罗繁明,杨海深.大数据时代基于统计特征的情报关键词提取方法[J].情报资料工作,2013,34(3):64-68. 被引量：16
4罗灏,徐小良,吕跃华.科技项目申请书关键词提取方法[J].电子科技,2013,26(7):7-10. 被引量：1
5林满山,韩雪娇,宋威.基于多线程多重因子加权的关键词提取算法[J].计算机工程与设计,2013,34(7):2398-2402. 被引量：5
6曹瑛,王明文,涂伟,甘丽新.基于查询相关的近邻语言模型[J].山西大学学报（自然科学版）,2013,36(4):523-529.
7任莉莉,方元康.基于词汇链与互信息的关键词抽取研究[J].池州学院学报,2013,27(6):48-50. 被引量：1
8王锦波,王莲芝,高万林,喻健.一种改进的朴素贝叶斯关键词提取算法研究[J].计算机应用与软件,2014,31(2):174-176. 被引量：9
9曹瑛,王明文,涂伟,甘丽新.基于PageRank的Markov网络信息检索扩展模型[J].山西大学学报（自然科学版）,2014,37(1):12-18. 被引量：4
10刘运通,孙华.基于动态规划的简单语义单元词义消歧[J].计算机工程与设计,2014,35(4):1480-1485. 被引量：1

同被引文献39

1郝占刚,王正欧.基于潜在语义索引和遗传算法的文本特征提取方法[J].情报科学,2006,24(1):104-107. 被引量：16
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
3张文良,黄亚楼,倪维健.一种基于聚类的文本特征选择方法[J].计算机应用,2007,27(1):205-206. 被引量：10
4李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
5王飒,郑链.基于Fisher准则和特征聚类的特征选择[J].计算机应用,2007,27(11):2812-2813. 被引量：21
6Edward Loper, Ewan Klein, Steven Bird.Natural Language Processin~ with Python[M].Stanford.July 2007.
7周志华.MachineLearning[M]请华大学出版社.2016.
8Christopher D. Manning,Prabhakar Raghavan ,Hinrich SchutzeAn.In- troductiontolnformationRetrieval [M].Cambridge University PressCam- bridge.2009.
9Matic Perovsek, Janez Kranjc, Tomaz Erjavec, Bojan Cesmik, NadaLavrac.TextFlows: A visual programming platform for text mining and nat- ural language processing[J J.Science of Computer Programming.2016.
10李荣路.文本分类及其相关技术研究[J].复旦大学.2005.

引证文献4

1韦文娟,韩家新,夏海洋.基于Python自然语言处理的文本分类研究[J].福建电脑,2016,32(7):4-5. 被引量：4
2徐冠华,赵景秀,杨红亚,刘爽.文本特征提取方法研究综述[J].软件导刊,2018,17(5):13-18. 被引量：16
3谢积鉴,李荣,唐青青,胡婷婷,钟雪梅.文献资源分类、存储过程中的特征提取选择方法研究[J].中国科技纵横,2022(20):101-103.
4田郸郸.基于谱哈希的大规模网页分类算法[J].软件工程与应用,2016,5(1):65-74. 被引量：3

二级引证文献23

1廖一星,严素蓉.基于Python的中文文本分类的实现[J].福建电脑,2016,32(12):6-6. 被引量：3
2王超,宋文爱,富丽贞,张晶亮.基于信息熵的医疗概念语义相似度算法[J].计算机工程与设计,2017,38(6):1491-1495. 被引量：2
3罗京丽,唐黎哲.DPSM:可扩展高效的分布式子图匹配方法[J].计算机工程与设计,2017,38(8):2161-2166.
4夏玉芹,单雪微.基于Python的简单文本情感分析[J].阴山学刊（自然科学版）,2018,32(4):58-62. 被引量：15
5王根生,黄学坚,吴小芳,胡向亮.基于改进信息增益特征选择法的SVM中文情感分类算法[J].成都理工大学学报（自然科学版）,2019,46(1):105-110. 被引量：4
6邓文祥,何德智,陈桂萍,敬勇,张文安,黄惠勇.运用Python优化证素辨证心系疾病诊疗系统的思考[J].中国中医药现代远程教育,2019,17(11):130-133. 被引量：7
7杜若鹏,鲜国建,寇远涛.基于改进TF-IDF-CHI算法的农业科技文献文本特征抽取[J].数字图书馆论坛,2019(8):18-24. 被引量：9
8韦灵,倪志平.基于自然语言处理和机器学习的文本分类及其运用[J].科技视界,2019,0(27):88-89. 被引量：4
9刘成锴,王斌君,吴勇.基于遗传算法的文本特征选择[J].科学技术与工程,2019,19(33):302-307. 被引量：15
10曹梦舟,张艳.基于卷积-长短期记忆网络的电能质量扰动分类[J].电力系统保护与控制,2020,48(2):86-92. 被引量：37

1香草.千里电脑一线牵你被遥控了吗?[J].电脑爱好者,2009(12):66-67.
2王贵新,郑孝宗,张浩然,张小川.基于Word2vec的短信向量化算法[J].电子科技,2016,29(4):49-52. 被引量：4
3廖浩,李志蜀,王秋野,张意.基于词语关联的文本特征词提取方法[J].计算机应用,2007,27(12):3009-3012. 被引量：10
4孙曰昕,马慧芳,师亚凯,崔彤.融合词语关联关系的自适应微博热点话题追踪算法[J].计算机应用,2014,34(12):3497-3501. 被引量：10
5谭郁松,伍复慧,吴庆波,陈微,孙晓利.面向CPU/MIC异构架构的K-Means向量化算法[J].计算机科学与探索,2014,8(6):641-652. 被引量：4
6杨威,朱福喜.基于聚类融合的标题文本聚类方法[J].计算机工程与应用,2015,51(15):129-133. 被引量：2
7孙丽娟.怎样利用CAD软件进行机械图纸的识别[J].经济技术协作信息,2003(13):39-39.
8周丽杰,于伟海,郭成.基于改进的TF-IDF方法的文本相似度算法研究[J].泰山学院学报,2015,37(3):18-22. 被引量：10
9郭连伟,郑启龙,黄胜兵,徐华叶.面向多簇架构DSP的树匹配向量化算法[J].计算机系统应用,2015,24(10):142-147.
10徐金龙,赵荣彩,丁锐.面向循环的混合向量化方法研究[J].小型微型计算机系统,2014,35(12):2764-2769. 被引量：4

信息安全与通信保密

2014年第4期

浏览历史

内容加载中请稍等...

基于句中词语间关系的文本向量化算法被引量：4

参考文献11

二级参考文献27

共引文献82

同被引文献39

引证文献4

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于句中词语间关系的文本向量化算法 被引量：4

参考文献11

二级参考文献27

共引文献82

同被引文献39

引证文献4

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于句中词语间关系的文本向量化算法被引量：4