基于网页特征的特征词提取技术

Signature word extracting retrieval based on web feature

下载PDF

导出

摘要特征词提取是一项提炼整个web页面内容的实用技术,同时也为文本分类,信息抽取应用提供了技术支持.在web页面内容上,利用段落间语义关系划分出网页内容的篇章结构,并以此为基础使用网页的元数据和特殊标签,设计了一个特征词的加权函数,综合考虑了词频、词长和位置因子,最后,实验对比了各类位置因子对系统的贡献度.实验结果表明,改进方法的F1值比传统的TFIDF提取技术提高了15.5%,其中,位置因子中的标题,关键词和摘要因素对系统的贡献最大. Signature word extracting of the text is a useful technique which can abstract web page text, and it provides technical support for text classification, information extraction tasks. A web hierarchical structure is extracted through parsing the semantic relation between each adjacent paragraph in the web page contents. On the basis of the hierarchical structure, this paper uses the HTML metadata and special tags to design a weighting function, which is a combination of the factor of the frequency, length and location for a word. Meanwhile, an initial contrast analysis is carried out of various position factor about contributing degree to the system. Experimental results show that F1 value of improved method has increased by 15.5% than that of the traditional TFIDF extraction method. The contributing degree to the system of the title, abstract and keywords in the location thctor are the largest.

作者庞宁

机构地区太原科技大学应用科学学院

出处《西南民族大学学报（自然科学版）》 CAS 2014年第1期137-141,共5页 Journal of Southwest Minzu University(Natural Science Edition)

基金山西省自然科学基金(2012011011-4)

关键词特征词提取网页元数据加权函数 signature word extracting web metadata weighting function

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：378
2李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
3刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
4徐建民,刘清江,付婷婷,戴旭.基于量化同义词关系的改进特征词提取方法[J].河北大学学报（自然科学版）,2010,30(1):97-101. 被引量：5
5王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
6索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
7尤文建,李绍滋,李堂秋.基于词汇链的文本过滤模型[J].计算机应用研究,2003,20(9):32-35. 被引量：9

二级参考文献85

1陈群秀.一个在线义类词库:词网 WordNet[J].语言文字应用,1998(2):95-101. 被引量：31
2李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
3王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
4李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
5陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
6郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量：41
7王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
8邹娟,周经野,邓成,高南莎.特征词提取中同义处理的新方法[J].中文信息学报,2005,19(6):44-49. 被引量：10
9秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
10SAHAMIM. Usingmachine learning to improve information access[D]. Stanford, California: Stanford University, Computer Science Department, 1999.

共引文献616

1吴英杰,李军莲,孙海霞,王蕾,陈颖.基于著者共现的CBM机构名称规范研究[J].医学信息学杂志,2019,40(12):48-53. 被引量：3
2李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：4
3张博凯,李想.基于知识图谱的Android端农技智能问答系统研究[J].农业机械学报,2021,52(S01):164-171. 被引量：9
4罗益超,李争彦,张奇.基于句子选择的关键短语生成[J].中文信息学报,2021,35(8):64-72.
5姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
6李春妍,王勇.个性化服务中用户兴趣聚类算法研究[J].信息技术,2007,31(10):77-80. 被引量：3
7张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
8王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
9徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
10袁志坚,贾焰.基于误差反馈的高速Web文本流快速近似分类[J].计算机研究与发展,2007,44(z3):13-17.

1孙翔,潘廷勇,李祥秋,赵永超,崔曙光.基于规范文本的特征词提取技术研究[J].科技创新与生产力,2012(3):61-63.
2李俊州,武莹.基于改进K-medoids算法的科技文献特征选择方法[J].华中师范大学学报（自然科学版）,2015,49(4):541-545. 被引量：1
3邹娟,周经野,邓成,高南莎.特征词提取中同义处理的新方法[J].中文信息学报,2005,19(6):44-49. 被引量：10
4邓丹君,姚莉.基于改进TF-IDF的微博短文本特征词提取算法[J].软件导刊,2016,15(6):48-50. 被引量：7
5林岚岚.基于语法模式的评论特征词提取[J].广东水利电力职业技术学院学报,2014,12(4):24-26.
6唐立力.基于信息熵与动态聚类的文本特征选择方法[J].计算机工程与应用,2015,51(19):152-157. 被引量：3
7盛秋艳,何文广.一种改进的向量空间降维方法[J].黑龙江工程学院学报,2011,25(1):60-61. 被引量：1
8张彬,杨志晓.基于基准词的文本情感倾向性研究[J].电脑知识与技术（过刊）,2011,17(3X):1881-1883. 被引量：2
9胡燕,吴虎子,钟珞.基于改进的kNN算法的中文网页自动分类方法研究[J].武汉大学学报（工学版）,2007,40(4):141-144. 被引量：20
10翟东海,杜佳,崔静静,聂洪玉.基于双粒度模型的中文情感特征词提取研究[J].重庆邮电大学学报（自然科学版）,2014,26(3):380-384.

西南民族大学学报（自然科学版）

2014年第1期

浏览历史

内容加载中请稍等...

基于网页特征的特征词提取技术

参考文献7

二级参考文献85

共引文献616

相关作者

相关机构

相关主题

浏览历史