基于Web挖掘的专业文本特征提取方法研究被引量：1

Study on Features Selection Algorithms of Topic Pages Automatic Classification Based on Web Mining

下载PDF

导出

摘要通过对专业信息自动分类的文本特征提取方法的分析研究,提出在文本分析时根据Web内容挖掘和结构挖掘的方法提取特征词条来建立文本特征空间,同时利用专业类别向量、专业词典技术可有效解决高维空间问题。 By analyzing and studying automatic classification features selection of topic web pages, this paper presents the point that VSM （Vector Space Model） can be built by web structure mining and content mining together during features collection in web pages analysis, in order to solve high - dimensionality problem, meanwhile, topic categorization vector and topic dictionary too are very practical to solve high -dimensionality problem.

作者吕林霞张明新

机构地区兰州工业高等专科学校计算机工程系

出处《兰州石化职业技术学院学报》 2007年第3期33-35,共3页 Journal of Lanzhou Petrochemical Polytechnic

基金 2005年甘肃省自然科学基金项目(3ZS051-A25-047)

关键词 WEB挖掘专业信息文档自动分类特征提取 Web mining topic information automatic classification of Web pages features selection

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1和亚丽,陈立潮.Web文本挖掘中的特征选取方法研究[J].计算机工程,2005,31(5):181-182. 被引量：14
2郭庚麒,陈启买.一个基于Web挖掘的中文专业搜索引擎的设计与实现[J].计算机工程与科学,2004,26(9):16-20. 被引量：6

二级参考文献10

1Jiawei Han, Micheline Kamber. Data Mining Concepts and Techniques[ M]. Morgan Kaufmann Publishers,2001.
2S Brin, L Page. The Anatomy of a Large-seale Hypertextual Web Search Engine [ A ]. Proc of the 7th World-Wide Web Conf (WWW7) [C]. 1998.
3Arul Prakash Asirvatham,Kraanthi Kumar Ravi. Web Page Classification Based on Document Structure[ EB/OL]. citeseer. ist. psu.edu/asirvatham01 web. html, 2001 - 05.
4Craig Utley. SQL Server 2000 Web Application Developer's Guide [M]. McGraw-Hill, 2001.
5林杰斌刘明德陈湘.数据挖掘与OLAP[M].北京:清华大学出版社,2003..
6Yang Y, Wilbur W J. Using Corpus Statistics to Remove Redundant Words in Text Categorization. In J. Amer. Soc. Inf Sci.,1996.
7Yang Y, Pedersen J O. A Comparative Study on Feature Selection in Text Categorization. KDD-2000 Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Boston,MA,UA, 2000.
8Galavotti L, Sebastiani F, Simi M. Feature Selection and Negative Evidence in Automated Text Categorization. KDD-2000 Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Boston,MA, UA, 2000.
9Mena J. Data Mining Your Website. America, 2000:368.
10张义忠,赵明生,朱精南.基于内容的中文网页自动分类研究[J].信息与控制,2001,30(5):408-412. 被引量：5

共引文献18

1熊化宇.谈网络信息采集过程中的质量控制[J].情报杂志,2005,24(12):71-73. 被引量：1
2王圆,孙铁利,李杨.Web文本挖掘中的特征表示和特征提取[J].电脑知识与技术,2006,1(5):67-68. 被引量：2
3陈思睿,张永,杨志勇.基于粗糙集的特征选择方法的研究[J].计算机工程与应用,2006,42(21):159-161. 被引量：7
4王艳,张帆,杨炳儒.基于Web挖掘的数字图书馆个性化技术研究[J].情报杂志,2007,26(1):37-38. 被引量：5
5刘斓冰,高学东,王沙骋.基于Web的文本信息挖掘技术[J].情报探索,2007(7):121-123. 被引量：2
6奉国和.自动文本分类技术研究[J].情报杂志,2007,26(12):108-111. 被引量：12
7刘彦保,王文发,王文东.基于聚类分析策略的Web文本挖掘方法[J].延安大学学报（自然科学版）,2007,26(4):22-25. 被引量：1
8闫鹏,郑雪峰,李明祥,陈松华.二值文本分类中基于Bayes推理的特征选择方法[J].计算机科学,2008,35(7):173-176. 被引量：10
9赵晓静.Web文本挖掘综述[J].电脑学习,2008(5):20-21. 被引量：1
10彭玉容,沈红岩,程芳.搜索引擎中的文本分类方法研究[J].中国新技术新产品,2008(17):21-21.

引证文献1

1文晖.基于JavaScript的异步响应技术在WEB应用程序中的实现[J].兰州石化职业技术学院学报,2008,8(2):15-17.

1邹涛,孙赛.文档自动分类技术及其实现[J].计算机系统应用,1999,8(4):37-38. 被引量：8
2刘红泉.自动分类技术研究[J].江西图书馆学刊,2005,35(1):72-73. 被引量：2
3丁光华,周继鹏,周敏.基于MapReduce的并行贝叶斯分类算法的设计与实现[J].微计算机信息,2010,26(9):190-191. 被引量：5
4檀林,张永奎.一种基于迭代学习的文本分类器构造方法[J].电脑开发与应用,2004,17(2):5-6.
5邹涛,王继成,黄源,张福炎.中文文档自动分类系统的设计与实现[J].中文信息学报,1999,13(3):26-32. 被引量：45
6方春平,管建和.基于多重数组的词典技术研究与实现[J].电脑知识与技术,2009,5(3X):2173-2174.
7金有道,孙虎,金可之.基于词典技术的知识库维护及重组织技术[J].机械工业自动化,1992,14(3):10-13.
8袁晓曦.基于机器学习的Web文本自动分类[J].软件导刊,2011,10(1):26-28. 被引量：3
9张小刚,杨凯,冉天保.中文WEB文档自动分类系统的设计与实现[J].微计算机信息,2008,24(30):244-246.
10赵震,马宗民,张富,林晓庆.基于双隐层极限学习机的模糊XML文档分类[J].计算机工程与应用,2017,53(4):19-24. 被引量：3

兰州石化职业技术学院学报

2007年第3期

浏览历史

内容加载中请稍等...

基于Web挖掘的专业文本特征提取方法研究被引量：1

参考文献2

二级参考文献10

共引文献18

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Web挖掘的专业文本特征提取方法研究 被引量：1

参考文献2

二级参考文献10

共引文献18

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Web挖掘的专业文本特征提取方法研究被引量：1