基于内容的中文网页自动分类研究被引量：5

RESEARCH ON THE CONTENT BASED CHINESE WEB PAGES AUTOMATIC CLASSIFICATION

下载PDF

导出

摘要本文主要介绍基于内容的网页自动分类系统 ,具体介绍了类别词典的建造方法 ,网页超文本类别词切分的方法 ,中文网页自动分类算法以及利用类别词与网页间的模糊关系对网页文本进行自动分类等内容 .通过对旅游网页进行测试 ,自动分类正确率可达 93.37%以上。 This paper mainly introduces a content based web pages automatic classification system. Especially, it discusses the method of web pages

作者张义忠赵明生朱精南

机构地区清华大学电子工程系

出处《信息与控制》 CSCD 北大核心 2001年第5期408-412,共5页 Information and Control

基金清华大学 985项目基金国家自然科学基金( 6 0 0 0 30 14 ) 863-317-0 1-0 6 -99项目资助

关键词自动分类信息检索中文网页计算机网络 extraction, the automatic classification algorithm of Chinese web pages. The algorithm decides on membership function of indexing descriptors belonging in each of classification by statistics and classifies archives with fuzzy relation. The res

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1成颖,史九林.自动分类研究现状与展望[J].情报学报,1999,18(1):20-26. 被引量：37
2朱兰娟.中文文献自动分类的理论与实践[J].情报学报,1987,6(6):433-437. 被引量：9
3许建潮,胡明.文书类档案的分类标引研究[J].情报学报,1999,18(3):241-244. 被引量：7
4何新贵,彭甫阳.中文文本的关键词自动抽取和模糊分类[J].中文信息学报,1999,13(1):9-15. 被引量：54
5叶新明,徐进鸿.中文文献自动分类研究[J].情报科学,1992,13(5):31-34. 被引量：18
6刘开瑛,郑家恒,刘静.基于《金融档案分类表》的自动分类算法研究[J].情报学报,1997,16(5):346-353. 被引量：7

二级参考文献44

1苏新宁.汉语文献自动标引综析[J].情报学报,1993,12(4):309-318. 被引量：18
2李欣,陈星.基于中文科技图书的图书分类专家系统设计[J].现代图书情报技术,1994(4):24-28. 被引量：6
3张炳恒,刘金芝,陈煦,江瑞兰.微机图书分类编目自动化系统[J].图书馆工作与研究,1989(4):13-19. 被引量：5
4周强.基于语料库和面向统计学的自然语言处理技术[J].计算机科学,1995,22(4):36-40. 被引量：25
5苏新宁,徐进鸿,史九林.档案自动分类算法研究[J].情报学报,1995,14(3):194-200. 被引量：11
6叶新明.基于《中图法》的中文文献自动分类[J].情报学报,1995,14(6):423-433. 被引量：11
7王挺,陈火旺,史晓东.语料库和机器翻译[J].计算机科学,1996,23(2):52-55. 被引量：8
8邓要武,王连俊.图书自动分类专家系统可行性研究[J].图书情报工作,1996,40(5):23-24. 被引量：4
9何新贵，模糊知识处理的理论与技术（第2版），1998年
10Peng Fuyang，Pacific Asian Conf Expert Systems，1995年，98页

共引文献105

1苏武华.汉语自动分词和自动标引方法研究[J].农业图书情报学刊,2004,15(7):103-105. 被引量：4
2许增福,梁静国,田晓宇.基于加权模糊推理网络的文本自动分类方法[J].哈尔滨工程大学学报,2004,25(4):504-508. 被引量：1
3朱丽红,赵燕平.Web挖掘研究综述[J].情报杂志,2004,23(7):2-5. 被引量：16
4高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
5张爱丽,刘广利,刘长宇.基于SVM的多类文本分类研究[J].情报杂志,2004,23(9):6-7. 被引量：7
6侯汉清 ,章成志 ,郑红 .Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92. 被引量：32
7徐进鸿.文献自动分类的一种算法[J].现代图书情报技术,1993(3):25-28. 被引量：1
8江志雄,丁岳伟.基于K-近邻方法的网络信息文本分类[J].上海理工大学学报,2005,27(1):83-86. 被引量：2
9李欣,陈星.基于中文科技图书的图书分类专家系统设计[J].现代图书情报技术,1994(4):24-28. 被引量：6
10王理达.电子政务中中文文本分类技术的应用[J].大众科技,2005,7(1):23-25.

同被引文献22

1唐振民,靳从,杨静宇,李远复.一种用于自动标引系统的主题词自动切分方法[J].南京理工大学学报,1995,19(5):401-404. 被引量：2
2Jiawei Han, Micheline Kamber. Data Mining Concepts and Techniques[ M]. Morgan Kaufmann Publishers,2001.
3S Brin, L Page. The Anatomy of a Large-seale Hypertextual Web Search Engine [ A ]. Proc of the 7th World-Wide Web Conf (WWW7) [C]. 1998.
4Arul Prakash Asirvatham,Kraanthi Kumar Ravi. Web Page Classification Based on Document Structure[ EB/OL]. citeseer. ist. psu.edu/asirvatham01 web. html, 2001 - 05.
5Craig Utley. SQL Server 2000 Web Application Developer's Guide [M]. McGraw-Hill, 2001.
6林杰斌刘明德陈湘.数据挖掘与OLAP[M].北京:清华大学出版社,2003..
7边肇祺张学工.模式识别[M].北京：清华大学出版社,1999.282-283.
8P Turney.Learning to Extract Keyphrases from Text[EB/OL].National Research Council of Canada(1999),http://arxiv.org/ftp/cs/papers/0212/0212013.pdf.
9沈小建,许景红.清华同方主题词、分类号智能检索系统(医学专业)[J/OL].中国期刊网CNKI数字图书馆,2005.
10http://linux.tcpip.com.cn/article/index.php?func=detail&par=14&parentid=159&start=16&s=0,2005-03[EB/OL].

引证文献5

1郭庚麒,陈启买.一个基于Web挖掘的中文专业搜索引擎的设计与实现[J].计算机工程与科学,2004,26(9):16-20. 被引量：6
2罗杰,陈力,夏德麟,王凯.基于新的关键词提取方法的快速文本分类系统[J].计算机应用研究,2006,23(4):32-34. 被引量：17
3叶帮利.特教网络资源自动搜集整理机器人的开发研究[J].电脑知识与技术,2006(9):76-76. 被引量：2
4刘钦创.财经类专业搜索引擎关键技术的设计与实现[J].韩山师范学院学报,2008,29(3):22-25. 被引量：1
5刘红.利用扩展锚点文本来分类网页[J].计算机应用研究,2004,21(3):112-113. 被引量：1

二级引证文献27

1李乐强,唐常杰,左劼,邱源枞,段磊,李川.基于同现度和自学习的中文字符组合发现[J].计算机研究与发展,2007,44(z3):268-272. 被引量：2
2刘红,邵晓良,胡吉兵.基于页面内容和链接结构的超链接主题预测算法[J].现代图书情报技术,2005(5):41-45. 被引量：1
3熊化宇.谈网络信息采集过程中的质量控制[J].情报杂志,2005,24(12):71-73. 被引量：1
4李盛瑜,何文.一种对聊天文本进行特征选取的方法研究[J].计算机科学,2007,34(5):202-204.
5化柏林.知识抽取中的停用词处理技术[J].现代图书情报技术,2007(8):48-51. 被引量：39
6吕林霞,张明新.基于Web挖掘的专业文本特征提取方法研究[J].兰州石化职业技术学院学报,2007,7(3):33-35. 被引量：1
7刘斓冰,高学东,王沙骋.基于Web的文本信息挖掘技术[J].情报探索,2007(7):121-123. 被引量：2
8朱恒民,马静,黄卫东.基于领域本体的中文Web文本主题特征抽取方法[J].情报理论与实践,2008,31(2):286-288. 被引量：5
9李伟通,皮德常.基于统计学习的自然语言对话系统的设计与实现[J].微计算机应用,2008,29(7):38-46.
10叶帮利.数字图书馆看门狗设计与实现[J].电脑开发与应用,2009,22(7):33-34.

1盛魁,赵鹏.中文网页自动分类综述[J].电脑知识与技术,2010,6(9X):7558-7560. 被引量：2
2贾泂,梁久祯.基于支持向量机的中文网页自动分类[J].计算机工程,2005,31(10):145-147. 被引量：12
3廖文军,叶喜民.中文网页自动分类系统研究[J].新乡师范高等专科学校学报,2007,21(2):67-69.
4郑津,景彦昊.中文网页自动分类构架设计[J].福建电脑,2014,30(4):153-154. 被引量：1
5徐德智,阳绿云.中文网页自动分类研究[J].计算机工程与科学,2001,23(6):33-35. 被引量：3
6陈国珍,丁公才.一种MIS的三级建造方法[J].软件开发与应用,1992(2):13-15.
7孔令成,郑诚,吴永俊.一种基于VSM的中文网页分类方法[J].信息化纵横,2009(17):56-58.
8张高胤,谭成翔,汪海航.基于K-近邻算法的网页自动分类系统的研究及实现[J].计算机技术与发展,2007,17(1):21-23. 被引量：2
9胡燕,吴虎子,钟珞.基于改进的kNN算法的中文网页自动分类方法研究[J].武汉大学学报（工学版）,2007,40(4):141-144. 被引量：20
10谭立球,谷士文,费耀平.一个网页自动分类系统的设计[J].计算技术与自动化,2002,21(1):58-61. 被引量：2

信息与控制

2001年第5期

浏览历史

内容加载中请稍等...

基于内容的中文网页自动分类研究被引量：5

参考文献6

二级参考文献44

共引文献105

同被引文献22

引证文献5

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于内容的中文网页自动分类研究 被引量：5

参考文献6

二级参考文献44

共引文献105

同被引文献22

引证文献5

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于内容的中文网页自动分类研究被引量：5