基于模糊近似度的Web文本过滤模型被引量：2

The Feature Acquiring Algorithm on The Web Text

下载PDF

导出

摘要 The booming growth of the Internet provides us a great deal of information resource. In this paper, we create a text filtering model based on VSM. In this model,Web text mming is an efficient technique,which discoveres valuable and potential knowledge from those unstructured texts. In this paper,we use VSM as the description of Web text and give a feature subset algorithm which is based on the Genetic Algorthm. This algorithm can greatly improve the efficiency of dealing with Web texts and give much better way to classify and cluster the texts. Our experiments show that this method is active well in feature dimension reduction. The booming growth of the Internet provides us a great deal of information resource. In this paper, we create a text filtering model based on VSM. In this model, Web text mining is an efficient technique,which discoveres valuable and potential knowledge from those unstructured texts. In this paper, we use VSM as the description of Web text and give a feature subset algorithm which is based on the Genetic Algorthm. This algorithm can greatly improve the efficiency of dealing with Web texts and give much better way to classify and cluster the texts. Our experiments show that this method is active well in feature dimension reduction.

作者刘明吉饶一梅王秀峰黄亚楼

机构地区南开大学信息技术科学学院

出处《计算机科学》 CSCD 北大核心 2001年第12期55-58,共4页 Computer Science

基金天津自然科学基金(003700111)和(993600811)

关键词 WWW WEB 文本过滤模型模糊近似度 INTERNET 数据库 VSM,Text filtering,Genetic algorithm,Text mining,KDD

分类号 TP393.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1张月杰,姚天顺.基于特征相关性的汉语文本自动分类模型的研究[J].小型微型计算机系统,1998,19(8):49-55. 被引量：21
2张晓辉,邵华,常桂然.WWW上的信息发现与搜索引擎技术[J].小型微型计算机系统,1998,19(6):66-71. 被引量：39
3王伟强,高文,段立娟.Internet上的文本数据挖掘[J].计算机科学,2000,27(4):32-36. 被引量：60
4王实,高文,李锦涛.Web数据挖掘[J].计算机科学,2000,27(4):28-31. 被引量：120
5王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量：275

二级参考文献15

1尹锋,林亚平.汉语自动分词技术的现状及发展趋势[J].软件世界,1996(12):80-84. 被引量：15
2卢宏恩，计算机科学，1996年，23卷，6期
3王春雷，中国教育和科研计算机网的研究与发展.1，1996年
4Liu J，Understanding WWW Search Tools
5刘东立，东北大学学报，1995年
6吴军，中文信息学报，1995年，9卷，4期
7姚天顺，自然语言理解，1995年
8刘湘生，中国分类主题词表，1994年
9梅家驹，同义词词林，1983年
10Chen M S，ICDCD，1998年，385页

共引文献463

1兰晓芳,刘霞,肖毅.基于Django的校友在线平台的设计与实现[J].办公自动化,2021,26(18):17-18. 被引量：3
2王志明,沙莎.Web文本挖掘技术在新闻主题检测中的应用研究[J].长沙大学学报,2007,21(5):58-60. 被引量：2
3徐妙君,顾沈明.面向Web的文本挖掘技术研究[J].控制工程,2003,10(z1):44-46. 被引量：4
4陈尧妃,倪应华,陈焕通.基于XML的Web挖掘框架设计[J].仪器仪表学报,2006,27(z3):2613-2614. 被引量：1
5张脂平,林世平.Web文本挖掘中特征提取算法的分析及改进[J].福州大学学报（自然科学版）,2004,32(z1):63-66. 被引量：1
6朱素媛,马溪俊,梁昌勇.人工智能技术在搜索引擎中的应用[J].合肥工业大学学报（自然科学版）,2003,26(z1):657-661. 被引量：17
7许亮,李明,梁素田,侯耕.数据挖掘技术在电子商务中的应用[J].甘肃科学学报,2002,14(S1):17-20. 被引量：1
8杨斌,孟志青.一种文本分类数据挖掘的技术[J].湘潭大学自然科学学报,2001,23(4):34-37. 被引量：10
9李爱国,白冰.基于内容图像检索的Web搜索器[J].郑州大学学报（理学版）,2009,41(2):60-62. 被引量：1
10李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20

同被引文献14

1Gudivada V N.Information Retrieval on the World Wide Web.IEEE Internet Computing,1 997,1(5):58-68
2Liu Mingji, Wang Xiufeng. A Knowledge Discovery Algorithm Based on Genetic Algorithm. The Third World Congress on Intelligent Control and Automation, IEEE, WCICA,2000
3张晓辉,邵华,常桂然.WWW上的信息发现与搜索引擎技术[J].小型微型计算机系统,1998,19(6):66-71. 被引量：39
4王伟强,高文,段立娟.Internet上的文本数据挖掘[J].计算机科学,2000,27(4):32-36. 被引量：60
5王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量：275
6刘明吉,王秀峰,饶一梅,黄亚楼.Web文本信息的特征获取算法[J].小型微型计算机系统,2002,23(6):683-686. 被引量：27
7徐丽芳,曾李.数字叙事与互动数字叙事[J].出版科学,2016,24(3):96-101. 被引量：54
8祝智庭,彭红超.深度学习：智慧教育的核心支柱[J].中国教育学刊,2017(5):36-45. 被引量：135
9马伊颀,段乐川.教育出版融合发展刍议:市场、产品和模式[J].中国编辑,2018(7):39-42. 被引量：12
10代杨,裴永刚.我国教育出版智能化知识服务转型探析[J].出版广角,2020(14):9-11. 被引量：5

引证文献2

1刘明吉.基于协同演化的文本特征获取算法[J].计算机工程,2005,31(4):85-87. 被引量：3
2王涵,江静怡,叶阳.数字教育出版与人工智能融合发展研究[J].出版广角,2022(16):71-75. 被引量：4

二级引证文献7

1庞景安.Web文本特征提取方法的研究与发展[J].情报理论与实践,2006,29(3):338-340. 被引量：17
2谭晓光.数据仓库技术在天气预报决策中的应用探讨[J].应用气象学报,2006,17(3):325-332. 被引量：9
3廖浩,李志蜀,王秋野,张意.基于词语关联的文本特征词提取方法[J].计算机应用,2007,27(12):3009-3012. 被引量：10
4杨凡.AI时代的教育出版研究——以生成式AI为技术驱动力[J].出版广角,2023(16):27-31. 被引量：8
5张艺馨,杨海平.高等教育出版智慧化发展研究——以培生、麦格劳-希尔和圣智为例[J].出版与印刷,2023(5):18-29.
6蒋菲菲,杨万庆.融合出版背景下教育出版的数智化发展路径研究[J].传播与版权,2024(2):59-62. 被引量：2
7李先慧.人工智能在教育出版内容生成中的创新应用[J].中国传媒科技,2024(2):107-110. 被引量：2

1尤文建,李绍滋,李堂秋.基于词汇链的文本过滤模型[J].计算机应用研究,2003,20(9):32-35. 被引量：9
2陈江兵,张巍.基于状态转换方法的不良信息文本过滤模型[J].江西教育学院学报,2005,26(6):22-24.
3冯秀珍,郝鹏.云计算环境下的信息资源云服务模式研究[J].计算机科学,2012,39(S2):110-114. 被引量：38
4赵丰年,刘林,商建云.基于概念的文本过滤模型[J].计算机工程与应用,2006,42(4):186-188. 被引量：11
5李嘉俊,郑宇,吴耿锋.基于领域本体的文本过滤模型[J].计算机工程与设计,2008,29(21):5555-5558. 被引量：4
6王军号,孟祥瑞.物联网感知技术在煤矿瓦斯监测系统中的应用[J].煤炭科学技术,2011,39(7):64-69. 被引量：19
7尤文建,李绍滋,李堂秋.基于概念扩充的文本过滤模型[J].计算机工程与应用,2003,39(25):74-77. 被引量：9
8滕少华,张巍,黎嘉喜.基于规则演算的不良信息文本过滤模型[J].计算机应用与软件,2004,21(3):83-85. 被引量：3
9李虎,邹鹏,贾焰,周斌.一种基于MapReduce的分布式文本数据过滤模型研究[J].信息网络安全,2011(9):91-93.
10朱振方,刘培玉,李少辉,赵静,王乾龙.基于遗传算法的文本过滤模型及收敛性分析[J].中文信息学报,2011,25(5):83-88.

计算机科学

2001年第12期

浏览历史

内容加载中请稍等...

基于模糊近似度的Web文本过滤模型被引量：2

参考文献5

二级参考文献15

共引文献463

同被引文献14

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于模糊近似度的Web文本过滤模型 被引量：2

参考文献5

二级参考文献15

共引文献463

同被引文献14

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于模糊近似度的Web文本过滤模型被引量：2