基于频繁项集挖掘的正例文本提取方法

Method of Positive-example Text Extraction Based on Frequent Itemset Mining

下载PDF

导出

摘要提取合适的正例文本是生成有效过滤模板的重要基础。通常采用的人工评测方法的显著缺点是无法准确判断文本内容并选择切实相关的文本,所以本文在频繁项集挖掘的基础上提出了一种判断给定文本是否相关并提取合适正例文本的方法。实验结果证实了该方法的有效性。 It is the important groundwork for constructing an effective filtering profile to extract right positive - example text. The method of Manual evaluating used usually can not distinguish the contents of texts and vote in correlative texts well, so this paper brings forward a method for distinguishing the contents of texts and voting in correlative texts well based on frequent itemset mining. The result of experiments proves its effect.

作者朱祥玉

机构地区山东师范大学人事处

出处《信息技术与信息化》 2008年第3期41-43,共3页 Information Technology and Informatization

关键词过滤模板正例文本频繁项集 TF—RIApriori算法 Filtering profile Positive - example text Frequent itemset TF - RIApriori algorithm

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1张鹏飞,李赟,刘建毅,钟义信.基于相对词频的文本特征抽取方法[J].计算机应用研究,2005,22(4):23-26. 被引量：9
2李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报（自然科学版）,2001,41(7):98-101. 被引量：78
3黄艳,王延章,苑森淼.一种高效相联规则提取算法[J].吉林大学自然科学学报,1999(2):36-38. 被引量：13
4于卫红.用VB对基于Apriori算法的数据挖掘的实现[J].计算机工程,2004,30(2):196-196. 被引量：27
5朱祥玉,侯德文,陈希.对关联规则挖掘Apriori算法的进一步改进[J].信息技术与信息化,2005(6):81-83. 被引量：7
6朱祥玉,侯德文.基于概念学习的过滤模板获取方法[J].计算机技术与发展,2006,16(5):53-55. 被引量：1
7王斌.TREC之文本过滤技术[R].中科院计算所软件室,2001.7.
8赵林,胡恬,黄萱菁,吴立德.基于知网的概念特征抽取方法[J].通信学报,2004,25(7):46-54. 被引量：17

二级参考文献26

1赵林,胡恬,黄萱菁,吴立德.基于知网的概念特征抽取方法[J].通信学报,2004,25(7):46-54. 被引量：17
2黄钢石 ,张亚非 ,陆建江 ,肖江 .基于NMF的用户模板构造方法[J].情报学报,2004,23(4):394-398. 被引量：2
3张鹏飞,李赟,刘建毅,钟义信.基于相对词频的文本特征抽取方法[J].计算机应用研究,2005,22(4):23-26. 被引量：9
4(美)希德曼刘艺译.SQL Serve r2000数据挖掘技术指南[M].北京:清华大学出版社,2000-02..
5范明孟小峰译.数据挖掘概念与技术[M].北京:机械工业出版社,2002..
6Yang Y，http://citeseernjneccom/yang97comparativehtml，1997年
7Lewis DD, Feature Selection and Feature Extraction for Text Categorization [ A ]. Proceedings of Speech and Natural Language Workshop[ C]. San Francsico: Morgan Kaufmann,1992. 212-217.
8Mladenic D, Grobelnik M, Feature Selection for Unbalanced Class Distribution and Native Bayes [ EB/OL ]. http://www-2, cs. cmu.edu/afs/cs/ project/theo- 4/text -learning/www/, 2000-03/2004-04.
9Yang Y, Pedersen J O. A Comparative Study on Feature Selection in Text Categorization [ EB/OL ]. http://citeseer, nj. nec. com/yang97comparative, html, 1997/2004-04.
10秦兵郑实福刘挺.基于改进的贝叶斯模型的中文网页分类器,自然语言理解与机器翻译[M].北京:清华大学出版社,2000.373-378.

共引文献139

1文蓉.基于事务地址索引表的Apriori优化算法[J].电脑知识与技术（过刊）,2007(16):1100-1101.
2秦江华,陈建华.基于Apriori算法的关联规则挖掘的实现[J].昆明理工大学学报（理工版）,2005,30(z1):373-376.
3张脂平,林世平.Web文本挖掘中特征提取算法的分析及改进[J].福州大学学报（自然科学版）,2004,32(z1):63-66. 被引量：1
4于波,于慧娜,孙立镌.基于概念格的网站信息资源的知识抽取[J].科技资讯,2007,5(2). 被引量：1
5单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
6陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
7施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.
8杨君锐.关联规则增量式快速更新方法的研究[J].微电子学与计算机,2004,21(9):120-124. 被引量：7
9钟茂生.WEB页面的模糊聚类[J].华东交通大学学报,2004,21(5):59-62. 被引量：2
10唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量：26

1刘淑梅,桑书娟,山岚.文本过滤研究概述[J].信息技术,2009,33(9):187-189. 被引量：3
2张雨.菜鸟学51单片机C语言[J].电子制作,2011,19(2):71-74. 被引量：1
3刘红芝.网络信息过滤系统的分类[J].图书馆学刊,2010,32(4):99-100. 被引量：1
4何静,刘海燕,宫云战.内容过滤中过滤模板的改进技术研究[J].通信学报,2004,25(3):112-118. 被引量：5
5朱祥玉,侯德文.基于概念学习的过滤模板获取方法[J].计算机技术与发展,2006,16(5):53-55. 被引量：1
6何静,刘海燕.基于向量空间模型的实时内容过滤[J].计算机工程,2004,30(15):26-27. 被引量：2
7贺卫红,曹毅.基于向量空间模型文本过滤算法[J].系统工程,2005,23(10):122-125. 被引量：3
8曹毅,贺卫红.基于向量空间模型的信息安全过滤系统[J].计算机工程与设计,2006,27(2):224-227. 被引量：15
9庞丽霞.提取方法指导阅读[J].小学教学研究（理论版）,2014,0(2):23-24.
10顾建华.海带中提取碘的实验探究[J].中学化学教学参考,2003(4):31-31.

信息技术与信息化

2008年第3期

浏览历史

内容加载中请稍等...

基于频繁项集挖掘的正例文本提取方法

参考文献8

二级参考文献26

共引文献139

相关作者

相关机构

相关主题

浏览历史