基于向量空间模型的文本过滤系统被引量：92

A Text Filtering System Based on Vector Space Model

下载PDF

导出

摘要文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议——文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空间模型的文本过滤系统.该系统由训练和自适应过滤两个阶段组成.在训练阶段,通过特征抽取和伪反馈建立初始的过滤模板,并设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值.该系统参加了2000年举行的第9次文本检索会议的评测,取得了很好的成绩,在来自多个国家的15个系统中名列前茅,其中自适应过滤和批过滤的平均准确率分别为26.5%和31.7%. Text filtering is the procedure of retrieving documents relevant to the requirements of specific users from a large-scale text data stream. First, the TREC (text retrieval conference) as well as its text filtering track are introduced, which is the most authoritative international evaluation conference on text retrieval, from the aspects of tasks, topics, corpus and evaluation metrics. Then a text filtering system based on vector space model is presented. This system is composed of two phases of training and adaptive filtering. During the training phase, feature selection and pseudo feedback are used to select the initial filtering profiles and thresholds. During the filtering phase, user feedback is utilized to modify the profiles and thresholds adaptively. This system took participate in the 9th Text Retrieval Conference in 2000, and ranked high among all the 15 systems from many countries. Good performance has been achieved, where the average precisions of adaptive and batch filtering are 26.5% and 31.7% respectively.

作者黄萱菁夏迎炬吴立德

机构地区复旦大学计算机科学与工程系

出处《软件学报》 EI CSCD 北大核心 2003年第3期435-442,共8页 Journal of Software

基金 Supported by the National Natural Science Foundation of China under Grant Nos.69873011 69935010 60103014 (国家自然科学基金) the National High Technology Development 863 Program of China under Grant No.863-306-ZD02-02-4 (国家863高科技发展计划) th

关键词向量空间模型文本过滤系统机器学习文本分类 text retrieval text filtering text categorization machine learning vector space model

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1黄萱菁,吴立德,石崎洋之,徐国伟.独立于语种的文本分类方法[J].中文信息学报,2000,14(6):1-7. 被引量：52

二级参考文献3

1吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
2黄萱菁,吴立德.基于向量空间模型的文档分类系统[J].模式识别与人工智能,1998,11(2):147-153. 被引量：24
3邹涛,王继成,黄源,张福炎.中文文档自动分类系统的设计与实现[J].中文信息学报,1999,13(3):26-32. 被引量：45

共引文献51

1张云涛,龚玲,王永成.基于主成分分析的文本检索结果集的排序和聚类[J].计算机科学,2002,29(z1):45-46.
2吕彦红,陈基漓,阮百尧.基于遗传算法的中文自动分类特征选择[J].山东理工大学学报（自然科学版）,2009,23(1):100-102.
3姚学礼.文本分类中的特征提取方法的研究[J].光盘技术,2009(6):15-16.
4李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
5赵武生,田金超,申连洋,罗奇.自适应过滤算法在基于社区E-learning的个性化知识服务系统中的研究[J].清华大学学报（自然科学版）,2007,47(z2):1910-1913. 被引量：3
6徐琳宏,林鸿飞.基于语义特征和本体的语篇情感计算[J].计算机研究与发展,2007,44(z2):356-360. 被引量：13
7杨震,邓贵仕.个性化信息获取中特征提取的遗传算法[J].系统工程理论与实践,2004,24(8):86-90. 被引量：4
8江志雄,丁岳伟.基于K-近邻方法的网络信息文本分类[J].上海理工大学学报,2005,27(1):83-86. 被引量：2
9刘滔.基于贝叶斯算法的未知病毒检测的研究[J].湖南理工学院学报（自然科学版）,2005,18(1):18-22. 被引量：3
10谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13

同被引文献674

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2陈蔚然,董守斌.基于生物序列模式提取技术的邮件过滤算法[J].清华大学学报（自然科学版）,2005,45(S1):1734-1737. 被引量：3
3苏贵洋,李建华,马颖华,李生红.用于中文色情文本过滤的近邻法构造算法[J].上海交通大学学报,2004,38(z1):76-79. 被引量：6
4朱礼军,陶兰,刘慧.领域本体中的概念相似度计算[J].华南理工大学学报（自然科学版）,2004,32(z1):147-150. 被引量：48
5彭昱忠,元昌安,王艳,覃晓.基于内容理解的不良信息过滤技术研究[J].计算机应用研究,2009,26(2):433-438. 被引量：19
6许勇,荀恩东,贾爱平,宋柔.基于互连网的术语定义获取系统[J].中文信息学报,2004,18(4):37-43. 被引量：13
7王玉娟,方逵,罗武.农业知识库检索排序算法研究[J].农机化研究,2012,34(9):24-27. 被引量：1
8赵林,胡恬,黄萱菁,吴立德.基于知网的概念特征抽取方法[J].通信学报,2004,25(7):46-54. 被引量：17
9刘永丹,曾海泉,李荣陆,胡运发.基于语义分析的倾向性文本过滤[J].通信学报,2004,25(7):78-85. 被引量：34
10王一丁.实际网络环境中不良图片的过滤方法[J].通信学报,2009,30(S1):103-106. 被引量：4

引证文献92

1董宝力,祁国宁,顾新建.基于混合向量空间模型的主题网站识别[J].清华大学学报（自然科学版）,2005,45(S1):1795-1801. 被引量：4
2孔颖,裘彬强,徐从富.基于CART算法的垃圾邮件过滤模型设计与实现[J].计算机应用,2009,29(2):374-376. 被引量：4
3王映,常毅,谭建龙,白硕.基于N元汉字串模型的文本表示和实时分类的研究与实现[J].计算机工程与应用,2005,41(5):88-91. 被引量：5
4丁月华,文贵华,郭炜强.基于核向量空间模型的专利分类[J].华南理工大学学报（自然科学版）,2005,33(8):58-61. 被引量：12
5战守义,井新.加入时间因素的个性化信息过滤技术[J].北京理工大学学报,2005,25(9):782-785. 被引量：3
6焦玉英,刘伟成,孙吉红.基于向量空间模型的专题文献过滤算法研究[J].情报学报,2005,24(5):562-566. 被引量：3
7贺卫红,曹毅.基于向量空间模型文本过滤算法[J].系统工程,2005,23(10):122-125. 被引量：3
8周晓松 ,但军波 ,孙树楠 .基于域对象的文本过滤模型[J].海军航空工程学院学报,2005,20(6):627-629.
9郭炜强,戴天,文贵华.基于领域知识的专利自动分类[J].计算机工程,2005,31(23):52-54. 被引量：17
10张春元,康耀红.基于示例的Web信息自动获取系统的设计与实现[J].计算机应用,2005,25(B12):55-57.

二级引证文献365

1葛艳,郑利杰,杜军威,陈卓.基于BLSTM-Attention神经网络模型的化工事故分类[J].计算机系统应用,2020,29(10):205-210. 被引量：2
2蒋雨桥,樊重俊.跨境电子商务发展指数的构建与实证分析[J].数学理论与应用,2019(3):113-120. 被引量：3
3苏芳荔,张帆.基于层次分析法的网络信息过滤系统评价研究[J].情报理论与实践,2008,31(6):900-903.
4彭昱忠,元昌安,王艳,覃晓.基于内容理解的不良信息过滤技术研究[J].计算机应用研究,2009,26(2):433-438. 被引量：19
5贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
6黄子越,万常选.XML检索中基于聚类的查询词扩展[J].电子科技大学学报,2009,38(S1):29-33. 被引量：1
7王春红,张敏,杨秀荣.基于Web的信息过滤系统的设计与实现[J].电子科技大学学报,2009,38(S1):79-82. 被引量：4
8吕兴栋,舒万艮,黄可龙,周文华.掺杂B^(3+)在SrAl_2O_4∶Eu,Dy中的作用及其机制研究[J].中国稀土学报,2004,22(3):312-317. 被引量：18
9陈思彤.泳池中有个美丽女孩——记蝶泳世界冠军周雅菲[J].游泳,2005(4):47-49.
10王军辉,胡铁军,李丹亚,钱庆,方安.中文生物医学文本无词典分词方法研究[J].情报学报,2011,30(2):197-203. 被引量：4

1贺卫红,曹毅.基于向量空间模型文本过滤算法[J].系统工程,2005,23(10):122-125. 被引量：3
2曹毅,贺卫红.基于向量空间模型的信息安全过滤系统[J].计算机工程与设计,2006,27(2):224-227. 被引量：15
3闵锦,黄萱菁.基于主题和态度分类的文本过滤系统[J].计算机工程,2007,33(2):163-164. 被引量：6
4朱祥玉,侯德文.基于概念学习的过滤模板获取方法[J].计算机技术与发展,2006,16(5):53-55. 被引量：1
5邬雄崎,李生红.适用于物理隔离网闸的智能文本过滤系统[J].黑龙江科技信息,2007(10X):52-52.
6刘淑梅,桑书娟,山岚.文本过滤研究概述[J].信息技术,2009,33(9):187-189. 被引量：3
7李季.一个标准中文问答系统的研究与实现[J].计算机系统应用,2004,13(6):17-20. 被引量：1
8李季,迟呈英.中文问答系统的研究[J].鞍山科技大学学报,2003,26(6):437-440. 被引量：1
9李侃.粗糙集文本过滤系统研究及硬件实现[J].信息安全与通信保密,2006,28(3):44-45. 被引量：2
10吴长瀛.基于VSM不良文本过滤系统的硬件实现[J].信息安全与通信保密,2006(9):113-115.

软件学报

2003年第3期

浏览历史

内容加载中请稍等...

基于向量空间模型的文本过滤系统被引量：92

参考文献1

二级参考文献3

共引文献51

同被引文献674

引证文献92

二级引证文献365

相关作者

相关机构

相关主题

浏览历史

基于向量空间模型的文本过滤系统 被引量：92

参考文献1

二级参考文献3

共引文献51

同被引文献674

引证文献92

二级引证文献365

相关作者

相关机构

相关主题

浏览历史

基于向量空间模型的文本过滤系统被引量：92