独立于语种的文本分类方法被引量：52

Language Independent Text Categorization

下载PDF

导出

摘要文本分类是指在给定分类体系下 ,根据文本的内容自动确定文本类别的过程。本文提出了一个基于机器学习的、独立于语种的文本分类模型 ,并对模型中的特征抽取、分类器和评价方法进行了详细的介绍。该模型已经在中文和日文两个语种的新闻语料上得到实现 ,并获得了较好的分类性能。 Text categorization is defined as the task of assigning pre defined category labels to new documents.This paper proposes a language independent text categorization model based on machine learning,and describes the feature extraction,classifier and evaluation method in detail.This model has been implemented on two news corpus of Chinese and Japanese and satisfactory categorization effectiveness has been achieved.

作者黄萱菁吴立德石崎洋之徐国伟

机构地区复旦大学计算机科学系富士通研究开发中心有限公司

出处《中文信息学报》 CSCD 北大核心 2000年第6期1-7,共7页 Journal of Chinese Information Processing

基金国家自然科学基金!(6 98730 11) 86 3项目!(86 3 - 30 6 -ZD0 2 - 0 2 - 4)

关键词文本分类特征抽取机器学习分类器语种 text categorization feature selection machine learning

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1黄萱菁,吴立德.基于向量空间模型的文档分类系统[J].模式识别与人工智能,1998,11(2):147-153. 被引量：24
2邹涛,王继成,黄源,张福炎.中文文档自动分类系统的设计与实现[J].中文信息学报,1999,13(3):26-32. 被引量：45
3吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24

二级参考文献15

1吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
2黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
3吴军，第三届全国人机语音通信学术会议，1994年
4刘开瑛，第二届全国计算语言学联合学术会议论文集，1993年
5王永成，第二届全国计算语言学联合学术会议论文集，1993年
6苑春法，第二届全国计算语言学联合学术会议论文集，1993年
7施水才，1993年
8郭进，第一届全国计算语言学联系学术会议，1991年
9Chen H，IEEE Trans PAMI，1996年，18卷，8期，771页
10王开铸，计算语言进展与应用，1995年，359页

共引文献79

1吴光远,何丕廉,曹桂宏,聂颂.基于向量空间模型的词共现研究及其在文本分类中的应用[J].计算机应用,2003,23(z1):138-140. 被引量：23
2成奋华,吴家强.数字图书馆中基于向量空间模型的文档分类系统[J].情报杂志,2004,23(7):9-11.
3刘峰,王秀坤,杨南海,马霖.中英文专业搜索引擎中数据采集加工的设计与实现[J].计算机应用研究,2004,21(10):155-157. 被引量：5
4郑小慎,何丕廉,陈治纲,任大同,吴克敏.基于凝聚点的文本动态聚类分析[J].微型机与应用,2004,23(8):58-60.
5王冠,裘正定.结合中文网页自动分类系统的AIP平台[J].微机发展,2005,15(3):136-138.
6江志雄,丁岳伟.基于K-近邻方法的网络信息文本分类[J].上海理工大学学报,2005,27(1):83-86. 被引量：2
7丁尚友.中小学图书馆(室)的业务管理[J].齐齐哈尔大学学报（哲学社会科学版）,2005(3):138-138.
8丁文斌,李斌,罗浩.基于改进贝叶斯的垃圾邮件过滤系统设计与实现[J].计算机工程与应用,2005,41(18):127-130. 被引量：14
9李兴鹏,武伟.基于内容和地址的电子邮件过滤系统的研究及实现[J].上海应用技术学院学报（自然科学版）,2005,5(1):35-37.
10武子英.基于模糊模式识别的中文文本分类器的设计与实现[J].科技情报开发与经济,2005,15(16):228-230. 被引量：1

同被引文献281

1胡恬,夏迎炬,黄萱菁,吴立德.基于向量空间模型的Web中文信息过滤系统[J].计算机工程,2003,29(z1):25-26. 被引量：6
2李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
3欧阳柳波,李学勇,李国徽,王鑫.专业搜索引擎搜索策略综述[J].计算机工程,2004,30(13):32-33. 被引量：34
4王双成,苑森淼.具有丢失数据的贝叶斯网络结构学习研究[J].软件学报,2004,15(7):1042-1048. 被引量：62
5马秋武.管辖音系学的基本理论及最新发展[J].当代语言学,2000,2(4):218-226. 被引量：5
6陆勇,侯汉清.用于信息检索的同义词自动识别及其进展[J].南京农业大学学报（社会科学版）,2004,4(3):87-93. 被引量：25
7余芳,姜云飞.一种基于朴素贝叶斯分类的特征选择方法[J].中山大学学报（自然科学版）,2004,43(5):118-120. 被引量：24
8陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
9李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
10李心丹.行为金融理论:研究体系及展望[J].金融研究,2005(1):175-190. 被引量：111

引证文献52

1张云涛,龚玲,王永成.基于主成分分析的文本检索结果集的排序和聚类[J].计算机科学,2002,29(z1):45-46.
2吕彦红,陈基漓,阮百尧.基于遗传算法的中文自动分类特征选择[J].山东理工大学学报（自然科学版）,2009,23(1):100-102.
3姚学礼.文本分类中的特征提取方法的研究[J].光盘技术,2009(6):15-16.
4李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
5赵武生,田金超,申连洋,罗奇.自适应过滤算法在基于社区E-learning的个性化知识服务系统中的研究[J].清华大学学报（自然科学版）,2007,47(z2):1910-1913. 被引量：3
6徐琳宏,林鸿飞.基于语义特征和本体的语篇情感计算[J].计算机研究与发展,2007,44(z2):356-360. 被引量：13
7杨震,邓贵仕.个性化信息获取中特征提取的遗传算法[J].系统工程理论与实践,2004,24(8):86-90. 被引量：4
8江志雄,丁岳伟.基于K-近邻方法的网络信息文本分类[J].上海理工大学学报,2005,27(1):83-86. 被引量：2
9刘滔.基于贝叶斯算法的未知病毒检测的研究[J].湖南理工学院学报（自然科学版）,2005,18(1):18-22. 被引量：3
10谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13

二级引证文献641

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：15
2郑杏冉,黄卫东.网民心理视角下突发公共事件情感主题研究[J].知识管理论坛,2024(1):93-107.
3张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
4刘颖.浅析贝叶斯方法在文本分类中的应用[J].电脑知识与技术（过刊）,2007(22):1074-1076.
5董宝力,祁国宁,顾新建.基于混合向量空间模型的主题网站识别[J].清华大学学报（自然科学版）,2005,45(S1):1795-1801. 被引量：4
6徐朝军.基础教育资源目录系统的设计与实现[J].电化教育研究,2009,30(3):71-75. 被引量：3
7王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
8孔颖,裘彬强,徐从富.基于CART算法的垃圾邮件过滤模型设计与实现[J].计算机应用,2009,29(2):374-376. 被引量：4
9姚学礼.文本分类中的特征提取方法的研究[J].光盘技术,2009(6):15-16.
10李一平,姚宏亮.C4.5算法在成绩分析中的应用[J].微型电脑应用,2011(6):51-53. 被引量：1

1陆蓓,王小华,陈勤.基于多智能体的文本分类模型[J].杭州电子科技大学学报（自然科学版）,1999,24(4):24-29.
2刘茂旺,林世平.BOOSTING算法在多类多标签文本分类中的应用[J].福建电脑,2006(3):103-104. 被引量：1
3阿文.使用C++Builder开发支持多语种的软件[J].电脑爱好者,2000(2):72-73.
4陈燕红,张太红,马健.中英文跨语种嵌入式数据库查询处理研究[J].计算机应用与软件,2014,31(6):244-247.
5陈祎荻,秦玉平.基于机器学习的文本分类方法综述[J].渤海大学学报（自然科学版）,2010,31(2):201-205. 被引量：12
6崔彩霞,王素格.基于粗集的支持向量机文本分类方法研究[J].科技广场,2006(8):4-6. 被引量：1
7崔彩霞,张朝霞.文本分类方法对比研究[J].太原师范学院学报（自然科学版）,2007,6(4):52-54. 被引量：5
8因特网翻译系统将问世[J].长春光学精密机械学院学报（科技信息版）,1998(1):38-38.
9加依那.阿布都哈力克.浅谈新疆哈萨克语种网站发展现状[J].新闻世界,2013(4):151-152.
10修改网上下载的网页，不能输入中文[J].软件,2003,24(10):90-90.

中文信息学报

2000年第6期

浏览历史

内容加载中请稍等...

独立于语种的文本分类方法被引量：52

参考文献3

二级参考文献15

共引文献79

同被引文献281

引证文献52

二级引证文献641

相关作者

相关机构

相关主题

浏览历史

独立于语种的文本分类方法 被引量：52

参考文献3

二级参考文献15

共引文献79

同被引文献281

引证文献52

二级引证文献641

相关作者

相关机构

相关主题

浏览历史

独立于语种的文本分类方法被引量：52