基于统计分词的中文网页分类被引量：16

Chinese Web Page Classification Based On Statistical Word Segmentation

下载PDF

导出

摘要本文将基于统计的二元分词方法应用于中文网页分类 ,实现了在事先没有词表的情况下通过统计构造二字词词表 ,从而根据网页中的文本进行分词 ,进而进行网页的分类。因特网上不同类型和来源的文本内容用词风格和类型存在相当的差别 ,新词不断出现 ,而且易于获得大量的同类型文本作为训练语料。这些都为实现统计分词提供了条件。本文通过试验测试了统计分词构造二字词表用于中文网页分类的效果。试验表明 ,在统计阈值选择合适的时候 ,通过构建的词表进行分词进而进行网页分类 ,能有效地提高网页分类的分类精度。此外 ,本文还分析了单字和分词对于文本分类的不同影响及其原因。 Word segmentation is an important step in Chinese natural language processing.This paper explores the problem of classifying Chinese web pages based on statistical word segmentation.We first construct a Chinese word list of binary words automatically from training Chinese web pages.Then the texts in testing Chinese web pages are segmented with the word list.Web pages are classified based on the segmentation results.Experiments show that statistical word segmentation can efficiently improve classification precision.Based on the experiment results,we analyze the influence of statistical word segmentation on Chinese web page classification.Single Chinese characters and words play different roles in web page classification and the reason for the difference is also analyzed.

作者黄科马少平

机构地区清华大学计算机科学与技术系智能技术与系统国家重点实验室

出处《中文信息学报》 CSCD 北大核心 2002年第6期25-31,共7页 Journal of Chinese Information Processing

基金国家重点基础研究 973(G19980 30 5 0 9) 86 3高技术项目 (2 0 0 1AA114 0 82 )

关键词中文网页分类文本分类统计分词机器学习计算机网络汉字识别 text categorization statistical word segmentation machine learning computer network

分类号 TP391.43 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1王还常宝儒.现代汉语频率词典[M].北京:北京语言学院出版社,1986..
2殷建平.汉语自动分词方法[J].计算机工程与科学,1998,20(3):60-66. 被引量：32
3丁丰,董娜,林碧琴,袁保宗.自然语言处理系统中自动分词的研究[J].北方交通大学学报,1999,23(6):31-33. 被引量：8

二级参考文献3

1徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
2王挺,陈火旺,杨谊,史晓东.一种自适应词性标注方法[J].软件学报,1997,8(12):937-943. 被引量：8
3韩世欣,王开铸.基于短语结构文法的分词研究[J].中文信息学报,1992,6(3):48-54. 被引量：7

共引文献49

1梁晓弘,杨文安.分词技术在信息处理中的研究综述[J].电脑知识与技术（过刊）,2007(22):1100-1102. 被引量：1
2王军辉.汉语自动分词研究进展[J].魅力中国,2009(30):333-333.
3洪虹,李波.汉语自动分词研究进展[J].魅力中国,2009,0(22):114-114.
4陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
5文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
6李凯,左万利,吕巍.汉语文本中交集型切分歧义的分类处理[J].小型微型计算机系统,2004,25(8):1486-1490. 被引量：3
7萧皖龙.汉字规范书写的全重心理论[J].合肥教育学院学报,2003,20(4):28-31. 被引量：2
8张建平,郝矿荣,施恒斌,马利.基于生物学的智能分析统计软件的开发[J].计算机时代,2005(3):14-15.
9马光志,李专.基于特征词的自动分词研究[J].华中科技大学学报（自然科学版）,2003,31(3):60-62. 被引量：4
10王大伟,刘永芳.内隐和外显记忆测验中的定向遗忘效应[J].心理科学,2005,28(2):324-328. 被引量：28

同被引文献141

1李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
2邓顺国.中文期刊论文标题情报性的调查与简要分析[J].图书情报知识,1985,2(1):48-52. 被引量：11
3刘涌泉.中国计算机和自然语言处理的新进展[J].情报科学,1987,8(1):64-70. 被引量：4
4黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
5张茂元,卢正鼎.基于特征选取及模糊学习的网页分类方法研究[J].小型微型计算机系统,2004,25(7):1397-1400. 被引量：4
6李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
7卢娇丽,郑家恒.基于粗糙集的文本分类方法研究[J].中文信息学报,2005,19(2):66-70. 被引量：16
8张璠.多种策略改进朴素贝叶斯分类器[J].微机发展,2005,15(4):35-36. 被引量：11
9许建潮,胡明.中文Web文本的特征获取与分类[J].计算机工程,2005,31(8):24-25. 被引量：24
10刘静,尹存燕,陈家骏.一种规则和贝叶斯方法相结合的文本自动分类策略[J].计算机应用研究,2005,22(7):84-86. 被引量：7

引证文献16

1周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11
2万中英,王明文,廖海波.基于投影寻踪的中文网页分类算法[J].中文信息学报,2005,19(4):60-67. 被引量：11
3王军辉,胡铁军,李丹亚,钱庆,方安.中文生物医学文本无词典分词方法研究[J].情报学报,2011,30(2):197-203. 被引量：4
4毛伟,徐蔚然,郭军.基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统[J].中文信息学报,2006,20(3):29-35. 被引量：16
5王小冷,王斌.一种抗噪音的中文网页分类方法[J].中文信息学报,2007,21(4):48-54. 被引量：1
6段军峰,黄维通,陆玉昌.中文网页分类研究与系统实现[J].计算机科学,2007,34(6):210-213. 被引量：12
7梁冰,乔晓东.从维基文化看我国词表建设[J].图书情报工作,2007,51(7):105-107.
8陈飞,王秀峰,饶一梅.一种混合的中文分词算法[J].南开大学学报（自然科学版）,2007,40(5):27-32. 被引量：5
9康楠,金蓓弘,李京.面向Blog的兴趣挖掘和推荐系统[J].计算机工程,2008,34(2):72-74. 被引量：5
10蔡巍,王永成,尹中航.一种无词典的从Web新闻页面抽取主题的算法[J].情报学报,2008,27(1):12-17. 被引量：2

二级引证文献93

1朱宏.基于Web平台的智能CAI系统研究[J].哈尔滨商业大学学报（自然科学版）,2005,21(4):486-488. 被引量：1
2王明文,付雪峰,左家莉.网页与文本自动分类综述[J].南昌工程学院学报,2005,24(3):20-25. 被引量：4
3张彰,樊孝忠.一种改进的基于VSM的文本分类算法[J].计算机工程与设计,2006,27(21):4078-4080. 被引量：8
4刘金红,陆余良,周新栋.一种辅以强规则学习的双层文本分类模型[J].计算机工程,2007,33(8):165-167. 被引量：3
5陈志雄,陈健,闵华清.基于信息增益的中文文本关联分类[J].中文信息学报,2007,21(3):61-68. 被引量：1
6刘华.基于关键短语的文本分类研究[J].中文信息学报,2007,21(4):34-41. 被引量：14
7王小冷,王斌.一种抗噪音的中文网页分类方法[J].中文信息学报,2007,21(4):48-54. 被引量：1
8潘立,席升阳,李晓东.基于RAGA的投影寻踪模型在创业投资中的应用[J].中国青年科技,2007(5):52-55.
9裴亚辉,熊盛武.朴素贝叶斯及其扩展模型[J].网络安全技术与应用,2007(8):49-51. 被引量：3
10刘华.汉语信息处理中短语优势的理据及实验证明[J].语言文字应用,2007(4):129-135. 被引量：3

1D吴雅娟,柳培林,丁子睿.基于统计分词的中文文本分类系统[J].电脑知识与技术,2005(4):71-74. 被引量：1
2王荔,宋胜利,冯佳,陈平.一种全切分与统计结合的分词系统[J].微电子学与计算机,2009,26(5):68-70. 被引量：1
3张敏,王春红.基于统计方法的Web新词分词方法研究[J].计算机工程与科学,2010,32(5):133-135. 被引量：2
4江华丽.中文分词算法研究与分析[J].物联网技术,2016,6(1):87-89. 被引量：9
5费洪晓,胡海苗,巩燕玲.基于Hash结构的机械统计分词系统研究[J].计算机工程与应用,2006,42(5):159-161. 被引量：8
6徐海涛,杨森,柴乔林.基于统计分词的中文邮件智能分类系统[J].华中科技大学学报（自然科学版）,2003,31(S1):325-328. 被引量：1
7甘秋云.基于最短路径的二元语法中文词语粗分模型的研究[J].现代计算机,2013,19(17):7-10. 被引量：1
8李湘东,高凡,丁丛.LDA模型下不同分词方法对文本分类性能的影响研究[J].计算机应用研究,2017,34(1):62-66. 被引量：9
9陈艳秋,孙培立.一种基于类别强信息特征和贝叶斯算法的中文文本分类器[J].计算机应用与软件,2014,31(8):330-333. 被引量：5
10罗晟.号码百事通文本搜索引擎设计及优化对策[J].武汉理工大学学报,2009,31(24):102-105.

中文信息学报

2002年第6期

浏览历史

内容加载中请稍等...

基于统计分词的中文网页分类被引量：16

参考文献3

二级参考文献3

共引文献49

同被引文献141

引证文献16

二级引证文献93

相关作者

相关机构

相关主题

浏览历史

基于统计分词的中文网页分类 被引量：16

参考文献3

二级参考文献3

共引文献49

同被引文献141

引证文献16

二级引证文献93

相关作者

相关机构

相关主题

浏览历史

基于统计分词的中文网页分类被引量：16