WEB文本挖掘的中文分词系统的设计与实现被引量：1

Design and Implementation of Chinese Automatic Word-cut in Web Text Mining

下载PDF

导出

摘要设计了一个基于W eb文本挖掘的分词系统。具体介绍了如何将H tm l格式的文档转化为Txt格式文本,以及利用M M法来实现对文档的汉语自动分词。并采用最大匹配加回退一字方法,处理交段长度为1的交集型歧义字段。 This paper designed and realized a Chinese automatic word-cut system in Web text mining. It begins to introduce a method of how to change Html form text into Txt form text in detail. Then, it analyzes the use of MM method to realize the Chinese automatic word-cut in Web text. Finally, this paper examines the method of the most match with back to a word to dispel word ambiguity.

作者陈淑珍卢昌荆林克明

机构地区三明学院计算机科学系

出处《三明学院学报》 2005年第2期197-200,共4页 Journal of Sanming University

关键词文本挖掘中文自动分词消歧 text mining Chinese automatic word-cut dispel ambiguity

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1郭辉,苏中义,王文,崔骏.一种改进的MM分词算法[J].微型电脑应用,2002,18(1):13-15. 被引量：39
2陈桂林,王永成,韩客松,王刚.一种高效的中文电子词表数据结构[J].计算机研究与发展,2000,37(1):109-116. 被引量：26
3骆正清,陈增武,王泽兵,胡上序.汉语自动分词研究综述[J].浙江大学学报（自然科学版）,1997,31(3):306-312. 被引量：16
4吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
5揭春雨,刘源,梁南元.论汉语自动分词方法[J].中文信息学报,1989,3(1):1-9. 被引量：55

二级参考文献34

1黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
2骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
3关英春，中文信息学报，1996年，1期
4揭春雨，中文信息学报，1989年，1期
5赵珀璋，计算机中文信息处理，1989年
6张国煊，计算机研究与发展，1993年，1期，61页
7冯志伟，中文信息处理与汉语研究，1992年，12页
8贺银云，计算机杂志，1991年，1/3期，144页
9何克抗，中文信息学报，1991年，2期，1页
10韩世欣，中文信息学报，1990年，4期，48页

共引文献160

1孙宝刚,肖灵.计算机与数据库技术在舰船建造过程的节本与工时分析应用[J].舰船科学技术,2019,0(20):217-219. 被引量：2
2滕伟,王永成.智能代理技术在新一代搜索引擎中的应用[J].计算机工程,2000,26(S1):709-715. 被引量：2
3谢新吾.黄跃佳:北大失业生的三次跳跃[J].职业圈,2005(11):30-31.
4王军辉.汉语自动分词研究进展[J].魅力中国,2009(30):333-333.
5施建军.用计算机对日语进行研究的基础——浅谈机器单词辞典和单词的自动切分[J].解放军外国语学院学报,1991,14(3):25-28.
6洪虹,李波.汉语自动分词研究进展[J].魅力中国,2009,0(22):114-114.
7李强,李侯润.半自动分词技术[J].计算机工程与设计,1992,13(1):37-40.
8陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
9曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
10何静,刘海燕.基于向量空间模型的实时内容过滤[J].计算机工程,2004,30(15):26-27. 被引量：2

同被引文献2

1张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
2王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81

引证文献1

1余栋柱,黄讴.用Nutch构建垂直搜索引擎的方案[J].知识经济,2009(7X):118-120. 被引量：3

二级引证文献3

1刘金亮,吴芳,孟海江.智能化垂直搜索系统的构建[J].电脑知识与技术,2010(01Z):286-287.
2邵秀丽,刘彬,张涛.基于Nutch的垂直搜索引擎的设计和实现[J].计算机工程与设计,2011,32(2):539-542. 被引量：15
3刘兴邦,赵晓娇.基于Nutch的物流信息平台网页资源定向采集系统[J].物流技术,2012,31(7):367-371. 被引量：1

1谭琼,史忠植.分词中的歧义处理[J].计算机工程与应用,2002,38(11):125-127. 被引量：29
2吴晓琴,陈圣兵,何立新.改进遗传算法在文本聚类中的应用研究[J].巢湖学院学报,2013,15(3):27-31.
3设计技巧大放送[J].网友世界,2005(10):51-51.
4严智萍,朱更明.文本数字水印技术研究[J].计算机安全,2007(12):15-17. 被引量：1
5袁鼎荣,钟宁.基于关联规则的交集型歧义消解算法[J].郑州大学学报（理学版）,2010,42(1):67-69. 被引量：3
6黄燕平.MP4也能看杂志[J].小学生文摘,2010(7):82-83.
7MP4与能看杂志[J].电脑爱好者（普及版）,2011(A01):273-273.
8Access 2007使用技巧2则[J].计算机与网络,2010,36(7):18-18. 被引量：1
9陈佳.WPS 2007帮你快速整理混乱格式文本[J].大众软件,2008(20):63-64.
10普布旦增欧珠.藏文分词中交集型歧义字段的切分方法研究[J].西藏科技,2012(3):75-76.

三明学院学报

2005年第2期

浏览历史

内容加载中请稍等...

WEB文本挖掘的中文分词系统的设计与实现被引量：1

参考文献5

二级参考文献34

共引文献160

同被引文献2

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

WEB文本挖掘的中文分词系统的设计与实现 被引量：1

参考文献5

二级参考文献34

共引文献160

同被引文献2

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

WEB文本挖掘的中文分词系统的设计与实现被引量：1