文本挖掘中的中文分词算法研究及实现被引量：14

Research and Realization of Chinese Text Classification Algorithms on Text Mining

下载PDF

导出

摘要文本挖掘是指使用数据挖掘技术,自动地从文本数据中发现和提取独立于用户信息需求的文档集中的隐含知识。而中文文本数据的获得是依靠中文信息处理技术来进行的,因而自动分词成为中文信息处理中的基础课题。对于海量信息处理的应用,分词的速度是极为重要的,对整个系统的效率有很大的影响。分析了几种常见的分词方法,设计了一个基于正向最大匹配法的中文自动分词系统。为了提高分词的精度,对加强歧义消除和词语优化的算法进行了研究处理。 Text mining uses the data mining technique to find and extract the crytic knowledge automatically from text files, which is self - existent the information users needed. Chinese text data is achieved by Chinese information handling. So text participle is a basic question for discussion on Chinese information handling. The rate of text participle is most important especially in applied in great information handling, and it affects the efficiency of whole system. This paper analyzes some ways in text participle, and designed a Chinese- text - participle - system based on most - matching from left to right. In order to improve the participle precision, the algorithms of eliminating different meanings and words optimization are dealt with.

作者许高建胡学钢王庆人

机构地区安徽农业大学信息与计算机学院合肥工业大学计算机与信息学院

出处《计算机技术与发展》 2007年第12期122-124,172,共4页 Computer Technology and Development

基金安徽省科技计划项目(2007ZD-7021010)

关键词中文分词歧义消除最大匹配词语优化 Chinese text participle different meanings eliminating most matching word optimization

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1李振星,徐泽平,唐卫清,唐荣锡.全二分最大匹配快速分词算法[J].计算机工程与应用,2002,38(11):106-109. 被引量：39
2姚天顺,张桂平,吴映明.基于规则的汉语自动分词系统[J].中文信息学报,1990,4(1):37-43. 被引量：43
3张滨,晏蒲柳,李文翔,夏德麟.基于汉语句模的中文分词算法[J].计算机工程,2004,30(1):134-135. 被引量：10
4耿骞,毛瑞.汉语自然语言检索中的词法分析处理[J].情报科学,2004,22(4):466-469. 被引量：8
5蒋澄,马范援,蒋思杰.中英文WWW搜索引擎的信息处理[J].计算机工程,1999,25(4):37-38. 被引量：20

二级参考文献21

1NATURAL LANGUAGE PROCESSING FOR CHINESE INFORMATION RETRIEVAL[J].Transactions of Tianjin University,2000,6(2):135-140. 被引量：4
2吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
3刘伟权,钟义信.自然语言处理与全文情报检索[J].情报理论与实践,1997,20(1):43-46. 被引量：15
4张国煊.快速书面自动分词系统及其算法设计[J].计算机研究与发展,1993,1.
5夏征农.辞海缩印本[M].上海辞书出版社,1989..
6刘源.信息处理用现代汉词分词规范及自动分词方法[M].清华大学出版社,1992..
7王钰.现代汉语名词研究[M].上海: 华东师范大学出版社,2001-01..
8张潮生，中文信息处理国际会议论文集，1987年
9梁南元，中文信息，1986年，1期
10姚天顺，计算机的汉字信息处理，1985年

共引文献111

1苏芳仲,林世平.Web文本挖掘中的一种中文分词算法研究及其实现[J].福州大学学报（自然科学版）,2004,32(z1):67-71. 被引量：5
2郭海凤.基于网页的图像检索技术研究[J].科技信息,2008(26):66-66.
3刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
4付艳梅.智能答疑系统的中文分词[J].湖北工业大学学报,2009,24(1):65-67. 被引量：4
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6李淑文.试论文本自动分类[J].现代计算机,2004,10(7):38-41. 被引量：2
7张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
8郭穗勋.基于Divide-and-Conquer的搜索引擎数据库设计思想[J].广东药学院学报,2004,20(6):684-686.
9亢临生,张永奎.利用分词属性解决歧义切分[J].电脑开发与应用,1994,7(4):2-5. 被引量：4
10亢临生,张永奎.基于标记的分词算法[J].山西大学学报（自然科学版）,1994,17(3):283-286. 被引量：4

同被引文献143

1曲维光.汉语自动分词的方法选择[J].计算机科学,2002,29(z1):54-56. 被引量：2
2申继亮,刘加霞.论教师的教学反思[J].华东师范大学学报（教育科学版）,2004,22(3):44-49. 被引量：240
3岳涛.汉语自动分词技术的最新发展及其在信息检索中的应用[J].情报杂志,2005,24(4):55-57. 被引量：6
4顾益军,樊孝忠,王建华,汪涛,黄维金.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340. 被引量：35
5董慧,余传明.中文本体的自动获取与评估算法分析[J].情报理论与实践,2005,28(4):415-418. 被引量：12
6杜波,田怀凤,王立,陆汝占.基于多策略的专业领域术语抽取器的设计[J].计算机工程,2005,31(14):159-160. 被引量：26
7刘柏嵩,高济.面向知识网格的本体学习研究[J].计算机工程与应用,2005,41(20):1-5. 被引量：19
8郭炜强,文军,文贵华.基于贝叶斯模型的专利分类[J].计算机工程与设计,2005,26(8):1986-1987. 被引量：13
9马文彦,沈敏.对进一步提高手机气象短信服务质量的几点看法[J].湖北气象,2005(3):6-8. 被引量：10
10郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量：41

引证文献14

1唐涛.基于文本挖掘的领域本体学习模型研究[J].图书情报工作,2010,54(S2):348-352. 被引量：3
2高曰超,周志明.基于数据挖掘的知识管理系统的研究与实现[J].山东医学高等专科学校学报,2008,30(1):62-64.
3李跃民,王浩,赵生慧,计成超.智能辅助教学系统中知识点切分歧义消除研究[J].计算机技术与发展,2009,19(4):220-223. 被引量：1
4陈明华,殷景华,舒昌,王明江.基于正反向最大匹配分词系统的实现[J].信息技术,2009,33(6):124-127. 被引量：7
5黄魏,高兵,刘异,杨克巍.基于词条组合的中文文本分词方法[J].科学技术与工程,2010,10(1):85-89. 被引量：6
6黄魏,高兵,刘异,杨克巍.基于词条组合的军事类文本分词方法[J].计算机科学,2010,37(2):171-174. 被引量：2
7邱欢堂,何聚厚,何秀青.教学反思内容自动评估模型研究[J].计算机技术与发展,2012,22(9):173-176. 被引量：2
8屠要峰,钱煜明.一种基于海量数据的信息云系统及其关键技术研究[J].电信科学,2012,28(12):41-47. 被引量：1
9胡阿沛,张静,雷孝平,张晓宇.基于文本挖掘的专利技术主题分析研究综述[J].情报杂志,2013,32(12):88-92. 被引量：42
10罗曼宁,曹梅.广东天气短信自动查错模型的建立[J].青海气象,2015(1):64-67.

二级引证文献81

1陈玲,林平,段尧清.产业链视角下结合K-means和LDA的专利技术主题挖掘与趋势分析——以虚拟现实技术为例[J].知识管理论坛,2020(3):135-146. 被引量：5
2孙林.短视频关键扩散因素研究[J].情报工程,2022,8(4):110-118.
3刘凡平,高艳华,于炯,张伟.基于关键决策方法的站内搜索研究与实现[J].微电子学与计算机,2010,27(8):214-217. 被引量：1
4黄利斌,寇雅楠.基于依存句法的网页内容防火墙设计[J].计算机工程与设计,2011,32(5):1597-1600. 被引量：4
5王娟,曹庆花,黄精籼,胡忠胜.基于受限领域的中文分词系统[J].信息系统工程,2011,24(11):106-106.
6杨潮,车磊.汉字盲文转换系统的设计[J].北京印刷学院学报,2011,19(6):36-38. 被引量：8
7桑书娟,王庆喜.一种结合正向最大匹配法和互信息的中文分词算法[J].计算机光盘软件与应用,2012,15(7):30-30.
8徐远方,李成城.基于SVM和词间特征的新词识别研究[J].计算机技术与发展,2012,22(5):134-136. 被引量：4
9黎九平.基于SOM文本聚类的领域本体学习研究[J].情报探索,2012(11):89-92. 被引量：1
10吐尔地.托合提,艾克白尔.帕塔尔,艾斯卡尔.艾木都拉.基于互信息的维吾尔文自适应组词算法[J].计算机应用研究,2013,30(2):429-431. 被引量：6

1翰林汇新版写作之星问世[J].新经济导刊,2001(17):70-70.
2焦金涛.基于结构挖掘和使用挖掘的Web挖掘算法研究[J].武夷学院学报,2008,27(5):44-47. 被引量：5
3马婷婷.中文自动分词系统概述[J].电脑知识与技术（过刊）,2010,0(33):9336-9338. 被引量：2
4张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
5谷瑞.对中文分词歧义消除算法的研究[J].苏州市职业大学学报,2015,26(4):25-27. 被引量：1
6蔺世杰,李明杰.基于Web挖掘的个性化信息服务系统的设计[J].常熟理工学院学报,2006,20(6):90-93. 被引量：1
7宗传霞,王晶.基于管理系统的开发流程[J].电子制作,2014,22(14):237-237.
8“多彩杯”外设知识有奖问答：鼠标篇[J].现代计算机（中旬刊）,2005(B09):64-64.
9许高建,胡学钢,路遥,王庆人.一种改进的中文分词歧义消除算法研究[J].合肥工业大学学报（自然科学版）,2008,31(10):1622-1625. 被引量：6
10赵志靖,周静,冯锐,齐丙辰.智能人机交互中自动分词技术的实现[J].扬州大学学报（自然科学版）,2005,8(3):58-61. 被引量：3

计算机技术与发展

2007年第12期

浏览历史

内容加载中请稍等...

文本挖掘中的中文分词算法研究及实现被引量：14

参考文献5

二级参考文献21

共引文献111

同被引文献143

引证文献14

二级引证文献81

相关作者

相关机构

相关主题

浏览历史

文本挖掘中的中文分词算法研究及实现 被引量：14

参考文献5

二级参考文献21

共引文献111

同被引文献143

引证文献14

二级引证文献81

相关作者

相关机构

相关主题

浏览历史

文本挖掘中的中文分词算法研究及实现被引量：14