基于关联规则的自动构词算法研究被引量：3

Research and Application on Auto-word Building

下载PDF

导出

摘要词语是中文文本的基本元素,汉语语言模型在中文文本挖掘中起关键作用。中文文本挖掘是高维度的数据处理技术,挖掘算法对维度的大小比较敏感,因此挖掘效果依赖于词库的质量。另外,现存的汉语语言模型一般都是基于统计的,比如N-gram语言模型以及各种改进模型都具有较高的计算复杂度。为降低语言模型的计算复杂度、提高词库的质量和构词效率,借鉴关联规则理论对中文词语进行定义,在此基础上构建Auto-word自动构词算法。该算法可以从大量中文语料库中动态地构造词表,并以此为基础进行中文文本挖掘工作。最后通过实验证明了提出的自动构词算法的有效性。 Words are the basic elements of Chinese text,and Chinese language model plays a key role in Chinese text mining.Text classification is a data mining technology with high dimensions and most of the classifying algorithms are sensitive to the dimensions.As a result,the classification depends on the quantity of vocabularies.Besides,most of current Chinese language models are based on statistical theory,such as N-gram model and other improved models.However,these statistical models are disadvantaged with computational complexity.In order to improve the quantity and efficiency,this paper gave Chinese words a new definition based on association rules,and proposed the Auto-word algorithm,by which a word vocabulary is constructed automatically and used for Chinese text mining.Finally,the efficiency of the Auto-word algorithm was proved by experiment.

作者王鉴全季绍波

机构地区大连理工大学管理经济学部

出处《计算机科学》 CSCD 北大核心 2014年第11期256-259,共4页 Computer Science

关键词自动构词统计语言模型关联规则最长公共子序列文本分类 Constructing words automatically Statistical language model Association rules Longest common subse-quence Text classification

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献13

1苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
2李伟,吴及,吕萍.基于前后向语言模型的语音识别词图生成算法[J].计算机应用,2010,30(10):2563-2566. 被引量：2
3刘群.统计机器翻译综述[J].中文信息学报,2003,17(4):1-12. 被引量：71
4张苗,张德贤.多类支持向量机文本分类方法[J].计算机技术与发展,2008,18(3):139-141. 被引量：18
5刘红岩,陈剑,陈国青.数据挖掘中的数据分类算法综述[J].清华大学学报（自然科学版）,2002,42(6):727-730. 被引量：168
6张启宇,朱玲,张雅萍.中文分词算法研究综述[J].情报探索,2008(11):53-56. 被引量：35
7肖镜辉,刘秉权,王晓龙.面向汉语建模的自适应词表生成算法[J].自动化学报,2008,34(1):40-47. 被引量：1
8刘君强,孙晓莹,潘云鹤.关联规则挖掘技术研究的新进展[J].计算机科学,2004,31(1):110-113. 被引量：18
9Agrawal R, Srikant R. Fast algorithms for mining association rules[C] // Proc. 20th Int. Conf. Very Large Data Bases (VLDB). 1994,1215 : 487-499.
10Amir A, Feldman R, Kashi R. A new and versatile method for association generation [M]// Principles of Data Mining and Knowledge Discovery. Springer Berlin Heidelberg, 1997:221-231.

二级参考文献107

1曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
2文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
3孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
4张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
5许嘉璐.现状和设想——试论中文信息处理与现代汉语研究[J].中国语文,2000(6):490-496. 被引量：37
6吴建胜,战学刚,迟呈英.一种基于自动机的分词方法[J].计算机工程与应用,2005,41(8):81-82. 被引量：8
7杨宪泽.中文自动分词探讨[J].西南民族学院学报（自然科学版）,1994,20(3):242-245. 被引量：8
8岳涛.汉语自动分词技术的最新发展及其在信息检索中的应用[J].情报杂志,2005,24(4):55-57. 被引量：6
9王恺,王庆人.中英文混合文章识别问题[J].软件学报,2005,16(5):786-798. 被引量：18
10邓曙光,曾朝晖.汉语分词中一种逐词匹配算法的研究[J].湖南城市学院学报（自然科学版）,2005,14(1):76-78. 被引量：6

共引文献394

1丁美荣,冯伟森,黄荣翔,罗嘉俊.基于预训练模型和基础词典扩展的酒店评论情感分析[J].计算机系统应用,2022,31(11):296-308. 被引量：5
2曾志伟,刁明光,王欣鹏,何炳辉.基于口罩评论数据的用户情感趋势与关注分析[J].计算机系统应用,2020,29(12):263-267.
3唐元楠.论机器翻译的现状[J].南国博览,2019,0(4):380-380.
4贾承勋,赖华,余正涛,文永华,于志强.基于短语替换的汉越伪平行句对生成[J].中文信息学报,2021,35(8):47-55. 被引量：2
5李霞,马骏腾,覃世豪.融合图像注意力的多模态机器翻译模型[J].中文信息学报,2020(7):68-78. 被引量：4
6姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
7王晓燕,程志梅.数据挖掘技术在高校学生管理中的应用[J].电脑知识与技术（过刊）,2007(18):1725-1726.
8王洪云.加强教学档案管理为提高教学质量服务[J].黑龙江档案,2006(1):28-28.
9董云龙 ,何友 ,谢曦鹏 .网络入侵检测技术研究[J].海军航空工程学院学报,2004,19(4):491-494.
10朱倩.略论高校教学管理中数据挖掘技术的应用[J].硅谷,2009,2(4). 被引量：6

同被引文献13

1何玉,冯剑琳,王元珍.基于最大关联规则的文本分类[J].计算机科学,2006,33(11):143-145. 被引量：6
2熊文新,宋柔.信息检索用户查询语句的停用词过滤[J].计算机工程,2007,33(6):195-197. 被引量：16
3化柏林.知识抽取中的停用词处理技术[J].现代图书情报技术,2007(8):48-51. 被引量：39
4David Youngberg.Why Online Education Won’’t Replace Col-lege—Yet. http://chronicle.com/article/Why-Online-Education-Wont/133531/ . 2012
5刘菲,黄萱菁,吴立德.利用关联规则挖掘文本主题词的方法[J].计算机工程,2008,34(7):81-83. 被引量：10
6刘丽彬.语言学视角下中西新闻报道的文体特征差异[J].新闻知识,2013(5):28-29. 被引量：1
7林翠萍,吴扬扬.采用改进最长公共子序列的人名消歧[J].华侨大学学报（自然科学版）,2016,37(2):201-206. 被引量：5
8靳锐,张宏莉,张玥,王星.中文公众事件信息熵计算方法[J].软件学报,2016,27(11):2855-2869. 被引量：4
9孙焘,朱晓明.基于格代数的最长公共子序列近似求解[J].计算机科学,2017,44(2):270-274. 被引量：2
10谷鑫.微信公众平台客服机器人设计与实现[J].信息技术,2017,41(5):166-169. 被引量：4

引证文献3

1阮光册,夏磊.基于关联规则的文本主题深度挖掘应用研究[J].现代图书情报技术,2016(12):50-56. 被引量：15
2乔世权,戴继勇.基于文本相似度的智能查号引擎研究[J].河北科技大学学报,2018,39(3):282-288.
3苏莹.Java语言在线教学模式应用与研究[J].电脑知识与技术,2015,11(9X):113-115.

二级引证文献15

1吴春燕,黄巧梅,刘海清,张捷.文本主要信息的自动获取和主体挖掘[J].信息技术与信息化,2017(3):41-43. 被引量：1
2洪亮,李雪思,周莉娜.领域跨越:数据挖掘的应用和发展趋势[J].图书情报知识,2017,34(4):22-32. 被引量：18
3江思伟,谢振平,陈梅婕,蔡明.混合特征数据的自解释归约建模方法[J].数据分析与知识发现,2017,1(12):92-100. 被引量：2
4马琳琳,刘继.基于关联规则的党的十九大报告关键词相关性分析[J].新疆财经大学学报,2018(2):20-28. 被引量：5
5庞贝贝,苟娟琼,穆文歆.面向高校学生深度辅导领域的主题建模和主题上下位关系识别研究[J].数据分析与知识发现,2018,2(6):92-101. 被引量：5
6令宝.基于数据挖掘的运动员神经类型特征评估系统构建[J].自动化与仪器仪表,2018,0(10):165-168. 被引量：2
7张诗林.基于Bi-LSTM和CRF的中文网购评论中商品属性提取[J].计算机与现代化,2019(2):93-97. 被引量：4
8龚永罡,汪昕宇,李玉莹,王蕴琪.中文文本敏感信息自动校对方法研究[J].电脑与电信,2018(12):66-69. 被引量：2
9荆芒,章娣,张小亮,王忠民.基于Gephi的医院数据关联关系可视化研究[J].中国卫生信息管理杂志,2020,17(4):538-543. 被引量：6
10李明亮,关虹.高校智能化审计管理信息系统的构建与实施[J].教育财会研究,2021,32(2):80-85. 被引量：5

1卢先宁,高泽华,高峰.Web日志挖掘中的会话识别技术研究[J].数据通信,2012(4):19-21.
2卞欢平.数据挖掘的Apriori算法在高校学生成绩分析中的应用[J].电脑知识与技术,2014,10(7X):4945-4947. 被引量：4
3吴辰曦,张峰.数据关联理论及算法的研究[J].电脑知识与技术（过刊）,2014,20(7X):4650-4651.
4张杰,卓灵,朱韵攸.一种K-means聚类算法的改进与应用[J].电子技术应用,2015,41(1):125-128. 被引量：20
5王龙,杨俊安,陈雷,林伟.基于循环神经网络的汉语语言模型建模方法[J].声学技术,2015,34(5):431-436. 被引量：5
6胥桂仙,高旭,于绍娜.关联规则算法在中文文本挖掘中的应用研究[J].中央民族大学学报（自然科学版）,2004,13(4):332-338. 被引量：5
7江铭虎,朱小燕,袁保宗.一种适应域的汉语N-gram语言模型平滑算法[J].清华大学学报（自然科学版）,1999,39(9):99-102. 被引量：9
8曲卫民,张俊林,孙乐.基于主题的汉语语言模型的研究[J].计算机研究与发展,2003,40(9):1368-1374. 被引量：3
9肖镜辉,王晓龙,刘秉权.一种基于相似度的汉语语言模型平滑技术及其在音字转换中的应用[J].高技术通讯,2006,16(2):127-132.
10沈静.浅析中文分词方法[J].漳州职业技术学院学报,2016,18(3):45-48. 被引量：2

计算机科学

2014年第11期

浏览历史

内容加载中请稍等...

基于关联规则的自动构词算法研究被引量：3

参考文献13

二级参考文献107

共引文献394

同被引文献13

引证文献3

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于关联规则的自动构词算法研究 被引量：3

参考文献13

二级参考文献107

共引文献394

同被引文献13

引证文献3

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于关联规则的自动构词算法研究被引量：3