中文文本挖掘中最长频繁序列的发现算法被引量：1

Arithmetic of Finding All Maximal Sequences in Chinese Text Mining

下载PDF

导出

摘要　本文对中文文本挖掘中的词汇处理技术进行了较深入的探讨,提出了针对汉语语言特点的发现所有最长频繁序列的算法.该算法基于"找最长字共现"的原则,可以准确地将文本中的词汇切分出来. The dealing technology of word in Chinese text mining was discussed in this article. The arithmetic of finding all maximal frequent sequences in Chinese text was put forward. This arithmetic which can cut words accurately was based on appearing of all maximal frequent sequences in texts at same time.

作者胥桂仙朴泰雄杨丹丹徐小博高旭

机构地区中央民族大学计算机科学与技术系联想集团有限公司政府与公共服务事业部华北电力调度局

出处《中央民族大学学报（自然科学版）》 2004年第1期36-42,共7页 Journal of Minzu University of China(Natural Sciences Edition)

关键词文本挖掘最长频繁序列发现算法词汇处理汉语 “找最长字共现” 中文分词 text mining cutting Chinese word frequent sequence

分类号 TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1邹涛,王继成,杨文清,张福炎.文本信息检索技术[J].计算机科学,1999,26(9):72-75. 被引量：31
2王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量：275
3邹海山,吴勇,吴月珠,陈阵.中文搜索引擎中的中文信息处理技术[J].计算机应用研究,2000,17(12):21-24. 被引量：35
4蒋澄,马范援,蒋思杰.中英文WWW搜索引擎的信息处理[J].计算机工程,1999,25(4):37-38. 被引量：20
5陆丽娜,陈亚萍,魏恒义,杨麦顺.挖掘关联规则中Apriori算法的研究[J].小型微型计算机系统,2000,21(9):940-943. 被引量：144
6刘芳,卢正鼎.有效地检索HTML文档[J].小型微型计算机系统,2000,21(9):986-988. 被引量：23
7王伟强,高文,段立娟.Internet上的文本数据挖掘[J].计算机科学,2000,27(4):32-36. 被引量：60

二级参考文献16

1潘谦红.文本信息检索模型[J].中国计算机报,1998,19.
2潘谦红.全文检索的发展[J].中国计算机报,1998,19.
3黄昌宁夏莹.语言信息处理专论[M].北京:清华大学出版社,1995..
4黄昌宁，语言信息处理专论，1995年
5Yang Y，Proc of the 14th Intl Conf on Machine Learning ICML 97，1997年，412页
6上海交大远程教育中心，HTML 语言参考 .WWW书籍，1998年
7Zalane O R，Proc of 1998ACM-SIGMOD Conf onManagement of Data.Seattle，1998年，581页
8Wang Ke，Newport Beach，1997年
9Salton G，Commun ACM，1975年，18卷，5期，613页
10胡侃,夏绍玮.基于大型数据仓库的数据采掘:研究综述[J].软件学报,1998,9(1):53-63. 被引量：256

共引文献544

1吴雨桐,吴思佳,杨建卫,何依娜,李洪凯,黄琳,刘云霞.基于Apriori算法分析2021年山东省医疗器械不良事件的关联性[J].山东大学学报（医学版）,2022,60(12):111-118. 被引量：8
2董云薪,林耿,张清伟,陈颖婷.基于Apriori算法填充数据及改进相似度的推荐算法[J].计算机科学,2022,49(S02):307-311. 被引量：7
3冯裕静,赵一美子.基于词频分析的国家级创新创业项目研究方向及趋势研究[J].产业科技创新,2020(6):26-27. 被引量：1
4兰晓芳,刘霞,肖毅.基于Django的校友在线平台的设计与实现[J].办公自动化,2021,26(18):17-18. 被引量：3
5尼颖升,张卫强,司涵,阮欣,邵景干.基于复杂网络的桥梁施工事故致因识别及安全管理对策[J].公路交通科技,2023,40(S02):164-173.
6马金素.对称主动服务模型中服务消息生成的研究[J].信息技术,2007,31(10):23-25.
7杜跃,王治和,景永霞.基于数组的关联规则挖掘算法[J].甘肃联合大学学报（自然科学版）,2007,21(3):56-57. 被引量：1
8李重周,杨君锐.关联规则挖掘技术在盲用软件中的应用研究[J].重庆科技学院学报（自然科学版）,2007,9(3):98-100.
9王志明,沙莎.Web文本挖掘技术在新闻主题检测中的应用研究[J].长沙大学学报,2007,21(5):58-60. 被引量：2
10徐妙君,顾沈明.面向Web的文本挖掘技术研究[J].控制工程,2003,10(z1):44-46. 被引量：4

同被引文献12

1邹嘉麟,陈家训.Web信息资源整合系统模型和方法[J].计算机工程,2004,30(12):175-177. 被引量：16
2李琦,陈少强.走近信息可视化[J].中国计算机用户,2003(23):29-29. 被引量：9
3游慧.数据挖掘在个性化学习系统中的运用[J].微机发展,2005,15(6):140-141. 被引量：6
4李广建.整合研究的几个理论问题[J].图书情报工作,2005,49(10):5-10. 被引量：16
5萨师煊王珊.数据库系统概论[M].北京：高等教育出版社,2002.50-52.
6Sonia Bergamaschi. Semantic integration of heterogeneous information sources. Data & Knowledge Engineering, 2001 (36) :215-249.
7王继成,萧嵘,孙正兴,张福炎.Web信息检索研究进展[J].计算机研究与发展,2001,38(2):187-193. 被引量：118
8邓志鸿,唐世渭,张铭,杨冬青,陈捷.Ontology研究综述[J].北京大学学报（自然科学版）,2002,38(5):730-738. 被引量：765
9吴淑燕,许涛.PageRank算法的原理简介[J].图书情报工作,2003,47(2):55-60. 被引量：35
10韩芸.网络信息资源组织方式研究[J].中国图书馆学报,2003,29(6):39-41. 被引量：24

引证文献1

1王翠萍,窦玉萌.基于信息整合的网络信息检索系统研究[J].情报学报,2007,26(6):821-826. 被引量：2

二级引证文献2

1陈国栋.基于知识网格思想的WEB-KMS研究[J].情报杂志,2008,27(10):34-36. 被引量：1
2孔军,易勤.面向用户的竞技体育信息集成服务平台建设研究[J].武汉体育学院学报,2009,43(8):55-58. 被引量：9

1胥桂仙,苏筱蔚,陈淑艳.中文文本挖掘中的无词典分词的算法及其应用[J].吉林工学院学报（自然科学版）,2002,23(1):16-18. 被引量：26
2胥桂仙,高旭,于绍娜.关联规则算法在中文文本挖掘中的应用研究[J].中央民族大学学报（自然科学版）,2004,13(4):332-338. 被引量：5
3刘飞.浅谈英语阅读活动中的词汇处理[J].中学生英语（教师版）,2012(7):122-123.
4沈静.浅析中文分词方法[J].漳州职业技术学院学报,2016,18(3):45-48. 被引量：2
5胡冰,胡东军,马文超.文本挖掘研究及发展[J].电脑知识与技术,2008,3(11):792-793. 被引量：2
6郭蕊.Mac苹果系统错误代码集解[J].桌面出版与设计,1998(2):26-28.
7张霄军,张凌岚.基于XML的Web中文文本挖掘系统设计[J].术语标准化与信息技术,2004(3):31-35. 被引量：3
8童子权,马怀俭,刘大禹.VXI总线讲座——第九讲命令和事件格式及动态组态[J].电测与仪表,1990,27(12):53-59.
9耿新青,王正欧.TGFCM:基于模糊聚类的中文文本挖掘的新方法[J].计算机工程,2006,32(5):7-9.
10吴均高,邹玲.多机之间数据传输预处理的实现[J].电子计算机,1992(1):46-52.

中央民族大学学报（自然科学版）

2004年第1期

浏览历史

内容加载中请稍等...

中文文本挖掘中最长频繁序列的发现算法被引量：1

参考文献7

二级参考文献16

共引文献544

同被引文献12

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

中文文本挖掘中最长频繁序列的发现算法 被引量：1

参考文献7

二级参考文献16

共引文献544

同被引文献12

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

中文文本挖掘中最长频繁序列的发现算法被引量：1