中文文本挖掘中的无词典分词的算法及其应用被引量：26

Arithmetic and Application of No Dictionary Cutting Word in Chinese Text Mining

下载PDF

导出

摘要对中文文本挖掘中的词汇处理技术进行了较深入的探讨 ,提出了针对汉语语言特点的无词典分词算法。该算法基于“找最长字共现”的原则 ,可以准确地将文本中的词汇切分出来。 The dealing technology of words in Chinese text mining is discussed,and an arithmetic of 'No Dictionary Cutting Word' is brought forward. This arithmetic which is based on finding all maximal frequent sequences in text can cut words accurately.

作者胥桂仙苏筱蔚陈淑艳

机构地区吉林工学院计算机科学与工程学院

出处《吉林工学院学报（自然科学版）》 2002年第1期16-18,共3页 Journal of Jilin Institute of Technology

关键词文本挖掘中文分词无词典分词 text mining cutting Chinese word no dictionary cutting word

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1邹涛,王继成,杨文清,张福炎.文本信息检索技术[J].计算机科学,1999,26(9):72-75. 被引量：31
2王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量：275
3刘芳,卢正鼎.有效地检索HTML文档[J].小型微型计算机系统,2000,21(9):986-988. 被引量：23
4邹海山,吴勇,吴月珠,陈阵.中文搜索引擎中的中文信息处理技术[J].计算机应用研究,2000,17(12):21-24. 被引量：35
5陆丽娜,陈亚萍,魏恒义,杨麦顺.挖掘关联规则中Apriori算法的研究[J].小型微型计算机系统,2000,21(9):940-943. 被引量：144
6王伟强,高文,段立娟.Internet上的文本数据挖掘[J].计算机科学,2000,27(4):32-36. 被引量：60
7蒋澄,马范援,蒋思杰.中英文WWW搜索引擎的信息处理[J].计算机工程,1999,25(4):37-38. 被引量：20

二级参考文献16

1潘谦红.文本信息检索模型[J].中国计算机报,1998,19.
2潘谦红.全文检索的发展[J].中国计算机报,1998,19.
3黄昌宁夏莹.语言信息处理专论[M].北京:清华大学出版社,1995..
4黄昌宁，语言信息处理专论，1995年
5Yang Y，Proc of the 14th Intl Conf on Machine Learning ICML 97，1997年，412页
6上海交大远程教育中心，HTML 语言参考 .WWW书籍，1998年
7Zalane O R，Proc of 1998ACM-SIGMOD Conf onManagement of Data.Seattle，1998年，581页
8Wang Ke，Newport Beach，1997年
9Salton G，Commun ACM，1975年，18卷，5期，613页
10胡侃,夏绍玮.基于大型数据仓库的数据采掘:研究综述[J].软件学报,1998,9(1):53-63. 被引量：257

共引文献544

1吴雨桐,吴思佳,杨建卫,何依娜,李洪凯,黄琳,刘云霞.基于Apriori算法分析2021年山东省医疗器械不良事件的关联性[J].山东大学学报（医学版）,2022,60(12):111-118. 被引量：9
2董云薪,林耿,张清伟,陈颖婷.基于Apriori算法填充数据及改进相似度的推荐算法[J].计算机科学,2022,49(S02):307-311. 被引量：7
3冯裕静,赵一美子.基于词频分析的国家级创新创业项目研究方向及趋势研究[J].产业科技创新,2020(6):26-27. 被引量：1
4兰晓芳,刘霞,肖毅.基于Django的校友在线平台的设计与实现[J].办公自动化,2021,26(18):17-18. 被引量：3
5尼颖升,张卫强,司涵,阮欣,邵景干.基于复杂网络的桥梁施工事故致因识别及安全管理对策[J].公路交通科技,2023,40(S02):164-173.
6马金素.对称主动服务模型中服务消息生成的研究[J].信息技术,2007,31(10):23-25.
7杜跃,王治和,景永霞.基于数组的关联规则挖掘算法[J].甘肃联合大学学报（自然科学版）,2007,21(3):56-57. 被引量：1
8李重周,杨君锐.关联规则挖掘技术在盲用软件中的应用研究[J].重庆科技学院学报（自然科学版）,2007,9(3):98-100.
9王志明,沙莎.Web文本挖掘技术在新闻主题检测中的应用研究[J].长沙大学学报,2007,21(5):58-60. 被引量：2
10徐妙君,顾沈明.面向Web的文本挖掘技术研究[J].控制工程,2003,10(z1):44-46. 被引量：4

同被引文献203

1徐妙君,顾沈明.面向Web的文本挖掘技术研究[J].控制工程,2003,10(z1):44-46. 被引量：4
2杨斌,孟志青.一种文本分类数据挖掘的技术[J].湘潭大学自然科学学报,2001,23(4):34-37. 被引量：10
3胡圣方,杨文德.网络舆情管理的问题及对策[J].西部法学评论,2007(4):137-138. 被引量：15
4刘涌泉.中国计算机和自然语言处理的新进展[J].情报科学,1987,8(1):64-70. 被引量：4
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：102
6张长利,赫枫龄,左万利.一种基于后缀数组的无词典分词方法[J].吉林大学学报（理学版）,2004,42(4):548-553. 被引量：14
7张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
8徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
9张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量：47
10何盈捷,王珊,杜小勇.纯Peer to Peer环境下有效的Top-k查询[J].软件学报,2005,16(4):540-552. 被引量：23

引证文献26

1曲维光.汉语自动分词的方法选择[J].计算机科学,2002,29(z1):54-56. 被引量：2
2王晔,黄上腾.Apriori and N-gram Based Chinese Text Feature Extraction Method[J].Journal of Shanghai Jiaotong university(Science),2004,9(4):11-14. 被引量：5
3王军辉,胡铁军,李丹亚,钱庆,方安.中文生物医学文本无词典分词方法研究[J].情报学报,2011,30(2):197-203. 被引量：4
4王海涌,郑丽英,刘丽艳.基于文本表示的特征项权值确定方法研究[J].甘肃科学学报,2005,17(3):86-89. 被引量：8
5袁军鹏,朱东华,李毅,李连宏,黄进.文本挖掘技术研究进展[J].计算机应用研究,2006,23(2):1-4. 被引量：58
6姜韶华,党延忠.基于长度递减与串频统计的文本切分算法[J].情报学报,2006,25(1):74-79. 被引量：14
7党延忠.基础研究学科发展的宏观知识挖掘[J].管理工程学报,2006,20(2):102-107. 被引量：3
8周俊,孙啸.基于频繁序列的新词挖掘算法[J].电脑知识与技术,2006(5):98-99.
9姜韶华,党延忠.无词典中英文混合术语抽取及算法研究[J].情报学报,2006,25(3):301-305. 被引量：2
10王一蕾,吴英杰.基于数据量的文本分词算法选取的研究[J].福建电脑,2006,22(9):18-19.

二级引证文献176

1李涵霄,杜杏叶.近20年计算机与信息科学领域研究进展——IPM期刊主题分析[J].知识管理论坛,2022(1):24-36.
2蒋旭东,杨莉,舒启江,刘红杏,张美娜,赵林波.中医药院校“互联网+”创新创业项目培育策略分析[J].创新创业理论研究与实践,2022(5):194-198.
3王一蕾,林世平.基于Web页面链接结构的挖掘算法[J].福州大学学报（自然科学版）,2004,32(4):476-478.
4潘静,饶若楠.基于Web数据挖掘的信息获取系统的研究及设计[J].计算机工程,2004,30(B12):136-138. 被引量：3
5谌志群,张国煊.文本挖掘研究进展[J].模式识别与人工智能,2005,18(1):65-74. 被引量：50
6邵良杉,付曙光,薛立军.企业核心竞争力的Web挖掘研究[J].计算机系统应用,2005,14(8):91-94. 被引量：1
7王军辉,胡铁军,李丹亚,钱庆,方安.中文生物医学文本无词典分词方法研究[J].情报学报,2011,30(2):197-203. 被引量：4
8陈建平,侯昌波,王功文,吕鹏,朱鹏飞,曾敏,吴文.矿产资源定量评价中文本数据挖掘研究[J].物探化探计算技术,2005,27(3):263-266. 被引量：3
9郭炜强,文军,文贵华.基于贝叶斯模型的专利分类[J].计算机工程与设计,2005,26(8):1986-1987. 被引量：13
10郭炜强,戴天,文贵华.基于领域知识的专利自动分类[J].计算机工程,2005,31(23):52-54. 被引量：17

1胥桂仙,朴泰雄,杨丹丹,徐小博,高旭.中文文本挖掘中最长频繁序列的发现算法[J].中央民族大学学报（自然科学版）,2004,13(1):36-42. 被引量：1
2张长利,赫枫龄,左万利.一种基于后缀数组的无词典分词方法[J].吉林大学学报（理学版）,2004,42(4):548-553. 被引量：14
3韩客松,王永成,陈桂林.汉语语言的无词典分词模型系统[J].计算机应用研究,1999,16(10):8-9. 被引量：22
4刘京城,刘锋.一种改进的基于后缀数组的无词典分词方法[J].计算机技术与发展,2011,21(11):49-52.
5王一蕾,吴英杰.基于数据量的文本分词算法选取的研究[J].福建电脑,2006,22(9):18-19.
6胥桂仙,高旭,于绍娜.关联规则算法在中文文本挖掘中的应用研究[J].中央民族大学学报（自然科学版）,2004,13(4):332-338. 被引量：5
7李晓红.中文文本分类中的特征词抽取方法[J].计算机工程与设计,2009,30(17):4127-4129. 被引量：16
8沈静.浅析中文分词方法[J].漳州职业技术学院学报,2016,18(3):45-48. 被引量：2
9傅赛香,袁鼎荣,黄柏雄,钟智.基于统计的无词典分词方法[J].广西科学院学报,2002,18(4):252-255. 被引量：24
10胡冰,胡东军,马文超.文本挖掘研究及发展[J].电脑知识与技术,2008,3(11):792-793. 被引量：2

吉林工学院学报（自然科学版）

2002年第1期

浏览历史

内容加载中请稍等...

中文文本挖掘中的无词典分词的算法及其应用被引量：26

参考文献7

二级参考文献16

共引文献544

同被引文献203

引证文献26

二级引证文献176

相关作者

相关机构

相关主题

浏览历史

中文文本挖掘中的无词典分词的算法及其应用 被引量：26

参考文献7

二级参考文献16

共引文献544

同被引文献203

引证文献26

二级引证文献176

相关作者

相关机构

相关主题

浏览历史

中文文本挖掘中的无词典分词的算法及其应用被引量：26