基于词性的文本挖掘算法在IDS日志中的应用被引量：2

A Text Mining Algorithm Based on Part of Speech Used in IDS Logs

下载PDF

导出

摘要提出一种以词性为参考值的文本挖掘算法,能有效挖掘与种子词有关的关联规则。基于Bootstrapping算法思想,既减少了预处理阶段对于词根还原的依赖,能处理日志中出现的中文词汇。增加了对于日志文本上下的理解,提高了关联规则的有效性,并应用与IDS日志挖掘之中,有效改善挖掘效率,为规则库提供关联规则。 We made a text mining algorithm using part of speech （POS） as its argument, which can effectively mine the seed-related rules. Based on the idea of Bootstrapping algorithm, it can reduce the dependence of root-restoring on the pre- processing stage, process Chinese vocabulary appear in the log, increase the understanding of context, enhance the effectiveness of rule-relating. When applied in IDS log mining, it will significantly improve the mining efficiency and provide rule li- brary with rules.

作者胡军光刘力车奇

机构地区空军驻深圳地区军事代表室南京航空航天大学信息科学与技术学院

出处《计算机与数字工程》 2010年第2期90-93,共4页 Computer & Digital Engineering

关键词词性 ICTCLAS BOOTSTRAPPING 入侵检测系统数据挖掘 part of speech, ICTCLAS, Bootstrapping, IDS, data mining

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献7

1Bienman E, CloeteE. A. comparison of intrusion detection systems[J]. Computers & Security, 2006,20 (8):341-343.
2苏成.基于数据挖掘的入侵检测技术综述[J].信息网络安全,2008(3):60-61. 被引量：2
3赵艳杰.数据挖掘方法在入侵检测系统中的应用[J].潍坊学院学报,2008,8(2):19-22. 被引量：2
4刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
5张华平,刘群.基于N-最短路径方法的中文词语粗分模型[J].中文信息学报,2002,16(5):1-7. 被引量：99
6张素香,李蕾,秦颖,钟义信.基于Boot Strapping的中文实体关系自动生成[J].微电子学与计算机,2006,23(12):15-18. 被引量：3
7ZHANG Qi QIU Xi-Peng HUANG Xuan-Jing WU Li-De.Learning Semantic Lexicons Using Graph Mutual Reinforcement Based Bootstrapping[J].自动化学报,2008,34(10):1257-1261. 被引量：3

二级参考文献64

1音春,方勇,胡勇.对基于TCP/IP协议的网络攻击的分析[J].通信技术,2003,36(7):106-108. 被引量：2
2周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
3李宝敏.基于语义的Internet研究[J].微电子学与计算机,2005,22(9):130-133. 被引量：4
4袁里驰,钟义信.基于相似度的词聚类算法[J].微电子学与计算机,2005,22(8):93-95. 被引量：4
5高能,冯登国,向继.一种基于数据挖掘的拒绝服务攻击检测技术[J].计算机学报,2006,29(6):944-951. 被引量：44
6潘仰峰,刘渊.基于数据挖掘的入侵防御研究[J].计算机工程与设计,2007,28(1):56-58. 被引量：4
7H Y Tan. Chinese place automatic recognition research. In: C N Huang, Z D Dong, eds. Proc of Computational Language.Beijing: Tsinghua University Press, 1999
8Zhang Huaping, Liu Qun, Zhang Hao, et al. Automatic recognition of Chinese unknown words recognition. First SIGHAN Workshop Attached with the 19th COLING, Taipei, 2002
9S R Ye, T S Chua, J M Liu. An agent-based approach to Chinese named entity recognition. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002
10J Sun, J F Gao, L Zhang, et al. Chinese named entity identification using class-based language model. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002

共引文献286

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：8
2魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：8
3战疆,冯月利,王珊.PostgreSQL中文全文索引技术研究与实现[J].华中科技大学学报（自然科学版）,2005,33(z1):213-216. 被引量：3
4陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
5隋丽萍,徐承韬,李瑞芳.一个中文全文检索系统的设计与实现[J].科技资讯,2007,5(18):244-245. 被引量：1
6尹继豪,樊孝忠,刘士宁,于江德.一种基于Bootstrapping构建训练语料的方法[J].计算机研究与发展,2007,44(z2):394-397.
7于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
8于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
9张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
10王朝静,郑庆华.面向答疑文本的词类标注方法的研究与实现[J].计算机工程与应用,2004,40(16):57-60. 被引量：2

同被引文献13

1杨频,李涛,赵奎.一种网络舆情的定量分析方法[J].计算机应用研究,2009,26(3):1066-1068. 被引量：19
2江黎黎.网络舆情突发事件的处置机制研究[J].杭州电子科技大学学报（社会科学版）,2010,6(1):38-42. 被引量：13
3夏立新,王忠义.基于XML的全文检索原型系统的设计与实现[J].现代图书情报技术,2007(8):67-70. 被引量：9
4Jun Zhu, Ni Lao, Ning Chen, et al. Conditional topi- cal coding: an efficient topic model conditioned on rich features [ C KDD' 11, 2011:475 -482.
5JIN Yan, GAO Yang , SHI Ying-huan, et al. P2LSA and P2LSA + :Two paralleled probabilistic latent se- mantic analysis algorithms based on the mapReduce model [ J ]. Computer Science, 2011 ( 6936 ) : 385 -393.
6LI Rui,JU Li,PENG Zhuo, et al. Batch text similarity search with MapReduce [ J ]. Computer Science, 2011 (6612) :412 -423.
7何佳,周长胜,石显锋.网络舆情监控系统的实现方法[J].郑州大学学报（理学版）,2010,42(1):82-85. 被引量：27
8徐东亮,董开坤,李斌,王研芬.基于文本挖掘的聚类算法研究[J].微计算机信息,2011,27(2):168-169. 被引量：7
9张思行.高校网络舆情的话题演变过程研究——以“地沟油事件”为例[J].北京邮电大学学报（社会科学版）,2011,13(1):7-12. 被引量：10
10程苗,陈华平.基于Hadoop的Web日志挖掘[J].计算机工程,2011,37(11):37-39. 被引量：64

引证文献2

1朱蔷蔷,张桂芸,刘文龙.基于MapReduce框架一种文本挖掘算法的设计与实现[J].郑州大学学报（工学版）,2012,33(5):110-113. 被引量：4
2蔡洪民,陈铿.校园网舆情监控系统的设计与实现[J].计算机安全,2013(2):51-54. 被引量：3

二级引证文献7

1吴建军.网络舆情的云计算监测模式分析与实现[J].电讯技术,2013,53(4):476-481. 被引量：4
2梁凤兰.文本挖掘中一种基于参数估计的语句分块方案研究[J].计算机应用研究,2015,32(4):986-991. 被引量：1
3张玉芬,马春光,胡晓旭.高校校园网信息舆情监控系统的研究[J].经济研究导刊,2015(17):272-273.
4严嘉铭,黄理灿.基于MapReduce的朴素贝叶斯文本分类研究[J].工业控制计算机,2016,29(4):96-97. 被引量：1
5马强.基于搜索引擎的校园网站信息监控系统的设计与实现[J].电脑知识与技术（过刊）,2015,21(11X):17-18. 被引量：1
6曹宇逢.网页正文提取方法在舆情监控中的应用探究[J].数字技术与应用,2018,36(9):231-231.
7王若成.大数据环境下学生行为分析系统中关键技术的研究[J].信息技术与信息化,2019(7):196-198. 被引量：3

1王钊.基于SSH的Web中的文本挖掘算法的研究与应用[J].工业控制计算机,2015,28(9):128-129.
2朱颢东,蔡乐才,刘忠英.一种改进的文本特征选择算法[J].现代电子技术,2008,31(8):97-99. 被引量：7
3牛建强,曹元大.基于数据挖掘的IDS日志数据分析处理[J].计算机应用研究,2003,20(9):82-84. 被引量：4
4李纲,毛进.文本图表示模型及其在文本挖掘中的应用[J].情报学报,2013,32(12):1257-1264. 被引量：12
5刘志勇,耿新青.基于模糊聚类的文本挖掘算法[J].计算机工程,2009,35(5):44-45. 被引量：19
6朱蔷蔷,张桂芸,刘文龙.基于MapReduce框架一种文本挖掘算法的设计与实现[J].郑州大学学报（工学版）,2012,33(5):110-113. 被引量：4
7吴晓洲,万里明,韩霄松,梁艳春,吴春国.基于隐马尔可夫模型的转录因子文本挖掘算法[J].吉林大学学报（理学版）,2012,50(2):320-322. 被引量：1
8王一淼,彭宏,陈龙.基于入侵检测系统的主动取证方法[J].计算机应用研究,2007,24(5):278-279. 被引量：4
9崔玮,刘建伟,张其善.IDS日志数据挖掘的改进算法[J].计算机工程,2007,33(6):53-55. 被引量：3
10邱晓蕾,张聪超.基于SVD和部分聚集分类的文本挖掘算法[J].福建电脑,2005,21(10):48-49.

计算机与数字工程

2010年第2期

浏览历史

内容加载中请稍等...

基于词性的文本挖掘算法在IDS日志中的应用被引量：2

参考文献7

二级参考文献64

共引文献286

同被引文献13

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于词性的文本挖掘算法在IDS日志中的应用 被引量：2

参考文献7

二级参考文献64

共引文献286

同被引文献13

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于词性的文本挖掘算法在IDS日志中的应用被引量：2