基于改进的Prefixspan算法的中文文本新词提取方法研究被引量：2

Research on the Method of Chinese Text New Word Discovery base on Improved Prefix Span Alporithm

下载PDF

导出

摘要该文尝试将序列模式挖掘算法Prefixspan应用于中文文本新词提取中,针对Prefixspan算法挖掘出的序列模式不连续、挖掘出的序列模式项相互间存在包含关系等问题,对算法进行改进,采用语义特征与统计相结合的方法,实现了从中文语料中有效提取新词。实验结果表明,该方法对于专业领域新词的识别具有较高的准确性。 The article attempts to apply the sequential pattern mining algorithm—Prefixspan to the extraction of Chinese text Neologisms.Aiming at the problem of sequential pattern discontinuity,the mining sequence patterns include each other and so on, the paper improved the prefixspan algorithm and combined semantic features with statistics to achieve effective discovery new words from Chinese text. The experimental results show that the method has high accuracy in the new word discovery.

作者李博涵蔡永香邓舒颖王督

机构地区长江大学地球科学学院

出处《电脑知识与技术》 2018年第3Z期160-163,共4页 Computer Knowledge and Technology

基金国家自然科学基金(41701537) 湖北省教育厅科研项目(B2015448)

关键词 PREFIXSPAN 序列模式挖掘新词提取投影数据库新词发现 Prefixspan sequential pattern mining new word extract project database new word discovery

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1王文荣,乔晓东,朱礼军.针对特定领域的新词发现和新技术发现[J].现代图书情报技术,2008(2):35-40. 被引量：7
2夭荣朋,许国艳,宋健.基于改进互信息和邻接熵的微博新词发现方法[J].计算机应用,2016,36(10):2772-2776. 被引量：24
3陆介平,刘月波,倪巍伟,陈耿,孙志挥.基于投影数据库的序列模式挖掘增量式更新算法[J].东南大学学报（自然科学版）,2006,36(3):457-462. 被引量：5
4公伟,刘培玉,贾娴.基于改进PrefixSpan的序列模式挖掘算法[J].计算机应用,2011,31(9):2405-2407. 被引量：12
5汪林林,范军.基于PrefixSpan的序列模式挖掘改进算法[J].计算机工程,2009,35(23):56-58. 被引量：13

二级参考文献40

1贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28
2王立希,王建东,汪静.基于数据挖掘的新词发现[J].计算机应用研究,2006,23(12):195-197. 被引量：8
3朱礼军,赵新力,乔晓东,孙钦山.跨领域多来源主题词表集成与服务研究[J].现代图书情报技术,2007(1):20-24. 被引量：16
4张坤,朱扬勇.无重复投影数据库扫描的序列模式挖掘算法[J].计算机研究与发展,2007,44(1):126-132. 被引量：17
5Agrawal R, Srikant R. Mining Sequential Pattems[C]//Proc. of the 11th Int'l Conf. on Data Engineering. Taipei, China: [s. n.], 1995: 3-L4.
6Srikant R, Agrawal R. Mining Sequential Patterns: Generalizations and Performance Improvements[C]//Proc. of the 5th Int'l Conf. on Extending Database Technology. Avignon, France: [s. n.], 1996: 3-17.
7Zaki M J. SPADE: An Efficient Algorithm for Mining Frequent Sequences[J]. Machine Learning Journal, Special Issue on Unsupervised Learning, 2001, 42(1/2): 31-60.
8Pei Jian,- Han Jiawei, Mortazavi B, et al. FreeSpan: Frequent Pattern-projected Sequential Pattern Mining[C]//Proe. of the 6th Int'l Conf. on Knowledge Discovery and Data Mining. New York, USA: [s. n.], 2000: 355-359.
9Pei Jian, Han Jiawei, Mortazavi-Asl B, et al. Mining Sequential Patterns by Pattern-growth: The PrefixSpan Approach[J]. IEEE Trans. on Knowledge and Data Engineering, 2004, 16(11): 1424-1440.
10AGRAWAL B, SRIKANT It. Mining sequential patterns [C]// ICDE '95: Proceedings of the Eleventh International Conference on Data Engineering. Washington, DC: IEEE Computer Society, 1995:3 - 14.

共引文献51

1王伟娜,李陶深,陈庆锋.基于投影位置的序列模式挖掘算法[J].华中科技大学学报（自然科学版）,2012,40(S1):104-107.
2韩艳,林煜熙,姚建民.基于统计信息的未登录词的扩展识别方法[J].中文信息学报,2009,23(3):24-30. 被引量：15
3王虎,丁世飞.序列模式挖掘研究与发展[J].计算机科学,2009,36(12):14-17. 被引量：33
4公伟,刘培玉,贾娴.基于改进PrefixSpan的序列模式挖掘算法[J].计算机应用,2011,31(9):2405-2407. 被引量：12
5王娜娜,陈立潮,潘理虎,张英俊.基于时间间隔和点击量的Prefixspan改进算法[J].计算机技术与发展,2011,21(10):81-84.
6刘佳新.一种基于频繁序列树的增量式序列模式挖掘算法[J].计算机与现代化,2012(2):8-10. 被引量：1
7刘佳新.基于频繁序列树的交互式序列模式挖掘算法[J].计算机技术与发展,2012,22(5):64-66. 被引量：1
8孙晓,李培峰.领域语言模型及其在中文输入系统中的应用[J].计算机应用与软件,2012,29(8):46-48.
9周晓凤,肖南峰,文翰.基于情感特征分类的语音情感识别研究[J].计算机应用研究,2012,29(10):3648-3650. 被引量：5
10缪裕青,吴孔玲,朱晓雁,张锦杏.基于二级索引结构无候选项闭合序列模式挖掘算法[J].计算机应用研究,2012,29(10):3672-3676.

同被引文献20

1董飞.基于0-1规划模型旅游团路线的设计[J].时代金融,2020,0(5):144-145. 被引量：2
2顾森.基于大规模语料的新词发现算法[J].程序员,2012(7):54-57. 被引量：7
3李亚松,王玉龙.一种新词自动提取方法[J].电信工程技术与标准化,2014,27(12):83-86. 被引量：1
4徐盼,程保杰,吴倩,吕超,谷晴,肖文杰.基于朴素贝叶斯方法的个性化旅游路线推荐系统[J].软件导刊,2015,14(12):152-154. 被引量：6
5吴宏洲.分词技术的研究与应用——一种抽取新词的简便方法[J].软件工程师,2015(12):64-68. 被引量：3
6梁珂,隋立春,张谷生.基于最小生成树和聚类算法的旅游线路规划[J].测绘技术装备,2016,18(4):45-48. 被引量：5
7陈小红,陈环环,方之家,阮彤,王昊奋.基于领域本体的游戏攻略文本标注算法研究与实现[J].计算机应用与软件,2017,34(2):80-86. 被引量：2
8周霜霜,徐金安,陈钰枫,张玉洁.融合规则与统计的微博新词发现方法[J].计算机应用,2017,37(4):1044-1050. 被引量：15
9张华平,商建云.面向社会媒体的开放领域新词发现[J].中文信息学报,2017,31(3):55-61. 被引量：15
10王珊珊,冯利鑫.基于新词识别的大数据聊天文本舆情热点挖掘[J].电子商务,2018,19(1):60-61. 被引量：1

引证文献2

1曹帅.结合关联置信度与结巴分词的新词发现算法[J].计算机系统应用,2020,29(5):144-151. 被引量：5
2胡冰冰,芦俊丽,郑承宇.改进的PrefixSpan算法在旅游热门路线上的应用[J].云南民族大学学报（自然科学版）,2022,31(1):94-102. 被引量：2

二级引证文献7

1杨雯迪,任春华,孙洁香.支持汽车故障数据增值的词汇增强实体识别[J].现代计算机,2021,27(26):8-14. 被引量：2
2王海燕,王鸣鹃,陶皖.基于知识图谱的高校辅导员研究热点的演化路径分析[J].常州工学院学报,2021,34(6):80-86.
3王金羽,詹逸思,冯起,李曼丽.教育质性研究中人机协同文本挖掘技术的运用——以某高校教学评估中文文本数据为例[J].清华大学教育研究,2022,43(2):56-63. 被引量：4
4陈扬,邵龙,唐岳兴.基于公众情感倾向的主题公园评价研究--以哈尔滨市伏尔加庄园为例[J].当代建筑,2022(10):129-133. 被引量：1
5罗旋,罗玮,贺增良,郭仕锐,冯坤.频繁模式的水电信号异常检测[J].现代电子技术,2023,46(10):61-65. 被引量：1
6王巍洁,任慧玲,李晓瑛,王勖,张颖.融合汉字多语义与文本统计特征的中文医学新词发现研究[J].图书情报工作,2024,68(6):119-128.
7龙雪琴,王晗,王瑞璇.基于频繁序列挖掘的出租车轨迹特性分析[J].华南理工大学学报（自然科学版）,2024,52(6):24-33.

1郑修猛,陈福才,黄瑞阳,朱宇航.面向协同推荐的评论文本情感打分机制研究[J].信息工程大学学报,2017,18(4):464-469. 被引量：1
2王劼,赵计梅,曾泽林.日常禁忌话题在英汉语中的语用差异[J].长春理工大学学报（高教版）,2011(7):78-79. 被引量：1
3朱一波,鲍培明,吉根林.一种用户频繁移动模式并行挖掘算法[J].中国科学技术大学学报,2018,48(1):57-64. 被引量：1
4丁祥武,张东辉.基于Spark的中文新词提取[J].计算机工程与设计,2017,38(11):3185-3191. 被引量：1
5李海波,雷秀洋.面向协同任务的资源服务关键特征序列识别方法[J].计算机集成制造系统,2017,23(12):2571-2582. 被引量：1
6荣俸萍,方勇,左政,刘亮.MACSPMD:基于恶意API调用序列模式挖掘的恶意代码检测[J].计算机科学,2018,45(5):131-138. 被引量：12
7彭大芹,杨彩敏,黄德玲.一种改进的PrefixSpan应用层特征自动提取算法[J].信息通信,2017,30(1):18-20.
8周坤,王爱荣,张敬谊,熊赟,朱扬勇.VPM:一个就医行为模式挖掘算法[J].计算机应用与软件,2011,28(8):123-125. 被引量：1
9王雪瑞,刘渊.基于边界增强的中文直播弹幕新词发现[J].传感器与微系统,2018,37(7):142-146. 被引量：1
10乔少杰,韩楠,李天瑞,李荣华,李斌勇,王晓腾,Louis Alberto GUTIERREZ.基于前缀投影技术的大规模轨迹预测模型[J].软件学报,2017,28(11):3043-3057. 被引量：6

电脑知识与技术

2018年第3Z期

浏览历史

内容加载中请稍等...

基于改进的Prefixspan算法的中文文本新词提取方法研究被引量：2

参考文献5

二级参考文献40

共引文献51

同被引文献20

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于改进的Prefixspan算法的中文文本新词提取方法研究 被引量：2

参考文献5

二级参考文献40

共引文献51

同被引文献20

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于改进的Prefixspan算法的中文文本新词提取方法研究被引量：2