一种基于MapReduce的改进文本输入方式的并行分词方法研究

An Improved Text Input Method for Parallel Word Segmentation Bascd on Mapreduce

下载PDF

导出

摘要中文分词方法都属于串行分词方法，不能处理海量数据。提出一种基于M印Reduce的并行分词方法。Mapreduce程模型默认使用TextI印utFomat文本输入方式，该方式不适合处理大量文本文件。首先基于CombineFilelnputFormat类，自定义文本输入方式MylnputFormat，并在实现createRecordReader方法过程中返回RecordReader对象。其次自定义MyReeordReader类来说明读取文本〈key，value〉键值对的具体逻辑。最后自定义MapReduce函数实现不同类别文本的分词结果。实验证明，基于改进后的MylnputFormat文本输入方式比默认的TextlnputFormat输入方式，更能处理大量文本文件。 Method of word segmentation is a serial process and it fails to deal with big data. We put forward a parallel word seg- mentation based on MapReduce. TextlnputFormat is the default input class when preprocessing in the programming model of Mapreduce, while it fails to process datasets which is made up of many small files. Firstly, we define a new class named Myln- putFormat based on the class of CombineFilelnputFormat,and return an object of RecordReader class. Secondly, we declare My- RecordReader class, by which can we write a new logic method to read and split the original data to 〈key, value〉 pairs when implementing the createRecordReader method. Last, we define our own mapreduce function, by which can we get the final seg- mentation results of different categories. The experimental results indicate that, compared with the default TextlnputFormat, My- InputForrnat saves much time to segment the text.

作者徐宏博赵文涛孟令军 XU Hong-bo, ZHAO Wen-tao, MENG Ling-jun （College of Computer Science and Technology, Henan Polytechnic University, Jiaozuo 454000, China）

机构地区河南理工大学计算机科学与技术学院

出处《电脑知识与技术》 2016年第8期171-175,共5页 Computer Knowledge and Technology

关键词 MapReduc 分片 TextlnputFormat CombineFilelnputFormat MapReduce split TextlnputFormat CombineFilelnputFormat

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1韩冬煦,常宝宝.中文分词模型的领域适应性方法[J].计算机学报,2015,38(2):272-281. 被引量：59
2曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
3开源中国社区.中文分词库IKAnalyzer[EB/OL].[2010-03-10].http://www.oschina.net/p/ikanalyzer.
4Apache Lucene [EB/OL].http://lucene.apache.org/.
5张晨逸,孙建伶,丁轶群.基于MB-LDA模型的微博主题挖掘[J].计算机研究与发展,2011,48(10):1795-1802. 被引量：165
6申国伟,杨武,王巍,于淼.面向大规模微博消息流的突发话题检测[J].计算机研究与发展,2015,52(2):512-521. 被引量：15
7应毅,刘亚军.MapReduce并行计算技术发展综述[J].计算机系统应用,2014,23(4):1-6. 被引量：18
8EricSammer.Hadoop技术详解[M].刘敏,麦耀锋,李冀蕾,等,译.北京:人民邮电出版社,2013.
9ChuckLam.Hadoop实战[M].北京:人民邮电出版社,2011:17-50.
10BorisLublinsky,SmithKT,AlexeyYakubovich.Hadoop高级编程[M].穆玉伟,靳晓辉,译.北京:清华大学出版社,2014.

二级参考文献108

1黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
2Kang J H, Lerman K, Plangprasopchok A. Analyzing Microblogs with affinity propagation [C] //Proc of the 1st KDD Workshop on Social Media Analytic. New York: ACM, 2010:67-70.
3Ramage D, Dumais S, Liebling D. Characterizing microblogs with topic models [C] //Proc of Int AAAI Conf on Weblogs and Social Media. Menlo Park, CA: AAAI, 2010:130-137.
4Xu R, Wunsch D. Survey of clustering algorithms [J]. IEEE Trans on Neural Networks, 2005, 16(3): 645-678.
5Deerwester S, Dumais S, Landauer T, et al. Indexing by latent semantic analysis [J]. Journal of the American Society of Information Science, 1990, 41(6): 391-407.
6Landauer T K, Foltz P W, Laham D. Introduction to Latent Semantic Analysis [J]. Discourse Processes, 1998, 25 (2) 259-284.
7Griffiths T, Steyvers M. Probabilistic topic models [G] // Latent Semantic Analysis: A Road to Meaning. Hillsdale, NJ: Laurence Erlbaum, 2006.
8Hofmann T. Probabilistic latent semantic indexing [C] // Proc of the 22nd Annual Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 1999:50-57.
9Salton G, McGill M. Introduction to Modern Information Retrieval [M]. New York: McGraw-Hill, 1983.
10Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation [J]. The Journal of Machine Learning Research, 2003, 3: 993-1022.

共引文献323

1许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：3
2李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
3刘娜,肖智博,路莹,唐晓君,肖鹏.自适应主题融合的多文档自动摘要算法[J].中南大学学报（自然科学版）,2013,44(S2):205-209.
4姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(S1):179-185. 被引量：12
5丁洁.基于Lucene的中文分词系统设计与实现[J].自动化与仪器仪表,2016(5):208-210. 被引量：5
6丁洁.基于最佳粒度匹配的中文分词算法的研究[J].自动化与仪器仪表,2016(7):169-170. 被引量：1
7夏霙,刘功申,李翔.基于标引信息的网络新概念发现算法[J].微型电脑应用,2007,23(1):8-10.
8张素智,刘放美.基于矩阵约束法的中文分词研究[J].计算机工程,2007,33(15):98-100. 被引量：11
9余希田,李丹亚,胡铁军.汉语自动分词歧义处理研究[J].医学信息学杂志,2007,28(6):541-544.
10赫建营,晏海华,金茂忠,刘超.结合本体筛选和文本挖掘的垂直搜索引擎研究[J].计算机科学,2008,35(2):188-190. 被引量：10

1赵大兴,彭章明,丁建军.基于MAX+plusⅡ开发平台的EDA设计方法[J].湖北工业大学学报,2005,20(1):27-29. 被引量：2
2朱坤,陈东义,周银河.移动计算文本输入研究—测试样本选择与分析[J].计算机与数字工程,2006,34(12):19-21.
3杨春花,万建成,姜合.一个并行分词体系结构模型[J].计算机工程与应用,2004,40(33):89-91.
4吴胜远.并行分词方法的研究[J].计算机研究与发展,1997,34(7):542-545. 被引量：13
5郑路路.针对OpenStack平台逻辑架构的研究[J].电脑与信息技术,2014,22(5):14-16. 被引量：2
6张靖宇,梁久祯.中文网页分布式并行索引的设计与实现[J].微计算机信息,2010,26(15):127-128. 被引量：1
7王华.EJB环境下远程方法粗粒度调用的实现[J].计算机工程与科学,2004,26(7):93-96.
8付东来,陈够喜,杨秋翔.非完备多载体隐写算法研究[J].小型微型计算机系统,2012,33(2):388-391. 被引量：1
9林鹏.电大在线形成性考核系统公式文本编辑器的实现[J].现代企业教育,2012(10):98-99.
10张玉琼,薛亚丽,李东海,孙立.一种具有无扰切换功能的位置型自抗扰控制器数字实现[J].系统科学与数学,2016,36(5):605-616.

电脑知识与技术

2016年第8期

浏览历史

内容加载中请稍等...

一种基于MapReduce的改进文本输入方式的并行分词方法研究

参考文献12

二级参考文献108

共引文献323

相关作者

相关机构

相关主题

浏览历史