基于Python语言的中文分词技术的研究被引量：58

Chinese Word Segmentation Technology based on Python Language

下载PDF

导出

摘要 Python作为一种解释性高级编程语言,已经深入大数据、人工智能等热门领域。Python在数据科学领域具有广泛的应用,比如Python爬虫、数据挖掘等等。将连续的字序列划分为具有一定规范的词序列的过程称为分词。在英文中,空格是单词间的分界符,然而中文比较复杂。一般来说对字、句子和段落的划分比较简单,但中文中词的划分没有明显的标志,所以对中文文本进行分词的难度较大。运用Python爬虫对网页数据进行抓取作为实验文本数据,使用python强大的分词库jieba对中文文本进行分词处理。对分词结果分别采用TF-IDF算法和TextRank算法进行提取关键词,实验结果明显优于基于词频的分词算法。最后采用词云的方式对关键词进行展现,使得分词结果一目了然。 As an interpreted high-level programming language,Python has penetrated into popular fields such as big data and artificial intelligence.Python has a wide range of applications in data science,such as Python crawlers,data mining,etc.Word segmentation is the process of recombining consecutive subsequences into word sequences in accordance with certain specifications.In English,spaces are delimiters between words,but Chinese is fairly complicated.Generally speaking,the division of words,sentences and paragraphs is relatively simple,but the division of words in Chinese has no obvious signs,so it is more difficult to segment Chinese words.Python crawlers are used to crawl web page data as experimental text data.Python’s powerful word segmentation library jieba is used for word segmentation of Chinese text.The TF-IDF algorithm and the TextRank algorithm are used to extract keywords for the word segmentation results.The experimental results are obviously better than the word frequency-based word segmentation algorithm.Finally,the word cloud is used to display the keywords,thus making the word segmentation results clear at a glance.

作者祝永志荆静 ZHU Yong-zhi;JING Jing(School of Information Science and Engineering,Qufu Normal University,Rizhao Shandong 276826,China)

机构地区曲阜师范大学信息科学与工程学院

出处《通信技术》 2019年第7期1612-1619,共8页 Communications Technology

基金山东省自然科学基金项目(No.ZR2013FL015) 山东省研究生教育创新资助计划(No.SDYY12060)~~

关键词 PYTHON 文本分词 jieba 词云数据可视化 Python text segmentation jieba word cloud data visualization

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP312.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1谢克武.大数据环境下基于python的网络爬虫技术[J].电子制作,2017,25(9):44-45. 被引量：50
2唐明,朱磊,邹显春.基于Word2Vec的一种文档向量表示[J].计算机科学,2016,43(6):214-217. 被引量：144
3王志超,孙建斌,秦瑞丽.基于分词的关联规则预测系统研究[J].计算机应用与软件,2018,35(12):140-143. 被引量：4
4吴帅,潘海珍.基于隐马尔可夫模型的中文分词[J].现代计算机,2018,24(22):25-28. 被引量：8
5唐家渝,孙茂松.新媒体中的词云:内容简明表达的一种可视化形式[J].中国传媒科技,2013(6):18-19. 被引量：14
6严明,郑昌兴.Python环境下的文本分词与词云制作[J].现代计算机,2018,24(23):86-89. 被引量：31
7郭丽蓉.基于Python的网络爬虫程序设计[J].电子技术与软件工程,2017(23):248-249. 被引量：59
8李康康,龙华.基于词的关联特征的中文分词方法[J].通信技术,2018,51(10):2343-2349. 被引量：6
9管华.对当今Python快速发展的研究与展望[J].信息系统工程,2015,28(12):114-114. 被引量：6
10吴丹露,魏彤,许家清.R语言环境下的文本可视化及主题分析——以社会服务平台数据为例[J].宁波工程学院学报,2015,27(1):19-25. 被引量：10

二级参考文献84

1费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
2石晶,戴国忠.基于PLSA模型的文本分割[J].计算机研究与发展,2007,44(2):242-248. 被引量：25
3黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
4刘知远.基于文档主题结构的关键词抽取方法研究[D].北京:清华大学,2011.
5Mihalcea R, Tarau P. TextRank: Bringing Order into Texts [C]. In: Proceedings of Conference on Empirical Methods in Natural Language Processing, Barcelona, Spain. 2004: 404-411.
6Frank E, Paynter G W, Witten I H, et al. Domain-Specific Keyphrase Extraction [C]. In: Proceedings of the 16th International Joint Conference on Artificial Intelligence, Stockholm, Sweden. San Francisco: Morgan Kaufmann Publishers Inc., 1999: 668-673.
7Turney P D. Learning Algorithms for Keyphrase Extraction [J]. Information Retrieval, 2000, 2(4): 303-336.
8Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation [J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
9Page L, Brin S, Motwani R, et al. The PageRank Citation Ranking: Bringing Order to the Web [R]. Stanford InfoLab, 1999.
10Kleinberg J M. Authoritative Sources in a Hyperlinked Environment[J]. Journal of the ACM, 1999, 46(5): 604-632.

共引文献412

1聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
2沈承放,莫达隆,黄文韬.网页数据采集算法及在住户调查中的应用[J].统计与决策,2021(7):52-56. 被引量：5
3谈帅,唐天琪,高雅.网络众源地理信息获取与整合方法研究[J].现代测绘,2021(2):53-58.
4梁晶,陈中元,张永宏,唐明灯.基于Python语言的“网络攻防技术”课程教学改革探索[J].中国多媒体与网络教学学报（电子版）,2020(14):48-50. 被引量：3
5项博良,唐淳淳,钱前,曹健东.基于网络爬虫的就业数据分析[J].智能计算机与应用,2020,10(1):223-226. 被引量：4
6周丰,殷丽丽,沈琼,杨怀光.基于word2vec的瓶装水线上评论智能分析[J].包装工程,2022,43(S01):48-55. 被引量：1
7韩佳良.浅谈综合调度与成本控制[J].城镇供水,2000(2):21-23.
8李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
9王关嵩,钱桂生,杨晓静.一氧化碳对大鼠肺动脉平滑肌细胞[Ca^(2+)]、cAMP、cGMP的作用[J].第三军医大学学报,2000,22(5):417-419. 被引量：6
10李文慧,张英俊,潘理虎.多因素影响特征选择的短文本分类方法[J].计算机系统应用,2018,27(12):216-221. 被引量：3

同被引文献440

1王珊珊.地方高校创新创业教育生态体系构建研究——基于全国创新创业典型经验高校案例的分析[J].职业技术教育,2021,42(17):61-65. 被引量：12
2唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
3郑蕊.基于小程序的高校图书馆个性化服务深化研究[J].知识管理论坛,2019,0(5):310-319. 被引量：3
4丁宇,李瑞祥.利用pandas的数据清洗功能来提取宽带用户的相关信息[J].网络安全和信息化,2021(9):94-96. 被引量：6
5王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.基于支持向量机的中文极短文本分类模型[J].计算机应用研究,2020,37(2):347-350. 被引量：30
6雍龙泉,贾伟,张建科.基于爬虫技术与智能算法的网络舆情监测[J].智能计算机与应用,2021,11(4):35-38. 被引量：3
7王宏,夏禹,常静静.面向政府采购数据的工程化采集方案设计[J].智能计算机与应用,2020,10(7):170-175. 被引量：2
8陈昌凤.同质化的信息消费:2013年我们在关注什么——中国四地2013年谷歌搜索热点数据分析[J].新闻与写作,2014(2):50-52. 被引量：6
9姚卫新,黄丽华.智能数据分析中的异常数据管理[J].科技导报,2004,22(7):54-56. 被引量：3
10郑一省.华侨华人、港澳同胞与侨乡社会公益事业——梅州市个案研究[J].八桂侨刊,2001(4):50-52. 被引量：8

引证文献58

1吴晓春,洪晨,张岳.高校实验仪器与设备管理问答系统[J].中国科技论文在线精品论文,2023(2):179-185.
2尹萍,杨为进.加强创新意识,重视仪器研制工作[J].现代科学仪器,2000,17(1):3-4. 被引量：3
3宋永生.基于Python的视频信息挖掘[J].现代计算机,2019,0(31):76-79. 被引量：3
4荀雪莲,王晓宁.基于中文摘要关键词的毕业论文质量评价系统[J].廊坊师范学院学报（自然科学版）,2019,19(4):30-32. 被引量：3
5宋永生,黄蓉美,王军.基于Python的数据分析与可视化平台研究[J].现代信息科技,2019,3(21):7-9. 被引量：26
6李杰,孙仁诚.基于词频统计算法的中英文词频分布研究[J].青岛大学学报（工程技术版）,2020,35(1):1-5. 被引量：2
7刘艳玲,姚建盛.Python在数据可视化中的应用[J].福建电脑,2020,36(3):68-70. 被引量：19
8韦人予.中文分词技术研究[J].信息与电脑,2020,32(10):26-29. 被引量：12
9敖盛,徐岚,敖清文.NLP中文分词技术在桥梁报告数据处理中的应用[J].交通世界,2020(17):3-5. 被引量：2
10侯波涛.基于python的通信系统数据分析[J].通信技术,2020,53(7):1715-1720. 被引量：10

二级引证文献213

1陈静静,卿婷玉,周波.基于R语言ARIMA模型对我国医疗卫生资源预测研究[J].社区医学杂志,2022,20(2):108-115. 被引量：2
2李灿,解丹.中医电子病历入院记录信息自动抽取方法研究[J].世界科学技术-中医药现代化,2023,25(5):1615-1622.
3周轶泽,马云飞,刘纪超,张艺玲.基于Python的BIM参数化装配式建筑构件的研究与应用[J].四川建筑,2021,41(S01):161-164. 被引量：2
4索文灏.数字化转型背景下农业上市公司业绩评价——基于因子分析的实证研究[J].农村经济与科技,2023,34(24):258-261.
5刘安琪,李静秋,刘莹,兰青,陈玉保.基于SWOT分析的我国中小型农业企业发展研究[J].农村经济与科技,2022,33(17):25-28. 被引量：1
6田钒平,田甡睿,张耀.数字化时代“信息茧房”风险与民族事务治理[J].民族学刊,2023,14(8):72-84. 被引量：1
7李晶晶,袁显湖,尚国银.批量劳务工转正背景下煤矿企业安全管理形势与对策研究[J].煤炭工程,2023,55(S01):252-256.
8梁兆东,朱土凤,安旭东,李崇洁,廖冬梅,周琦杰.基于信息化技术实现2次地震事件评论数据的挖掘分析[J].华北地震科学,2020,38(S02):144-151.
9岳珊.元组类型的相对可变性研究[J].电子技术（上海）,2021,50(4):192-194. 被引量：2
10张苑,祝小兰,杨东晓.基于深度学习的疫情情感分析[J].智能计算机与应用,2022,12(3):40-45. 被引量：1

1田灿伟,吴佳.智能图书推荐微信小程序设计与实现[J].移动信息,2019(3):67-68.
2杨肖琴.浅谈高中英语高效课堂中词汇教学策略[J].读与写（教育教学刊）,2019,0(9):93-93. 被引量：4
3翟震,刘文涛,李辉.《Python程序设计》在包装工程专业的教学与实践[J].课程教育研究,2019(35):241-242. 被引量：1
4于游,付钰,吴晓平.中文文本分类方法综述[J].网络与信息安全学报,2019,5(5):1-8. 被引量：39
5许峰,张雪芬,忻展红.基于深度神经网络模型的中文分词方案[J].哈尔滨工程大学学报,2019,40(9):1662-1666. 被引量：11
6罗越.探究式学习在高中英语词汇教学中的运用[J].成功,2018(24):233-233.
7杨艳博.浅谈对外汉语教学中的成语教学[J].东西南北,2019,0(11):91-91.
8侯雨铃.中文文本汉语拼音自动产生系统设计方案[J].软件,2019,40(9):144-147.
9和丽娟.高中英语课堂教学中词汇教学策略探究[J].高考,2019,0(32):55-55.
10贾英姿.火车浏览器在抓取网页数据中的研究思考[J].移动信息,2019(5):45-47.

通信技术

2019年第7期

浏览历史

内容加载中请稍等...

基于Python语言的中文分词技术的研究被引量：58

参考文献12

二级参考文献84

共引文献412

同被引文献440

引证文献58

二级引证文献213

相关作者

相关机构

相关主题

浏览历史

基于Python语言的中文分词技术的研究 被引量：58

参考文献12

二级参考文献84

共引文献412

同被引文献440

引证文献58

二级引证文献213

相关作者

相关机构

相关主题

浏览历史

基于Python语言的中文分词技术的研究被引量：58