中文分词技术研究进展综述被引量：9

A Summary of the Research Progress of Chinese Word Segmentation Technology

下载PDF

导出

摘要中文分词作为实现机器处理中文的一项基础任务,是近几年的研究热点之一。其结果对后续处理任务具有深远影响,具备充分的研究意义。通过对近5年分词技术研究文献的综合分析,明晰后续研究将以基于神经网络模型的融合方法为主导,进一步追求更精准高效的分词表现。而在分词技术的发展与普及应用中,亦存在着制约其性能的各项瓶颈。除传统的歧义和未登录词问题外,分词还面临着语料规模质量依赖和多领域分词等新难题,针对这些新问题的突破研究将成为后续研究的重点之一。 As a basic task of machine processing, Chinese word segmentation is one of the research hotspots in recent years. The results have a far-reaching impact on the follow-up processing tasks, and are of full research significance. Through the comprehensive analysis of the research literature on word segmentation technology in the past five years, it is clear that the follow-up research will be dominated by the fusion method based on neural network model, and further pursue more accurate and efficient word segmentation performance. In the development and application of word segmentation technology, there are also various bottlenecks restricting its performance. In addition to the traditional ambiguity and unknown words, word segmentation is now faced with new problems such as corpus scale and quality dependence and multi-domain word segmentation. The breakthrough research on these new problems will become one of the focuses of the follow-up research.

作者钟昕妤李燕 ZHONG Xin-yu;LI Yan(School of Information Engineering,Gansu University of Traditional Chinese Medicine,Lanzhou 730101,China)

机构地区甘肃中医药大学信息工程学院

出处《软件导刊》 2023年第2期225-230,共6页 Software Guide

基金甘肃中医药大学研究生创新基金项目(2022CX137)。

关键词中文分词深度学习语料依赖多领域分词 Chinese word segmentation deep learning corpus dependence multi-domain participle

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献20

1张琪,江川,纪有书,冯敏萱,李斌,许超,刘浏.面向多领域先秦典籍的分词词性一体化自动标注模型构建[J].数据分析与知识发现,2021,5(3):2-11. 被引量：24
2刘伟,黄锴宇,余浩,黄德根.基于语境相似度的中文分词一致性检验研究[J].北京大学学报（自然科学版）,2022,58(1):99-105. 被引量：6
3成于思,施云涛.面向专业领域的中文分词方法[J].计算机工程与应用,2018,54(17):30-34. 被引量：19
4胡昊天,邓三鸿,张逸勤,张琪,孔嘉,王东波.数字人文视角下的非物质文化遗产文本自动分词及应用研究[J].图书馆杂志,2022,41(8):76-83. 被引量：10
5俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：16
6郭正斌,张仰森.基于定长序列的双向LSTM分词优化方法[J].郑州大学学报（理学版）,2018,50(2):97-101. 被引量：4
7李雅昆,潘晴,Everett X.WANG.基于改进的多层BLSTM的中文分词和标点预测[J].计算机应用,2018,38(5):1278-1282. 被引量：9
8王星,李超,陈吉.基于膨胀卷积神经网络模型的中文分词方法[J].中文信息学报,2019,33(9):24-30. 被引量：20
9王星,于丽美,陈吉.融合字根信息的卷积神经网络中文分词方法[J].小型微型计算机系统,2022,43(2):271-277. 被引量：4
10涂文博,袁贞明,俞凯.无池化层卷积神经网络的中文分词方法[J].计算机工程与应用,2020,56(2):120-126. 被引量：12

二级参考文献168

1仲怿,茹晨雷,张伯礼,程翼宇.基于知识图谱的中药制药过程质量控制方法学研究[J].中国中药杂志,2019,44(24):5269-5276. 被引量：23
2王明强,张磊,崔一迪,陈欣然,李国正.利用Neo4j存储中医皮肤病“病-证-治”本体方法的研究[J].世界科学技术-中医药现代化,2020,22(8):2914-2921. 被引量：15
3罗粤铭,侯海晶,卢家言,李晓朋,翁衡,刘旭生,周薇,杨霓芝.基于知识图谱和专家访谈分析杨霓芝教授治疗糖尿病肾病用药规律[J].世界科学技术-中医药现代化,2020,22(5):1464-1471. 被引量：12
4高翔.发挥知识产权支撑保障作用助力科技创新驱动高质量发展[J].经营与管理,2021(4):82-85. 被引量：4
5丁若尧.面向古汉语史料的信息抽取方法综述[J].中国科技纵横,2019,0(14):50-51. 被引量：1
6庄丽,包塔,朱小燕.盲人用计算机软件系统中的语音和自然语言处理技术[J].中文信息学报,2004,18(4):72-78. 被引量：9
7孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
8刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
9崔尚森,冯博琴.最长前缀匹配查找的索引分离trie树结构及其算法[J].计算机工程与应用,2005,41(20):131-134. 被引量：5
10刘江,郑家恒,张虎.中文文本语料库分词一致性检验技术的初探[J].计算机应用研究,2005,22(9):52-54. 被引量：10

共引文献185

1胡庆玲,林栋,陈楷闻,吴新丽,梁宏博,杨文珍.基于国家通用盲文标调规则的汉盲转换系统[J].计算机系统应用,2022,31(12):59-68. 被引量：2
2洪海蓝,李文林,杨涛,李玥,梅文静.基于知识图谱的海洋中药智能问答系统的设计与实现[J].世界科学技术-中医药现代化,2023(6):1935-1941. 被引量：4
3曹树金,曹茹烨,李睿婧.数智时代的知识组织研究进展[J].情报学进展,2024(1):318-347.
4冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：8
5李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：5
6蒋旭东,杨莉,舒启江,刘红杏,张美娜,赵林波.中医药院校“互联网+”创新创业项目培育策略分析[J].创新创业理论研究与实践,2022(5):194-198.
7苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：14
8吴帅,潘海珍.基于隐马尔可夫模型的中文分词[J].现代计算机,2018,24(22):25-28. 被引量：8
9县小平,马国俊.基于随机游走算法的中文文档信息处理模型[J].青海科技,2019,26(3):45-48.
10程博,李卫红,童昊昕.基于BiLSTM-CRF的中文层级地址分词[J].地球信息科学学报,2019,21(8):1143-1151. 被引量：16

同被引文献112

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：45
2刘允林,徐仙鹏,姚兰,罗彬.地震应急期间现场防震减灾科普宣传的路径研究[J].高原地震,2021,33(3):69-73. 被引量：5
3王辉斌.杜牧的登高诗及其艺术精神[J].唐都学刊,2009,25(5):14-18. 被引量：3
4朱四倍.突发事件中的网络舆情危机及应对机制研究[J].新闻界,2011(2):47-49. 被引量：16
5铃木修次,张建群.许浑与杜牧[J].国外社会科学,1982(11):34-40. 被引量：3
6孙晓明.谈古典文学研究的历史观[J].云南社会科学,1986(3):106-110. 被引量：1
7周建国.论花间词中的鸟类意象[J].杭州师范学院学报,1996,26(5):16-21. 被引量：4
8金镛.《菩萨蛮》(哀筝一弄)非张先词[J].文史知识,1995(8):111-111. 被引量：1
9廖为建,李莉.美国现代危机传播研究及其借鉴意义[J].广州大学学报（社会科学版）,2004,3(8):18-23. 被引量：97
10周彩虹.浅论南唐、北宋词家的忧患意识[J].佛山科学技术学院学报（社会科学版）,2005,23(1):25-28. 被引量：1

引证文献9

1蔡宗文,廖丽霞,危福泉,杨婕,郑黎辉.基于分词技术的防震减灾知识推荐服务与应用[J].防灾减灾学报,2023,39(2):71-75. 被引量：1
2高攀,李飞,彭远豪,张璨辉,彭海君.基于jieba中文分词的电力客户精准分类方法[J].湖南电力,2023,43(5):151-154. 被引量：2
3黄玮,冉启斌.基于朴素贝叶斯分类器的古诗词作者争议检测[J].文学与文化,2023(3):95-104.
4肖雪丽,廖常辉,李惠仪.一种基于深度学习的档案文件齐全性检验方法[J].信息记录材料,2024,25(3):198-200.
5张爱华,孙嘉鸿.基于TF-IDF算法的运营商客户投诉原因研究[J].北京邮电大学学报（社会科学版）,2024,26(2):39-49. 被引量：1
6韩小伟,张传洋,张起超,鲁强.大数据背景下突发公共事件网络舆情情感演化及舆情引导策略研究[J].情报科学,2024,42(2):56-63. 被引量：5
7崔凯雯.基于朴素贝叶斯算法的微博垃圾信息自动识别系统[J].移动信息,2024,46(6):291-294.
8廖洪亮.基于文本相似性技术的地址文本补全系统设计与实现[J].信息记录材料,2024,25(10):73-75.
9蒋萍,袁立宁.基于数据增强技术的警情文本分类研究[J].广西警察学院学报,2024,37(6):1-9.

二级引证文献9

1任忠,丛培历,李嘉昕,张瑞华,蔡宗文.基于微信的地市级地震信息服务系统开发与应用[J].高原地震,2023,35(3):68-74.
2张宏伟.基于决策树算法的电力客户智能分类方法[J].中国新技术新产品,2024(15):136-138.
3余明阳,金波,查志勇.基于工单信息的客户投诉全方位管理系统研究[J].中国电子商务,2024(15):6-9.
4刘亦凡,代萌,付峰.基于知识图谱的资源推荐系统设计及其在医用传感器课程教学中的应用[J].医疗卫生装备,2024,45(10):93-97. 被引量：1
5张伟伟,冯珍鸽.网络育人背景下高职院校网络舆情引导分析[J].文化创新比较研究,2024,8(26):56-60.
6张敏,张芳,张可,孟欣欣.自然灾害危机情境中政务微博的公众言语行为模式及情绪传播研究[J].图书情报工作,2024,68(20):104-117.
7孙文睿.网络情绪的潮流——互联网群体传播的情感倾向探索[J].新闻文化建设,2024(22):72-74.
8王瑛洁.媒体在突发公共事件中的舆论引导作用和管理机制探索[J].新闻研究导刊,2024,15(20):42-45.
9蒋沁佑.协同治理视角下电商直播行业舆情治理的困境与对策研究——基于区块链技术的系统架构[J].电子商务评论,2024,13(4):1967-1974.

1邬亮,丁光正,王一囡.中文分词检索技术的现状与前景[J].通讯世界,2022,29(9):193-195.
2姜雨霖.基于语义网的农产品知识查询系统的研究[J].农村经济与科技,2022,33(20):40-43.
3郭康平,冯莉.从助词标注看汉语分词软件的问题[J].牡丹江大学学报,2023,32(2):37-44.
4饶东宁,李冉.基于Schema增强的中文实体关系抽取方法[J].软件导刊,2023,22(2):47-52. 被引量：2
5郭瑞,张欢欢.基于RoBERTa和对抗训练的中文医疗命名实体识别[J].华东理工大学学报（自然科学版）,2023,49(1):144-152. 被引量：6
6惠婧璇.建好森林“碳库”面临的困难问题及对策建议[J].中国经贸导刊,2023(2):60-61.
7健康圈子[J].家庭科学,2023(2):2-2.
8夏懿航,张志龙,王木子,陈力波.基于依赖关系的容器供应链脆弱性检测方法[J].信息网络安全,2023(2):76-84. 被引量：1
9助力共同富裕美好社会建设打造妇女儿童综合服务驿站[J].家庭教育（幼儿版）,2023(1).
10钱朝军,李俊,宗震,张龙,邬桐.NLP和推理引擎下电力基建现场风险区段识别[J].无线电工程,2023,53(1):155-160. 被引量：2

软件导刊

2023年第2期

浏览历史

内容加载中请稍等...

中文分词技术研究进展综述被引量：9

参考文献20

二级参考文献168

共引文献185

同被引文献112

引证文献9

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

中文分词技术研究进展综述 被引量：9

参考文献20

二级参考文献168

共引文献185

同被引文献112

引证文献9

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

中文分词技术研究进展综述被引量：9