中文分词现状及未来发展被引量：7

Overview of Chinese Word Segmentation

下载PDF

导出

摘要中文自动分词技术是自然语言处理领域一项很重要的基础工作,随着信息的几何级增长,对目前的分词方法提出了更高要求。本文从中文分词的研究现状出发,首先列举了一些具有代表性的典型分词系统,比较了当今主流的三种分词方法:基于字符串匹配、基于理解和基于统计的分词方法,并对分词问题中的歧义和未登录词识别两大难点进行了重点讨论,最后总结归纳了中文分词技术的研究进展,并对其未来发展方向进行了展望。 Chinese word segmentation is a vital and foundation task in natural language processing field. With the exponential growth of information, it demands a higher level of segmentation method. Starting from current research situation, we firstly listed some typical segmentation systems and compared three segmenta- tion methods which were based on string matching, understanding and statistics respectively. In addition, we focused on discussion on two difficult points, the ambiguity in segmentation and the recognition of unknown word. Finally, we concluded the development of Chinese word segmentation and did some prospect of its fu- ture.

作者熊泉浩

机构地区江西财经大学信息管理学院

出处《科技广场》 2009年第11期222-225,共4页 Science Mosaic

基金国家社会科学基金项目(编号:07BTQ025) 江西省教育厅科技项目重点项目(赣教技字[2006]320号) 国家大学生创新实验计划项目(0810042102).

关键词中文分词分词技术自然语言处理 Chinese Word Segmentation Word Segmentation Technology Natural Language Processing

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1李银松,施水才,张玉杰,吕学强.用户兴趣分类在个性化搜索引擎中的应用[J].情报学报,2008,27(4):535-540. 被引量：9
2周文帅,冯速.汉语分词技术研究现状与应用展望[J].山西师范大学学报（自然科学版）,2006,20(1):25-29. 被引量：16
3文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20
4牛耘,朱献有.神经网络技术在汉语歧义切分中的应用[J].情报学报,1999,18(3):213-218. 被引量：5
5揭春雨,刘源,梁南元.汉语自动分词实用系统CASS的设计和实现[J].中文信息学报,1991,5(4):27-34. 被引量：16

二级参考文献69

1胡俊华,杨波,李金屏.自然语言理解研究略述[J].济南大学学报（社会科学版）,2001,11(5):58-62. 被引量：8
2林春实,方燕,全吉成.汉语文献自动分词与标引技术发展浅析[J].情报学报,1997,16(S1):37-40. 被引量：8
3黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
4白锡嘉.机器翻译与自然语言的理解[J].中国科技翻译,1996,9(2):31-34. 被引量：7
5孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
6何晓阳,吴治蓉,连丽红,谢永碧.SALSA算法技术剖析[J].情报杂志,2004,23(7):26-27. 被引量：3
7文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
8郭艳华,周昌乐.自然语言理解研究综述[J].杭州电子工业学院学报,2000,20(1):58-65. 被引量：31
9苏新宁.汉语文献自动标引综析[J].情报学报,1993,12(4):309-318. 被引量：18
10黄祥喜.书面汉语自动分词的现状和问题[J].情报学报,1989,8(2):125-133. 被引量：11

共引文献58

1邓宏涛.中文自动分词系统的设计模型[J].计算机与数字工程,2005,33(4):138-140. 被引量：13
2解析慧聪资讯有限公司的经营策略[J].人才资源开发,2005(8):39-40.
3费洪晓,胡海苗,巩燕玲.基于Hash结构的机械统计分词系统研究[J].计算机工程与应用,2006,42(5):159-161. 被引量：8
4程传鹏.一种简单高效的中文分词方法[J].郑州轻工业学院学报（自然科学版）,2006,21(3):88-90.
5方志,夏立新,刘启强.中外全文检索研究的现状及趋势[J].图书情报知识,2006,23(5):71-75. 被引量：8
6冯哲,孙吉贵,张长胜,王岩.汉语语音合成的研究进展[J].吉林大学学报（信息科学版）,2007,25(2):198-206. 被引量：7
7张科.多次Hash快速分词算法[J].计算机工程与设计,2007,28(7):1716-1718. 被引量：22
8温艳鸿.基于lucene的文件搜索引擎的设计与扩展[J].福建电脑,2007,23(8):144-144. 被引量：4
9化柏林,赵亮.知识抽取中的嵌套向量分词技术[J].现代图书情报技术,2007(7):50-53. 被引量：5
10金在全,赵照,杜秀全,张东.一种改进的增字最大匹配算法[J].科学技术与工程,2007,7(18):4761-4764. 被引量：12

同被引文献64

1苏武华.汉语自动分词和自动标引方法研究[J].农业图书情报学刊,2004,15(7):103-105. 被引量：4
2文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
3苏祺,昝红英,胡景贺,项锟.词性标注对信息检索系统性能的影响[J].中文信息学报,2005,19(2):58-65. 被引量：8
4文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20
5周文帅,冯速.汉语分词技术研究现状与应用展望[J].山西师范大学学报（自然科学版）,2006,20(1):25-29. 被引量：16
6祁文青.一种改进的中文分词算法[J].黄石理工学院学报,2007,23(4):23-25. 被引量：5
7ZHANG Meng, HU Liang, LI Qiang. Weighted Directed Word Graph [ C]//Proceedings 16th Annual Symposium, CPM 2005. Jeju Island, Korea: Springer, 2005: 156-167.
8PAOLO FERRAGINA, GIOVANNI MANZINI, VELI MAKINEN. An Alphabet-Friendly FM-Index [ C] //Proceedings: llth International Conference, SPIRE 2004. Padova, Italy : [ s. n. ] , 2004 : 150-160.
9(以)Ronen Feldman, (美)James Sanger. Advanced approaches inanalyzing unstructured data. 北京:人民邮电出版社,2009.
10Jianfeng Gao, Mu Li. ChineseWord Segmentation and Named Entity Recognition: A Pragmatic Approach.2006.

引证文献7

1胡毅,刘波.基于农业信息化知识检索系统关键技术分析与设计[J].软件,2011,32(8):9-12. 被引量：1
2刘畅,张猛.中文全文检索系统中基于分词技术的研究[J].吉林大学学报（信息科学版）,2013,31(3):320-323. 被引量：1
3耿锐.图书在版编目自动辅助标引方案初探[J].中国科技产业,2015(10):65-67.
4于曦,杨晋浩,李丹,刘昶,刘永红.基于招聘文本信息的软件工程人才知识结构需求研究[J].当代教育实践与教学研究（电子版）,2016,0(3):263-267.
5邓晓枫,蒋廷耀.基于Lucene和MMSEG算法的中文分词器研究[J].信息通信,2017,30(9):146-148. 被引量：1
6冉杨帆,蒋洪迅.基于BPNN和SVR的股票价格预测研究[J].山西大学学报（自然科学版）,2018,41(1):1-14. 被引量：9
7孙静含,任静.计算机文本分析算法发展综述[J].电子技术应用,2023,49(3):42-47. 被引量：1

二级引证文献13

1杨小梅,黎斌.网络复杂文本的分类优化过程仿真分析[J].计算机仿真,2016,33(4):399-402.
2胡雨豪,刘波.基于机器视觉的四轴飞行器自主巡航算法改进[J].软件,2018,39(2):52-56. 被引量：4
3孙敏,鞠勇.基于SSM和Lucene的水利文献检索系统设计[J].水利信息化,2019(1):19-24. 被引量：6
4戚天梅,过弋,王吉祥,王志宏,成舟.基于机器学习的外汇新闻情感分析[J].计算机工程与设计,2020,41(6):1742-1748. 被引量：16
5徐浩然,许波,徐可文.机器学习在股票预测中的应用综述[J].计算机工程与应用,2020,56(12):19-24. 被引量：20
6孙丽丽,方宏彬,朱星星,胡蕾明,齐龙武.基于网格搜索优化的XGBoost模型的股票预测[J].阜阳师范大学学报（自然科学版）,2021,38(2):97-101. 被引量：6
7宋丽娜.基于情感分析和PCA-LSTM模型的股票价格预测[J].中国管理信息化,2021,24(21):159-161. 被引量：1
8李敏,张怡,王善玲.基于Word2vec及TF-MONO算法的中国观众对中外电影的需求与满意度比较研究[J].情报工程,2022,8(2):73-86.
9张典,王洁宁,李昭颖,刘润楠,郑文.基于BVANet的财经新闻情感分析[J].电子科技大学学报,2023,52(2):263-270.
10赵传君,刘金峰,武美龄,常新功.基于数值与文本特征的LSTM股票价格预测研究[J].山西大学学报（自然科学版）,2023,46(5):1058-1063.

1迪丽达尔.迪力沙提.自然语言处理中的中文自动分词技术[J].信息与电脑（理论版）,2012(11):78-79. 被引量：1
2飞轮UPS——企业容灾备份的保护神[J].UPS应用,2011(1):78-78.
3杨平,骆俊.基于ArCGIS Engine的地理信息数据库管理系统设计与实现[J].国土资源信息化,2006(3):20-23. 被引量：6
4王珍,韩忠明,李晋.大规模数据下的社交网络结构洞节点发现算法研究[J].计算机科学,2017,44(4):188-192. 被引量：3
5安全需要加速[J].网管员世界,2010(16):9-9.
6曹月雷,纪文彦,贾斌.词典与后缀数组相结合的中文分词方法[J].硅谷,2012,5(21):151-154. 被引量：2
7沈静.浅析中文分词方法[J].漳州职业技术学院学报,2016,18(3):45-48. 被引量：2
8彭新兰,邓军.郑州煤炭工业技师学院的网络改造[J].福建电脑,2011,27(1):159-160.
9杨晓恝,蒋维,郝文宁.基于本体和句法分析的领域分词的实现[J].计算机工程,2008,34(23):26-28. 被引量：2
10舒文琼.运营商IT需求几何级增长应用全生命周期管理纾难解困[J].通信世界,2010(16):32-32.

科技广场

2009年第11期

浏览历史

内容加载中请稍等...

中文分词现状及未来发展被引量：7

参考文献5

二级参考文献69

共引文献58

同被引文献64

引证文献7

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

中文分词现状及未来发展 被引量：7

参考文献5

二级参考文献69

共引文献58

同被引文献64

引证文献7

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

中文分词现状及未来发展被引量：7