基于EM算法的汉语自动分词方法被引量：23

Segmenting Chinese by EM Algorithm

下载PDF

导出

摘要汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用 ,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型 ,并重点剖析了EM(Expectation Maximization)算法 ,对实验结果进行了分析。最后对算法进行了总结与讨论。 Word segmentation is a basic task of Chinese information processing.In this paper we present a simple probabilistic model of Chinese text based on the occurrence probability of the words,which can be seen as a zero-th order hidden Markov Model(HMM).Then we investigate how to discover by EM Algorithm the words and their probabilities from a corpus of unsegmented text without using a dictionary.The last part is conclusion and discussion about the algorithm.

作者李家福张亚非

机构地区解放军理工大学通信工程学院解放军理工大学理学院

出处《情报学报》 CSSCI 北大核心 2002年第3期269-272,共4页 Journal of the China Society for Scientific and Technical Information

基金国家自然科学基金项目 (编号 6 9975 0 2 4) 国家自然科学基金重点项目 (编号 6 9931040 )资助

关键词 EM算法语料库 HMM 中文信息处理汉语自动分词自然语言处理极大似然原则零阶马尔可夫模型 word segmentation,EM Algorithm,corpus,HMM.

分类号 G254.1 [文化科学—图书馆学]

引文网络
相关文献

参考文献1

1Thomas EMERSON.Segmenting Chinese in Unicode[]..2000

同被引文献202

1胡俊华,杨波,李金屏.自然语言理解研究略述[J].济南大学学报（社会科学版）,2001,11(5):58-62. 被引量：8
2卜卫.试论内容分析方法[J].国际新闻界,1997,19(4):56-60. 被引量：89
3孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
4林春实,方燕,全吉成.汉语文献自动分词与标引技术发展浅析[J].情报学报,1997,16(S1):37-40. 被引量：8
5黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
6刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
7白锡嘉.机器翻译与自然语言的理解[J].中国科技翻译,1996,9(2):31-34. 被引量：7
8孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
9曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
10文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20

引证文献23

1曾华琳,李堂秋.基于上下文信息提取的概率分词算法[J].学术问题研究,2006,0(1):127-131.
2文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
3张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
4邱均平,文庭孝,周黎明.汉语自动分词与内容分析法研究[J].情报学报,2005,24(3):309-317. 被引量：11
5刘晓英.汉语自动分词研究的发展趋势[J].高校图书馆工作,2005,25(4):25-28. 被引量：4
6曾华琳,李堂秋,史晓东.一种基于提取上下文信息的分词算法[J].计算机应用,2005,25(9):2025-2027. 被引量：9
7文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20
8周文帅,冯速.汉语分词技术研究现状与应用展望[J].山西师范大学学报（自然科学版）,2006,20(1):25-29. 被引量：16
9吴春尧,曲文龙,杨炳儒.基于用户评价的查询串与搜索结果特征权重计算[J].计算机工程,2007,33(2):152-154. 被引量：1
10易丽萍,叶水生,吴喜兰.一种改进的汉语分词算法[J].计算机与现代化,2007(2):13-15. 被引量：2

二级引证文献200

1丁美荣,冯伟森,黄荣翔,罗嘉俊.基于预训练模型和基础词典扩展的酒店评论情感分析[J].计算机系统应用,2022,31(11):296-308. 被引量：5
2曾志伟,刁明光,王欣鹏,何炳辉.基于口罩评论数据的用户情感趋势与关注分析[J].计算机系统应用,2020,29(12):263-267.
3梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
4钟顺杰,葛小三.多权组与双半径结合的异源POI融合方法[J].测绘科学,2023,48(11):230-244.
5苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：14
6卢义峰,张功员.医学文献汉语自动分词技术—单汉字切分[J].预防医学情报杂志,2006,22(5):575-576.
7刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
8于清,阿里甫.库尔班.微博语料分词及标注方法初探[J].新疆大学学报（自然科学版）,2013,30(1):81-86. 被引量：1
9崔岩.脚本测试技术在列控中心开发测试中的运用[J].铁路通信信号工程技术,2013,10(S1):149-153. 被引量：2
10赵志靖,周静,冯锐,齐丙辰.智能人机交互中自动分词技术的实现[J].扬州大学学报（自然科学版）,2005,8(3):58-61. 被引量：3

1李家福,张亚非.一种基于概率模型的分词系统[J].系统仿真学报,2002,14(5):544-546. 被引量：16
2张琪玉.检索语言讲座（九）[J].情报理论与实践,1996,19(3):63-64. 被引量：9
3张潮生,苏东庄.情报检索和汉语自动分词[J].中国计算机用户,1990(12):26-28.
4胡爱娜.基于MapReduce的分布式EM算法的研究与应用[J].科技通报,2013,29(6):68-70. 被引量：2
5秦宇翘.浅谈如何用交互设计构建互联网服务设计中的信任[J].无线互联科技,2013,10(5):113-113.
6洪虹,李波.汉语自动分词研究进展[J].魅力中国,2009,0(22):114-114.
7王军辉.汉语自动分词研究进展[J].魅力中国,2009(30):333-333.
8岳涛.汉语自动分词技术的最新发展及其在信息检索中的应用[J].情报杂志,2005,24(4):55-57. 被引量：6
9张丽媛.1984—2011年中国自动分词研究综述[J].农业图书情报学刊,2012,24(6):140-143.
10王小平.“编辑”与“著作”概念辨析[J].湖南大学学报（社会科学版）,1999,13(2):116-119. 被引量：1

情报学报

2002年第3期

浏览历史

内容加载中请稍等...

基于EM算法的汉语自动分词方法被引量：23

参考文献1

同被引文献202

引证文献23

二级引证文献200

相关作者

相关机构

相关主题

浏览历史

基于EM算法的汉语自动分词方法 被引量：23

参考文献1

同被引文献202

引证文献23

二级引证文献200

相关作者

相关机构

相关主题

浏览历史

基于EM算法的汉语自动分词方法被引量：23