HDP与互信息相结合的中文无指导分词被引量：2

Unsupervised Chinese Word Segmentation Based on HDP and Mutual Information Getting together

下载PDF

导出

摘要该文探讨了无指导条件下的中文分词,这对构建语言无关的健壮分词系统大有裨益。互信息与HDP(Hierarchical Dirichlet Process)是无指导情况下常用的分词模型,该文将两者结合,并改进了采样算法。不考虑标点符号,在两份大小不同的测试语料上获得的F值为0.693与0.741,相比baseline的HDP分别提升了5.8%和3.9%。该文还用该模型进行了半指导分词,实验结果比常用的CRF有指导分词提升了2.6%。 This paper explores Chinese word segmentation without training data, which greatly benefits the foundation of language-independent word segmentation system. Mutual information and HDP are both widely used methods for unsupervised segmentation task. We combine these two models and improve the sampling algorithm. Without regard to punctuations, the F-scores of tWO test corpus with different sizes are 0. 693 and 0. 741. Compared to HDP baseline, the scores rise 5.80//00 and 3.9%, respectively. Finally, our model is applied to semi-supervised word segmentation. The F-score is 2.6% larger than the common supervised CRF model.

作者曹自强李素建

机构地区北京大学计算语言学教育部重点实验室

出处《中文信息学报》 CSCD 北大核心 2013年第6期1-5,44,共6页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(61273278) 国家社会科学基金资助项目(12&ZD227) 国家科技支撑计划子课题资助项目(2011BAH10B04-03) 国家863计划项目资助(2012AA011101)

关键词 HDP 互信息无指导分词 HDP mutual information unsupervised word segmentation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1Sproat, Richard, Shih C. A statistical method for finding word boundaries in Chinese text [J]. Computer Processing of Chinese and Oriental Languages, 1990, 4: 336-51.
2黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
3Maosong S, Dayang S, Tsou B K. Chinese word seg mentation without using lexicon and hand-cra{ted train- ing data [C]//Proceedings of the 17th International Conference on Computational linguistics-Volume 2, F, 1998.
4刘挺,吴岩,王开铸.串频统计和词形匹配相结合的汉语自动分词系统[J].中文信息学报,1998,12(1):17-25. 被引量：65
5孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
6Pitman J, Yor M. The two-parameter Poisson Dirichlet distribution derived from a stable subordina tor [J]. The Annals of Probability, 1997, 25(2) : 855900.
7Goldwater S, Griffiths T L, Johnson M. Contextual dependencies in unsupervised word segmentation[C]// Proceedings of the 21st International Conference on Computational Linguistics and the 44th Annual Meet- ing of the Association for Computational Linguistics, F, 2006.
8Goldwater S, Griffiths T L, Johnson M. A Bayesian framework for word segmentation: Exploring the effects of context [J]. Cognition, 2009, 112(1): 21-54.
9TEH Y W. A hierarchical Bayesian language model based on Pitman-Yor processes [C]//Proceedings of the 2Jst International Con[erence on Computational Linguistics and the 44th Annual Meeting of the Asso- ciation for Computational Linguistics, F, 2006.
10Wood F, Teh Y W. A hierarchical, hierarchical Pit- man Yor process language model[C]//Proceedings of the ICML 2008 Workshop on Nonparametric Bayes, F, 2008.

二级参考文献19

1徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
2黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
3孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
4团体著者，概率论.数理统计分册，1979年
5黄昌宁，语言信息处理专论，1996年
6Li Junjie，J Harbin Inst Technol，1995年，2卷，2期
7何克抗，中文信息学报，1995年，5卷，2期，1,28页
8李俊杰，博士学位论文，1995年
9刘源，信息处理用现代汉语分词规范及自动分词方法，1994年
10姚天顺，中文信息学报，1990年，4卷，1期

共引文献108

1周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
2孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
3张雷生 ,万绍俊 ,许鹏文 .简单中文自动摘要系统研究[J].装备指挥技术学院学报,2004,15(3):105-109. 被引量：1
4李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
7LiuGongshen LiJianhua LiShenghong.Fast algorithm on string cross pattern matching[J].Journal of Systems Engineering and Electronics,2005,16(1):179-186.
8张江.基于规则的分词方法[J].计算机与现代化,2005(4):18-20. 被引量：15
9季永华,许华虎,沈敏,万杰.自动答疑系统的研究与实现[J].计算机工程与应用,2005,41(14):224-225. 被引量：15
10陈耀东,王挺.基于有向图的双向匹配分词算法及实现[J].计算机应用,2005,25(6):1442-1444. 被引量：7

同被引文献27

1李双龙,刘群,王成耀.基于条件随机场的汉语分词系统[J].微计算机信息,2006,22(10S):178-180. 被引量：15
2Huijnen P,Laan F,Rijke M,et al. A digital humanities approach tothe history of science [J]. Social Informatics Lecture Notes in Com-puter Science, 2014,83(59) :71 -85.
3Zhao Hai, Huang Chang-Ning, Li Mu, et al. A unified character-based, tagging method of Chinese word segmentation via conditionalrandom field modeling[ J]. ACM Transaction on Asian LanguageInformation Processing, 2010, 9(2) :1 -32.
4汉籍电子文献[EB/OL].[2015 -05 - 07]. http://hanji. sini-ca. edu. tw/index. html.
5汉达文库[EB/0L]. [2015 -04 ~ 13 ]. http://www. chant, org/.
6Lafferty J, McCallum A, Pereira F. Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C ] //The International Mchine Learning Society. Proceedings ofthe Eighteenth International Conference on Machine Learning. Wil-liamstown: Williams College, 2001:282 -289.
7CRF + + [ EB/OL]. [2015 - 05 - 07 ]. http://sourceforge. net/projects/crfpp/.
8邱冰,皇甫娟.基于中文信息处理的古代汉语分词研究[J].微计算机信息,2008,24(24):100-102. 被引量：31
9刘挺,吴岩,王开铸.串频统计和词形匹配相结合的汉语自动分词系统[J].中文信息学报,1998,12(1):17-25. 被引量：65
10宋彦,蔡东风,张桂平,赵海.一种基于字词联合解码的中文分词方法[J].软件学报,2009,20(9):2366-2375. 被引量：42

引证文献2

1黄水清,王东波,何琳.以《汉学引得丛刊》为领域词表的先秦典籍自动分词探讨[J].图书情报工作,2015,59(11):127-133. 被引量：23
2赵越,李红.极大似然优化EM算法的汉语分词认知模型[J].科技通报,2016,32(4):178-181. 被引量：2

二级引证文献25

1赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206. 被引量：32
2欧阳剑.面向数字人文研究的大规模古籍文本可视化分析与挖掘[J].中国图书馆学报,2016,42(2):66-80. 被引量：108
3顾磊,赵阳.古籍智能整理研究现状及存在的问题[J].图书馆学研究,2016(9):54-58. 被引量：4
4张越,王东波,朱丹浩.面向食品安全突发事件汉语分词的特征选择及模型优化研究[J].数据分析与知识发现,2017,1(2):64-72. 被引量：5
5马学良,耿兆辉,刘玲玲,王东波.哈佛燕京学社引得编纂处的成立、影响与启示[J].图书情报工作,2017,61(12):50-56. 被引量：4
6王东波,黄水清,何琳.基于多特征知识的先秦典籍词性自动标注研究[J].图书情报工作,2017,61(12):64-70. 被引量：19
7王东波,何琳,黄水清.基于支持向量机的先秦诸子典籍自动分类研究[J].图书情报工作,2017,61(12):71-76. 被引量：10
8赵越,于雪.方言使用者认知能力发展研究[J].辽宁师范大学学报（社会科学版）,2017,40(5):96-103.
9马学良,刘玲玲.词频统计与主题分析视角下的《汉学引得丛刊》研究述评[J].河北科技图苑,2018,31(1):66-72.
10倪维健,孙浩浩,刘彤,曾庆田.面向领域文献的无监督中文分词自动优化方法[J].数据分析与知识发现,2018,2(2):96-104. 被引量：9

1程双全.计算机网络安全及其防范措施[J].电子制作,2013,21(5X):154-154.
2许高建,路遥,胡学钢,涂立静.一种改进的文本特征选择方法的研究与设计[J].苏州大学学报（工科版）,2008,28(2):18-22. 被引量：4
3许高建,胡学钢,路遥,涂立静.一种改进的文本特征选择方法的研究与设计[J].微型电脑应用,2008,24(5):21-23. 被引量：1
4张梅山,邓知龙,车万翔,刘挺.统计与词典相结合的领域自适应中文分词[J].中文信息学报,2012,26(2):8-12. 被引量：44
5张海营.网络信息检索中堆栈——最大匹配自动分词算法研究[J].计算机光盘软件与应用,2011(8):27-27.
6陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
7曾超,刘巧,徐敏.群搜索优化方法和互信息结合的医学图像配准[J].福建电脑,2015,31(5):119-120.
8梁颖红,张文静,张有承.C值和互信息相结合的术语抽取[J].计算机应用与软件,2010,27(4):108-110. 被引量：7
9李靖宇,沈焕泉,程燕,张淑丽.基于最大互信息的医学图像配准算法[J].中国介入影像与治疗学,2010,7(3):325-327. 被引量：7
10苏惠明.自动分词模型中的歧义字段消除探讨[J].价值工程,2012,31(9):137-137.

中文信息学报

2013年第6期

浏览历史

内容加载中请稍等...

HDP与互信息相结合的中文无指导分词被引量：2

参考文献12

二级参考文献19

共引文献108

同被引文献27

引证文献2

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

HDP与互信息相结合的中文无指导分词 被引量：2

参考文献12

二级参考文献19

共引文献108

同被引文献27

引证文献2

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

HDP与互信息相结合的中文无指导分词被引量：2