结合局部歧义词网格与条件随机场的双层分词法被引量：2

A Double-layer Word Segmentation Combined with Local Ambiguity Word Grid and CRF

下载PDF

导出

摘要本文提出了一种结合局部歧义词网格与条件随机场的双层中文分词模型。首先在底层使用局部歧义词网格对文本进行粗切分，并将切分结果作为一项特征提供给高层的条件随机场模型；然后使用条件随机场模型对文本进行标注分词。局部歧义词网格方法能够检测分词过程中产生的歧义问题，条件随机场模型能够平衡对待词表词和未登录词。两种方法的结合能够较好地解决分词中的分词歧义和未登录词问题。本文在国际ee文分词评测活动Bakeoff2005提供的PKU和MSRA语料上对该双层分词模型进行了系统封闭测试，并进行了四字位标注集与六字位标注集的对比。实验结果的最佳F值分别达到了95．1％和97．1％，优于单独使用条件随机场的分词效果。此外，开放测试的实验结果表明该模型也具有一定的实际意义。 This paper presents a double-layer model of Chinese word segmentation based on the combination of Local Ambiguity Word Grid and Conditional Random Fields. Firstly, the Local Ambiguity Word Grid algorithm is used to generate rough segmentation results in the lower level. Then, the text is segmented again based on CRF, where the rough results are set as one feature. The Local Ambiguity Word Grid algorithm has the advantage of detecting ambiguity from the process of Chinese word segmentation, while CRF can cope with vocabulary and out-of-vocabulary word equally. Therefore, the hybrid Local Ambiguity Word Grid and CRF approach is the effective resolution for the ambiguity and out-of-vocabulary word. The system is closed tested in the MSRA and PKU testing sets that are provided by the SIGHAN2005 Chinese Language Processing Bakeoff, along with the comparison between four characters and six characters in a set of label. The experiments show that F-measures of the MSRA and PKU testing sets in the closed test reach 97.1% and 95.1% respectively. Additional, the experimental results of open test reveal the practical application of the model.

作者陈雷李淼张健曾伟辉

机构地区中国科学院合肥物质科学研究院

出处《计算机科学与技术汇刊（中英文版）》 2013年第1期1-8,共8页 Transactions on Computer Science and Technology

基金受国家自然科学基金（61070099）与国家科技支撑计划（2009BAH41806）支持资助.致谢对审稿人员提出的中肯建议与意见,作者在此表示由衷的感谢.

关键词局部歧义词网格条件随机场分词 Local ambiguity word grid CRF Word segmentation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献12

1黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
2张星联,唐晓纯.我国食品安全预警数据库系统的建设与实现[J].食品科技,2008,33(12):250-254. 被引量：5
3吴云红,朱亮,初炜,孔祥金.食品监管改革的关键——基于互联网的动态第三方数据库[J].食品工业科技,2009,30(9):272-274. 被引量：8
4奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45. 被引量：104
5张梅山,邓知龙,车万翔,刘挺.统计与词典相结合的领域自适应中文分词[J].中文信息学报,2012,26(2):8-12. 被引量：44
6王辉霞.公众参与食品安全治理法治探析[J].商业研究,2012(4):170-177. 被引量：23
7岳金媛,徐金安,张玉洁.面向专利文献的汉语分词技术研究[J].北京大学学报（自然科学版）,2013,49(1):159-164. 被引量：16
8余清,洪源.加工食品风险数据库的构建思路[J].价值工程,2013,32(30):174-175. 被引量：3
9黄水清,王东波,何琳.以《汉学引得丛刊》为领域词表的先秦典籍自动分词探讨[J].图书情报工作,2015,59(11):127-133. 被引量：23
10刘泽文,丁冬,李春文.基于条件随机场的中文短文本分词方法[J].清华大学学报（自然科学版）,2015,55(8):906-910. 被引量：17

引证文献2

1刘泽文,丁冬,李春文.基于条件随机场的中文短文本分词方法[J].清华大学学报（自然科学版）,2015,55(8):906-910. 被引量：17
2张越,王东波,朱丹浩.面向食品安全突发事件汉语分词的特征选择及模型优化研究[J].数据分析与知识发现,2017,1(2):64-72. 被引量：5

二级引证文献22

1黄正伟,唐芳艳.基于SVM分类模型的垃圾文本识别研究[J].数学的实践与认识,2016,46(7):144-153. 被引量：3
2张越,王东波,朱丹浩.面向食品安全突发事件汉语分词的特征选择及模型优化研究[J].数据分析与知识发现,2017,1(2):64-72. 被引量：5
3李成华,张世娟,刘磊,江小平.基于条件随机场的自然口语语义理解方法[J].中南民族大学学报（自然科学版）,2017,36(2):60-65.
4倪维健,孙浩浩,刘彤,曾庆田.面向领域文献的无监督中文分词自动优化方法[J].数据分析与知识发现,2018,2(2):96-104. 被引量：9
5李晓林,张懿,周华兵,李霖.基于C-F模型的中文地址行政区划辨识方法[J].计算机工程与设计,2018,39(7):2048-2053. 被引量：3
6成于思,施云涛.面向专业领域的中文分词方法[J].计算机工程与应用,2018,54(17):30-34. 被引量：19
7赵晓永,王磊.电商网页中商品规格信息自动抽取方法研究[J].计算机工程与应用,2017,53(24):168-171. 被引量：4
8徐飞,叶文豪,宋英华.基于BiLSTM-CRF模型的食品安全事件词性自动标注研究[J].情报学报,2018,37(12):1204-1211. 被引量：15
9徐静,张文学.药品安全话题发现技术研究[J].软件导刊,2019,18(5):151-154.
10杨峰,张月琴,姚乐野.基于情景相似度的突发事件情报感知实现方法[J].情报学报,2019,38(5):525-533. 被引量：38

1张国兵,李淼.一种基于局部歧义词网格的快速分词算法[J].计算机工程与应用,2008,44(12):175-177. 被引量：1
2网络帮[J].大众软件,2008(20):71-71.
3王娟,曹庆花,黄精籼,胡忠胜.基于受限领域的中文分词系统[J].信息系统工程,2011,24(11):106-106.
4张宁.乔布斯[J].程序员,2012(1):36-37.
5张金柱,张东,王惠临.基于字位信息的中文分词方法研究[J].现代图书情报技术,2008(5):39-43. 被引量：1
6张梅山,邓知龙,车万翔,刘挺.统计与词典相结合的领域自适应中文分词[J].中文信息学报,2012,26(2):8-12. 被引量：44
7张海营.网络信息检索中堆栈——最大匹配自动分词算法研究[J].计算机光盘软件与应用,2011(8):27-27.
8陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
9于江德,王希杰,樊孝忠.词位标注汉语分词中特征模板定量研究[J].计算机工程与设计,2012,33(3):1239-1244. 被引量：4
10于江德,王希杰,樊孝忠.汉语分词中上文和下文重要性比较[J].计算机工程与应用,2011,47(4):117-120. 被引量：2

计算机科学与技术汇刊（中英文版）

2013年第1期

浏览历史

内容加载中请稍等...

结合局部歧义词网格与条件随机场的双层分词法被引量：2

同被引文献12

引证文献2

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

结合局部歧义词网格与条件随机场的双层分词法 被引量：2

同被引文献12

引证文献2

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

结合局部歧义词网格与条件随机场的双层分词法被引量：2