中文高频词串的抽取及其在语言模型中的应用被引量：2

Chinese Frequent String Extraction and Application on Language Model

下载PDF

导出

摘要为准确抽取语料库中的高频词串,使其能更好地应用于语言模型中,提出了一种基于字串切分度的中文高频词串(CFS)抽取算法,并用该算法抽取出的CFS分别建立一元和二元语言模型.实验表明,基于CFS的语言模型能有效克服现有基于字和词的n元语法模型长距离相依性能较差的缺陷;同时,在模型困惑度、音字转换正确率上均优于已有基于净频次的CFS语言模型. In order to extract the Chinese frequent strings（CFS） accurately and make better use in language models,a new method for CFS extraction using string segmentation degree is proposed.Unigram and bigram language models based on this CFS extraction method are built.Experiment shows that the CFS based language model can deal with the lack of long distance dependency problem in character and word based language model.It also shows that the CFS based language model has lower model perplexity and higher pinyin-to- character conversion correctness compared with the model based on previous CFS extraction method.

作者文娟王小捷

机构地区北京邮电大学智能科学技术研究中心

出处《北京邮电大学学报》 EI CAS CSCD 北大核心 2009年第5期10-14,共5页 Journal of Beijing University of Posts and Telecommunications

基金国家科技支撑计划项目(2007BAH05B02-04) 高等学校学科创新引智计划项目(B08004) BUPT-Nokia合作项目

关键词中文高频词串字区分度字串切分度 N元模型音字转换 Chinese frequent string character distinction degree string segmentation degree n-gram language model pinyin-to-character conversion

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Jelinek F. Self-organized language modeling for speech recognition [ M ]// Waibel A, Lee K F. Readings in speech recognition. San Mateo: Morgan Kaufmann Publishers Inc, 1990. 450-506.
2Gao Jianfeng, Lin Chenyue. Introduction to the special issue on statistical language modeling[J]. ACM Transactions on Asian Language Information Processing, 2004, 3 (2). 87-93.
3Medlock B. An adaptive, semi structured language model approach to spare filtering on a new corpus[C]//CEAS. California: Mountain View, 2006: 93-105.
4Thorsten B, Ashok C, Franz J, et al. Large language models in machine translation [ C]//Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Prague: [ s. n. ], 2007. 858-867.
5Winnie C, Chris G, Martin W. From n-gram to skipgram to concgram [ J ]. International Journal of Corpus Linguistics, 2006, 11(4): 411-433.
6Eugene C. Immediate head parsing for language models [C] // ACL/EACL. Toulouse; Morgan Kaufmann Publishers, 2001: 124-131.
7Lin Y J, Yu M S. Extracting Chinese frequent strings without a dictionary from a Chinese corpus and its applications[J]. Journal of Information Science and Engineering, 2001, 17(5): 805-824.
8秦颖,王小捷,张素香.汉语分词中组合歧义字段的研究[J].中文信息学报,2007,21(1):3-8. 被引量：11

二级参考文献14

1孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
2王彩荣,王凯丽,黄玉基.歧义字段的归类及切分算法[J].微处理机,2005,26(3):33-35. 被引量：2
3梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.
4侯敏,等.汉语自动分词中的上下文相关歧义字段(CSAS)研究[A].自然语言理解与大规模内容计算[C].北京:清华大学出版社,2005.7,214-220.
5Xiao Luo,Maosong Sun,Benjamin K.Tou.Covering Ambiguity Resolution in Chinese Word Segmentation Based on Contextual Information[A].In:Proceedings of COLING 2002[C],598-604.
6Gao,Jianfeng,Joshua Goodman,Mingjing Li and Kai-Fu Lee.Toward a unified approach to statistical language modeling for Chinese[J].ACM Transactions on Asian Language Information Processing,2002.1(1):3-33.
7Nianwen Xue.Chinese Word Segmentation as Character Tagging[J].Computational Linguistics and Chinese Language Proccessing,February 2003,Vol.8,No.1,29-48.
8Berger A L,P iet ra S A D,P iet ra V J D.A Maximum Entropy Approach to Natural Language Processing[J].Computational Linguistic,1996,22 (1):39-71.
9Adwait Ratnaparkhi.Maximum Entropy Models for Natural Language Ambiguity Resolution[D].PhD thesis,University of Pennsylvania,Philadelphia,PA,1998.
10H T Dang,et al.Simple Features for Chinese Word Sense Disambiguation[A].In:Proceedings of COLING'02,2002[C],Taipei.

共引文献10

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：44
2李知兵,李龙澍.基于数据驱动的中文分词方法研究[J].现代计算机,2007,13(12):8-10. 被引量：1
3姚继伟,赵东范.基于短语匹配的中文分词消歧方法[J].吉林大学学报（理学版）,2010,48(3):427-432. 被引量：6
4魏莎莎,熊海灵.中文分词中的歧义识别处理策略[J].微计算机信息,2010,26(30):190-192. 被引量：6
5麦范金,李东普,岳晓光.基于双向匹配法和特征选择算法的中文分词技术研究[J].昆明理工大学学报（自然科学版）,2011,36(1):47-51. 被引量：8
6袁鼎荣,李新友,邵延振.用于中文分词的组合型歧义消解算法[J].计算机应用与软件,2011,28(6):57-58. 被引量：5
7尤慧丽,晏立,杨晓东.中文分词中组合型切分歧义的消解研究[J].计算机工程与应用,2011,47(31):125-127. 被引量：1
8张禄彭,易绵竹,周云.中文歧义研究25年——以《中文信息学报》论文为例[J].中文信息学报,2012,26(4):73-84. 被引量：4
9侯济恭,王维龙.海峡两岸农产品物流信息的汉字转换系统的研究[J].农业网络信息,2014(7):5-9. 被引量：1
10李佳,郭剑毅,刘艳超,余正涛,线岩团,阮氏青娥.基于多分类器加权投票法的越南语组合歧义消歧[J].计算机科学,2018,45(1):167-172. 被引量：5

同被引文献13

1张锋,许云,侯艳,樊孝忠.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5):72-73. 被引量：36
2姜维,关毅,王晓龙,刘秉权.基于支持向量机的音字转换模型[J].中文信息学报,2007,21(2):100-105. 被引量：6
3周蕾,朱巧明.基于统计和规则的未登录词识别方法研究[J].计算机工程,2007,33(8):196-198. 被引量：21
4张玮,孙乐,冯元勇,李文波,黄瑞红.词汇搭配和用户模型在拼音输入法中的应用[J].中文信息学报,2007,21(4):105-110. 被引量：6
5Hiroshi Nakagaw,Tatsunori Mori,A Simple but Powerful Automatic Term Extraction Method.In Proceedings of the second International Workshop on Computational Terminology(COMPUTERM 02),PP.29—35,2002.
6Luo Zhiyong 2004,An Integrated Method for Chinese Unknown Word Extraction,ACL 2004.
7梁卓明,陈炬桦.基于专有名词优先的快速中文分词[J].计算机技术与发展,2008,18(3):24-27. 被引量：5
8张劲松,袁健.回溯正向匹配中文分词算法[J].计算机工程与应用,2009,45(22):132-134. 被引量：16
9都菁,熊海灵.基于论坛语料识别中文未登录词的方法[J].计算机工程与设计,2010,31(3):630-633. 被引量：10
10张彩琴,袁健.改进的正向最大匹配分词算法[J].计算机工程与设计,2010,31(11):2595-2597. 被引量：11

引证文献2

1郑阳,莫建文.基于专业术语提取的中文分词方法[J].大众科技,2012,14(4):20-23. 被引量：1
2郑叶清,刘功申.基于概率潜在语义分析优化拼音汉字转换[J].信息技术,2016,40(11):33-37. 被引量：1

二级引证文献2

1杨阳,魏晓,秦成磊.基于Web知识的中文分词结果优化[J].计算机应用与软件,2015,32(12):55-58. 被引量：6
2王欣欣,马发民.一种基于DNN的少儿英语口语评分系统的改进[J].信息技术,2020,44(9):46-50. 被引量：5

1曾华琳,李堂秋.基于上下文信息提取的概率分词算法[J].学术问题研究,2006,0(1):127-131.
2吐尔根·依步拉音,吾守尔·斯拉木,麦合甫热提,艾山·吾买尔.词典和统计相结合的维吾尔文拼写查错方法的研究[J].新疆大学学报（自然科学维文版）,2012(1):1-10.
3杜璞.中文信息处理的主流技术[J].科技创新导报,2009,6(24):172-172. 被引量：1
4曾华琳,李堂秋,史晓东.一种基于提取上下文信息的分词算法[J].计算机应用,2005,25(9):2025-2027. 被引量：9
5陈林,杨丹.独立于语种的文本分类方法[J].计算机工程与科学,2008,30(6):128-130.
6康铁钢,戴汝为.一种基于大规模标注语料库的词语聚类方法[J].系统仿真学报,2003,15(10):1439-1442. 被引量：3
7王成平.计算机彝文信息处理主流技术的分析与探讨[J].信息系统工程,2012,25(7):148-150. 被引量：1
8许云,樊孝忠,张锋.一种不需分词的中文文本分类方法[J].北京理工大学学报,2005,25(9):778-781. 被引量：5
9多杰卓玛.N元模型在藏文文本局部查错中的应用研究[J].计算机工程与科学,2009,31(4):117-119. 被引量：18
10黄永文,何中市.基于互信息的统计语言模型平滑技术[J].中文信息学报,2005,19(4):46-51. 被引量：8

北京邮电大学学报

2009年第5期

浏览历史

内容加载中请稍等...

中文高频词串的抽取及其在语言模型中的应用被引量：2

参考文献8

二级参考文献14

共引文献10

同被引文献13

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

中文高频词串的抽取及其在语言模型中的应用 被引量：2

参考文献8

二级参考文献14

共引文献10

同被引文献13

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

中文高频词串的抽取及其在语言模型中的应用被引量：2