一种新的基于统计的词典扩展方法被引量：8

A New Statistical Method of Automatic Lexicon Augmentation

下载PDF

导出

摘要在建立统计语言模型时 ,往往会遇到词典的词汇量不够的问题。对于医学等专业领域的语料 ,这一问题尤为严重。针对这一问题 ,本文提出了一种新的基于统计的识别新词方法———右边缘扩展法。该方法对分词后的语料中产生的连续单字词进行关联范数估计 ,利用右边缘扩展的方法判断词的边界。在实验中 ,我们将右边缘扩展法与基于Witten Bellbackoff方法的两两合并法相结合 ,循环地调整词典 ,优化语言模型。实验结果表明 ,该算法具有很高的识别正确率与检出率 ,可以有效地识别出语料中出现的新词汇。 The out of vocabulary problem is one of the bottlenecks in Chinese Language Modeling.The problem is especially serious for domain specific training data set.This paper presents a new statistical method to extract new words from the training data.This new method is based on association norm estimation,and searches for the word boundaries by right boundary expanding.Combining the new method with another word merging method,we can iteratively optimize the lexicon,segmentation and language model.And very encouraging results are reported in our experiments.

作者周正宇李宗葛

机构地区复旦大学计算机科学系

出处《中文信息学报》 CSCD 北大核心 2001年第5期46-51,共6页 Journal of Chinese Information Processing

关键词词典关联范数估计右边缘扩展法统计语言模型文字识别两两合并法 lexicon association norm estimation right boundary expanding language model

分类号 TP391.43 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1Tang Haijiang，2000 International Symposium on Chinese Spoken Language Processing，2000年
2Gao Jianfeng，IEEE 2000 Int Conference on Acoustics Speech and Signal Processing，2000年
3Chien Leefeng，Information Processing and Management，1999年，35卷，501页
4Yang Kaecherng，IEEE 1998 Int Conference on Acoustics Speech and Signal Processing，1998年，169页
5Wong Padkwong，The 16th Int Conferenceon Computational Linguistics，1996年，200页

同被引文献93

1曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
2苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
3孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
4邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
5贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28
6秦浩伟,步丰林.一个中文新词识别特征的研究[J].计算机工程,2004,30(B12):369-370. 被引量：13
7刘涌泉.关于汉语字母词的问题[J].语言文字应用,2002(1):85-90. 被引量：221
8郑泽之,张普,杨建国.基于语料库的字母词语自动提取研究[J].中文信息学报,2005,19(2):78-85. 被引量：10
9孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
10曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48

引证文献8

1刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14
2郑泽芝.一种字母词语自动标注算法[J].厦门大学学报（自然科学版）,2007,46(5):630-634. 被引量：2
3王宝勋,王晓龙,刘秉权,李鹏.一种基于无监督学习的词变体识别方法[J].中文信息学报,2008,22(3):32-36. 被引量：3
4张海军,史树敏,朱朝勇,黄河燕.中文新词识别技术综述[J].计算机科学,2010,37(3):6-10. 被引量：39
5刘永超,刘宜轩.字串结合紧密度的计算方法研究[J].计算机光盘软件与应用,2012,15(2):133-134.
6钟将,耿升华,董高峰.一种新词检测方法研究[J].数字通信,2013,40(2):1-5. 被引量：6
7周超,严馨,余正涛,洪旭东,线岩团.融合词频特性及邻接变化数的微博新词识别[J].山东大学学报（理学版）,2015,50(3):6-10. 被引量：10
8聂颂,何丕廉,孙越恒.统计与规则结合的一种新词识别方法[J].微型机与应用,2003,22(10):58-60. 被引量：5

二级引证文献72

1王源媛,何中市.基于词性探测的中文姓名识别算法[J].计算机科学,2005,32(4):84-86. 被引量：2
2周文刚,王景中.基于语义的信息过滤算法的设计与实现[J].周口师范学院学报,2006,23(2):96-100. 被引量：3
3刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14
4张辉丽,孟昭鹏,王慧芝.汉语自动分词中的歧义处理[J].微计算机应用,2006,27(6):685-688. 被引量：3
5刘华.基于关键短语的文本分类研究[J].中文信息学报,2007,21(4):34-41. 被引量：14
6张宇萌,刘传汉.一种基于逐层扫描的频繁字串快速提取算法[J].计算机科学,2008,35(5):127-130. 被引量：1
7韩艳,姚建民,朱巧明,张晶.不限领域的中文新词的识别研究[J].郑州大学学报（理学版）,2008,40(3):67-71. 被引量：2
8刘华.面向对外汉语教学的话题聚类研究[J].外语研究,2008,25(5):55-60. 被引量：5
9韩艳,林煜熙,姚建民.基于统计信息的未登录词的扩展识别方法[J].中文信息学报,2009,23(3):24-30. 被引量：15
10张海军,史树敏,朱朝勇,黄河燕.中文新词识别技术综述[J].计算机科学,2010,37(3):6-10. 被引量：39

1姚兴山.基于词频的中文文本分类研究[J].现代情报,2009,29(2):179-181. 被引量：4
2杨琳,张建平,颜永红.特定领域的汉语语言模型平滑算法比较研究[J].计算机工程与应用,2006,42(32):14-16. 被引量：5
3邹益民.借助DLL扩展VB与Authorware的I/O功能[J].班主任之友,2001,38(1):39-40.
4闫蓉,张蕾.基于遗传算法的汉语未登录词识别[J].计算机应用与软件,2008,25(7):88-90. 被引量：3
5于童,刘淑芬.构建单字词表识别未登录词的方法[J].吉林大学学报（理学版）,2015,53(2):307-310. 被引量：2
6姚燕,汤进,罗斌.基于迭代分形解码和边缘扩展的图像修复算法[J].计算机工程,2012,38(2):218-220. 被引量：3
7张亚军.维吾尔语的N-gram语言模型研究[J].电脑知识与技术（过刊）,2011,17(6X):4177-4179. 被引量：1
8扰过QQ本地登录验证[J].黑客防线,2005(4):141-141.
9来斯惟,徐立恒,陈玉博,刘康,赵军.基于表示学习的中文分词算法探索[J].中文信息学报,2013,27(5):8-14. 被引量：34
10苏宁,惠子敬,刘娟.基于单字特征和搜索引擎的新词识别[J].武汉大学学报（理学版）,2010,56(6):704-710. 被引量：2

中文信息学报

2001年第5期

浏览历史

内容加载中请稍等...

一种新的基于统计的词典扩展方法被引量：8

参考文献5

同被引文献93

引证文献8

二级引证文献72

相关作者

相关机构

相关主题

浏览历史

一种新的基于统计的词典扩展方法 被引量：8

参考文献5

同被引文献93

引证文献8

二级引证文献72

相关作者

相关机构

相关主题

浏览历史

一种新的基于统计的词典扩展方法被引量：8