最大熵算法在汉语拼音标注中的研究与实现被引量：1

The Research and Implementation of Maximum Entropy Algorithm in Phonetic Annotation

下载PDF

导出

摘要经过对最大熵模型的研究,找到一种适合汉语拼音标注的最大熵模型算法.利用该算法解决了多音字单字成词的情况,从而使得所有包含多音字的词都是两字或多字词.使用该算法随机抽取"读者文摘"中的一篇文章进行标注实验,实验表明拼音标注正确率达到了96.6%以上. Through maximum entropy model study, a algorithm for maximum entropy model that is for pinyinmarked must be founded. Using the algorithm put an end to the situation that polyphone word is considered to be a word, so that all words with multiple pronunciations are two or more words. Using the algorithm mark the article in Reader＇s Digest, the results show that pinyin marked rate has reached 96.6 percent or more.

作者张丽青寿永熙马志强

机构地区内蒙古工业大学信息工程学院

出处《微电子学与计算机》 CSCD 北大核心 2012年第8期120-122,126,共4页 Microelectronics & Computer

基金内蒙古工业大学科学研究项目(ZD201118)

关键词最大熵模型多音字拼音标注统计特征分词 maximum entropy model polyphony phonetic annotation statistics features segmentation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1宋国杰,唐世渭,杨冬青,王腾蛟.基于最大熵原理的空间特征选择方法[J].软件学报,2003,14(9):1544-1550. 被引量：19
2罗万,彭泽润.GH高浓缩汉语拼写方案及其原理[J].北华大学学报（社会科学版）,2006,7(6):53-59. 被引量：1
3马志强.一种给批量汉字加注带有声调拼音的方法[J].微电子学与计算机,2008,25(4):185-187. 被引量：4
4俞士汶,段慧明,朱学锋,孙斌.北京大学现代汉语语料库基本加工规范(续)[J].中文信息学报,2002,16(6):58-65. 被引量：18
5梁南元.汉语计算机自动分词知识[J].中文信息学报,1990,4(2):29-41. 被引量：30
6张仰森,曹元大,俞士汶.最大熵方法中特征选择算法的改进与纠错排歧[J].北京理工大学学报,2006,26(1):36-40. 被引量：4
7冯尚友.信息熵与最大熵原理[J].水利电力科技,1995,22(3):24-29. 被引量：12
8郭翠珍,朱巧明,李培峰,钱培德.基于信息网格的分词服务的研究[J].微电子学与计算机,2006,23(5):121-123. 被引量：6

二级参考文献41

1俞士汶.网上的基础语言信息资源[J].术语标准化与信息技术,2001(4):19-23. 被引量：2
2俞士汶,段慧明,朱学锋.汉语词的概率语法属性描述[J].语言文字应用,2001(3):21-26. 被引量：6
3冯尚友.熵的微观解释与信息[J].水利电力科技,1995,22(1):5-11. 被引量：2
4袁里驰,钟义信.一种新颖的词性标注模型[J].微电子学与计算机,2005,22(9):1-2. 被引量：4
5郭翠珍,朱巧明,李培峰,钱培德.基于信息网格的分词服务的研究[J].微电子学与计算机,2006,23(5):121-123. 被引量：6
6马志强,周长胜,杨娜,丁维.基于中文搜索引擎的分词词典的设计与实现[J].铁路计算机应用,2006,15(12):45-47. 被引量：4
7周强陈力为等.一个人机互助的汉语语料库多级加工处理系统CCMP.计算语言学进展与应用[M].北京:清华大学出版社,1995.50.
8BergerA.The improved iterative scaling algorithm: A gentle introduction.http://citeseer.nj.nec.com/31826.html,1997.
9Rosenfeld R. A maximum entropy to adaptive statistical language learning [J]. Computer Speech and Language,1996, 10(3) : 187-228.
10Berger A L, Pietra S A D, Pietra V J D. A maximum entropy approach to natural language processing[J]. Computational Linguistics, 1996, 22(1): 1 - 36.

共引文献85

1马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报（自然科学版）,2009,28(1):52-57. 被引量：7
2文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
3陈康,奚伟鹏,蒋凯,武港山.Web智能信息服务系统的设计与实现[J].计算机应用研究,2004,21(6):161-163. 被引量：1
4孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
5文庭孝,侯经川,邱均平,张洋.汉语自动分词新思维:无词典切分[J].情报杂志,2005,24(2):2-4. 被引量：2
6马光志,李专.基于特征词的自动分词研究[J].华中科技大学学报（自然科学版）,2003,31(3):60-62. 被引量：4
7康海燕,樊孝忠,李彦芳,耿增民.熵原理在信息检索中的应用[J].计算机工程,2005,31(9):155-156. 被引量：3
8王兵,苏恩泽.具有学习功能的书面汉语自动分词系统[J].计算机工程,1995,21(4):59-61. 被引量：1
9刘晓英.汉语自动分词研究的发展趋势[J].高校图书馆工作,2005,25(4):25-28. 被引量：4
10唐振民,靳从,杨静宇,李远复.一种用于自动标引系统的主题词自动切分方法[J].南京理工大学学报,1995,19(5):401-404. 被引量：2

同被引文献2

1文贵华,江丽君,文军.邻域参数动态变化的局部线性嵌入[J].软件学报,2008,19(7):1666-1673. 被引量：35
2彭其华.关联挖掘下的海量文本信息深入挖掘实现[J].微电子学与计算机,2013,30(10):157-160. 被引量：2

引证文献1

1李卫平,杨杰,王钢.融合相对熵与自适应LLE的两阶段文本降维方法[J].微电子学与计算机,2015,32(4):56-60. 被引量：1

二级引证文献1

1李宁宁,刘正东,王海滨,韩熹,李文霞.基于PCA+KNN和kernal-PCA+KNN算法的废旧纺织物鉴别[J].分析测试学报,2024,43(7):1039-1045.

1代晓东.中文文本文件的自动拼音标注[J].软件世界,1996(8):14-15.
2胡茂海,谢仁龙,高万荣.薄雾模糊图像的恢复算法研究[J].红外技术,2004,26(6):76-78. 被引量：1
3刁国斌.Word 2000中给汉字自动标注拼音[J].科技展望（幻想大王）,2005(01X):12-12.
4风吹雨.编程实现自动标注汉语拼音[J].电脑爱好者,2001(19):82-83.
5宋海雷.博客:让互联网更不平静[J].世界知识,2005(23):59-61. 被引量：1
6马玉星,刘守卫（图）.“搏”客来了![J].新体育,2006(6):27-27.
7高燕.基于ASP.NET的个人博客系统的设计与实现[J].福建电脑,2011,27(2):140-141. 被引量：1
8王文渊,王芳梅.改进的最大熵算法在图像分割中的应用[J].计算机仿真,2011,28(8):291-294. 被引量：11
9秦洪英.医学图像配准算法研究[J].计算机仿真,2011,28(9):291-294. 被引量：5
10张立岩,吕玲,王井阳.基于最大熵算法的全文检索研究[J].河北科技大学学报,2009,30(2):112-115. 被引量：6

微电子学与计算机

2012年第8期

浏览历史

内容加载中请稍等...

最大熵算法在汉语拼音标注中的研究与实现被引量：1

参考文献8

二级参考文献41

共引文献85

同被引文献2

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

最大熵算法在汉语拼音标注中的研究与实现 被引量：1

参考文献8

二级参考文献41

共引文献85

同被引文献2

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

最大熵算法在汉语拼音标注中的研究与实现被引量：1