基于Maximum Likelihood与HMM的文本挖掘被引量：1

Text Information Mining Based on Maximum Likelihood and Hidden Markov Model

下载PDF

导出

摘要随着信息技术、数据库技术、网络技术的发展,各行各业均存储了大量的文本数据,怎样从这些文本数据中发掘有价值的信息和知识成为人们急需解决的问题。提出基于Maximum Likelihood与HMM的文本挖掘方法,利用Maximum Likelihood构建隐马尔可夫模型,对论文条目进行特定信息的发掘,并克服了实验过程中"零概率"的缺陷。实验结果表明准确率平均达到0.9,召回率平均达到0.85,从理论和实践上证明该方法是有效的。 With the development of information technology, database technology and network technology, a large number of texts are produced in all kinds of fields, the question should be solved quickly that how to mine useful information and knowledge from texts. Introduces how to mine information using maximum likelihood and hidden Markov model. It constructs HMM with maximum likelihood and mines customizing messages from thesis entries with HMM. During the process of extracting, it deals with the questing of＂zero probability＂. The experiment results indicate that the average precise rate arrives to 0.9 and the average recall rate arrives to 0.85. Both in theory and in practice the method are effective.

作者邹腊梅肖基毅龚向坚

机构地区南华大学计算机科学与技术学院

出处《计算机技术与发展》 2007年第12期110-112,共3页 Computer Technology and Development

基金湖南省自然科学基金资助项目(04JJ40051) 湖南省教育厅资助项目(06C724)

关键词隐马尔可夫模型最大似然文本挖掘信息抽取 hidden Markov model maximum likelihood text mining information extraction

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1Frietag D, McCallurn A. Information Extraction with HMMs and shrinkage[ C]//In Proceedings of the AAAI' 99 Workshop on Machine Learning for Information Extraction. Orlando,US:AAAI Press, The MIT Press,1999:31 -36.
2Seheffer T. Deeomain C, Wrobel, S. Mining the Web With Active Hidden Markov Models Data Mining[ C]//Proceedings of the 2001 IEEE International Conference on Data Mining. Washington, DC, USA: IEEE Computer Society, 2001 : 645 - 646.
3Rabiner L. A tutorial on hidden markov models and selected applications in speech recognition [ J ]. Proceedings of the IEEE, 1989,77 (2) :257 -285.
4Li J, Najmi A, Gray R M. hnage classification by a two - dimensional hidden Markov model [ J ]. IEEE Transactions on Signal Processing,2000,48(2) :517 - 523.
5李珩,杨峰,朱靖波,姚天顺.基于增益的隐马尔科夫模型的文本组块分析[J].计算机科学,2004,31(2):152-154. 被引量：9
6曹胜玉,刘来福.隐马模型及其在基因识别中的应用[J].数学的实践与认识,2006,36(9):212-218. 被引量：2
7杜世平,李海.二阶隐马尔可夫模型及其在计算语言学中的应用[J].四川大学学报（自然科学版）,2004,41(2):284-289. 被引量：20
8刘河生,高小榕,杨福生.隐马尔可夫模型的原理与实现[J].国外医学（生物医学工程分册）,2002,25(6):253-259. 被引量：17

二级参考文献34

1KharHengChoo,JooChuanTong：,LouxinZhang.Recent Applications of Hidden Markov Models in Computational Biology[J].Genomics, Proteomics & Bioinformatics,2004,2(2):84-96. 被引量：6
2[1]Abney S.Parsing by chunk.In Berwick,A.and Tenny,editors,Principle-Based Parsing.Kluwer,1991
3[2]Erik F.Tjong Kim Sang and Sabine Buchholz Introduction to the CoNLL-2000 Shared Task: Chunking.CoNLL-2000 and LLL-2000.Lisbon,Portugal,pp.127～132
4[3]Erik F,Sang T K.Text chunking by system combination.In:Proc.of CoNLL-2000 and LLL-2000.Lisbon,Portugal,2000
5[4]Brants T.TnT -a statistical part-of-speech tagger.In:Proc.of the Sixth Applied Natural Language Processing (ANLP-2000),Seattle,WA,2000
6[5]Ramshaw L,Marcus M.Text Chunking Using Transformation-Based Learning.In:Proc.of third Workshop on Very Large Corpora,June 1995.82～94
7[6]Ratnaparkhi A.Maximum Entropy Models for Natural Language Ambiguity Resolution:[Phd.Thesis].University of Pennsylvania,1998
8[7]Merialdo B.Tagging English Text with a Probabilistic Mod-el.Computational Linguistics,1994,20(2):155～171
9[8]Church K W.A Stochastic Parts Program and Noun Phrase Parser for Unrestricted Text.In:Proc.of the 1st Conf.on Applied Natural Language Processing,ANLP,ACL,1988.136～143
10[9]Daelemans W,Buchholz S,Veenstra J.Memory-Based Shallow Parsing.In:Proc.of EMNLP/VLC-99,University of Maryland,USA,June 1999.239～246

共引文献44

1杜世平.混合二阶隐马尔可夫模型的Baum-Welch算法[J].云南大学学报（自然科学版）,2006,28(2):98-102. 被引量：5
2杜世平,陈涛.与观测信息相关的二阶隐马尔可夫模型的参数估计[J].西南师范大学学报（自然科学版）,2006,31(3):24-27. 被引量：4
3杜世平.对经典隐马尔可夫模型学习算法的改进[J].高等数学研究,2006,9(4):58-60. 被引量：2
4黄德根,王莹莹.基于SVM的组块识别及其错误驱动学习方法[J].中文信息学报,2006,20(6):17-24. 被引量：6
5邹腊梅,肖基毅,龚向坚.Web文本挖掘技术研究[J].情报杂志,2007,26(2):53-55. 被引量：14
6徐中一,胡谦,刘磊.基于CRF的中文组块分析[J].吉林大学学报（理学版）,2007,45(3):416-420. 被引量：7
7杜世平.基于多相关系数分组HMM2的学习算法[J].西北大学学报（自然科学版）,2007,37(2):183-186. 被引量：1
8梁颖红,赵铁军,于浩,姚健民,徐冰.基于改进K-均值聚类的汉语语块识别[J].哈尔滨工业大学学报,2007,39(7):1106-1109. 被引量：4
9杜世平,汪建.带驻留时间HMM2的Forward-Backward算法[J].重庆工商大学学报（自然科学版）,2007,24(1):9-11.
10潘海燕,孔丹莉,胡利人,丁元林.多状态统计模型在慢性病流行病学研究中的应用进展[J].中国卫生统计,2007,24(4):440-443. 被引量：6

同被引文献11

1Reynolds D A. An overview of automatic speaker recognition technology[J].IEEE Trans on Speech and Audio Processing, 2002,10(4) :472-475.
2Kain. High resolution voice transformation [ D ]. Rockford: Rockford College, 1995:47-52.
3Zhang Kai, ghu Lixin, Zbao Yiaheng. Research on modified GMM based voice conversion method [ J ]. Technical Acous- tics, 2008,27 : 392 -397.
4Tang K S, Man K F, Kwong S, et al. Genetic algorithm and their applications [ J ]. IEEE Signal Processing Magazine, 1996,13(6) :22-37.
5Hong Q Y, Kwong S. A genetic classification method for speaker recognltion[J]. Engineering Applications of Artificial Intelligence ,2005,18 ( 1 ) : 13-19.
6吴庆棋,林江云.基于聚类优化GMM提高说话人识别性能的研究[J].计算机技术与发展,2009,19(4):35-37. 被引量：3
7王爱平,张功营,刘方.EM算法研究与应用[J].计算机技术与发展,2009,19(9):108-110. 被引量：58
8田生文,王伊蕾,李阿丽.一种应用复杂网络特征的K-means初始化方法[J].计算机工程与应用,2010,46(6):127-129. 被引量：2
9张凯,朱立新,赵义正.基于重训练高斯混合模型的语音转换方法[J].声学技术,2010,29(1):52-55. 被引量：4
10赵义正.改进GMM谱包络转换性能的语音转换算法研究[J].科学技术与工程,2010,10(17):4172-4174. 被引量：3

引证文献1

1翟继友,张鹏.高斯混合模型参数估值算法的优化[J].计算机技术与发展,2011,21(11):145-148. 被引量：7

二级引证文献7

1王恩泽,何东健.基于MFCC和双重GMM的鸟类识别方法[J].计算机工程与设计,2014,35(5):1868-1871. 被引量：12
2于建均,郑逸加,阮晓钢,赵少琼.基于高斯混合模型的轨迹模仿学习表征参数优化[J].北京工业大学学报,2017,43(5):719-728. 被引量：3
3李春生,宋佳,张可佳,张勇.基于关联度分析的生产异常模式挖掘[J].计算机技术与发展,2017,27(9):124-128.
4范晓东,崔莹,张庆春.基于EM算法的混合线性回归模型的应用研究[J].吉林化工学院学报,2020,37(7):10-12. 被引量：1
5代振,王平波,卫红凯.基于经验分布函数的EM估计初值选取[J].海军工程大学学报,2020,32(5):16-20. 被引量：1
6王素宁,朱俊杰,李志勇,黄宇星,李琪,田朝阳,陈凯锋.基于DTW算法的电力调度语音识别研究和应用[J].电力与能源,2021,42(1):35-38. 被引量：8
7蒋辉,马超群,许旭庆,兰秋军.仿EM的多变量缺失数据填补算法及其在信用评估中的应用[J].中国管理科学,2019,0(3):11-19. 被引量：16

1祁永庆,敬忠良,胡士强.Modified maximum likelihood registration based on information fusion[J].Chinese Optics Letters,2007,5(11):639-641. 被引量：1
2王治.Logistic回归系数极大似然估计的计算[J].数学理论与应用,2009,29(4):86-90. 被引量：2
3存储器、锁存器[J].电子科技文摘,2003,0(3):94-95.
4Zhicheng Zhang,Jun Lin,Yaowu Shi.Application of Artificial Bee Colony Algorithm to Maximum Likelihood DOA Estimation[J].Journal of Bionic Engineering,2013,10(1):100-109. 被引量：18
5包书哲,周东清,侯志刚.一个文本挖掘方法在扩展的电子商务系统中的应用[J].计算机应用研究,2003,20(12):107-108. 被引量：1
6史西兵,王浩鸣.隐马尔可夫模型解决信息抽取问题的仿真研究[J].计算机仿真,2010,27(5):132-135. 被引量：5
7黄嘉满,张冬茉.基于本体的商务领域文本检索的研究[J].微型电脑应用,2007,23(2):46-48.
8程显毅,梁军,马首明.基于多agent系统的医学图像进化分割算法的研究[J].南京大学学报（自然科学版）,2008,44(5):503-511. 被引量：3
9辜方林,张杭,朱德生.最大似然卷积混合离散信号盲分离(英文)[J].China Communications,2013,10(6):60-67.
10龚乐君,韦有兵,谢建明,袁志栋,孙啸.一种面向基因与疾病关系的文本挖掘方法[J].东南大学学报（自然科学版）,2010,40(3):486-490. 被引量：2

计算机技术与发展

2007年第12期

浏览历史

内容加载中请稍等...

基于Maximum Likelihood与HMM的文本挖掘被引量：1

参考文献8

二级参考文献34

共引文献44

同被引文献11

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于Maximum Likelihood与HMM的文本挖掘 被引量：1

参考文献8

二级参考文献34

共引文献44

同被引文献11

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于Maximum Likelihood与HMM的文本挖掘被引量：1