一种基于隐马尔可夫聚类的信息提取方法被引量：6

A Method for Text Information Extraction Based on Hidden Markov Model Clustering

下载PDF

导出

摘要为了通过统计的学习来得到最优的模型参数,我们通过基于形式的聚类方法将训练数据聚成几个类,每个类的数据被用来训练一个初始概率和一个转移概率矩阵。在进行文本信息提取时,结合每一个初始概率矩阵、每一个转移概率矩阵,使用Viterbi算法来找出最优的标记序列。结果这些最优的标记序列中概率最大的标记序列将被作为最终输出。实验表明,新的算法在一定条件下能提高文本信息提取的精确度和召回率。

作者金砚硕迟呈英战学刚

机构地区辽宁科技大学

出处《情报杂志》 CSSCI 北大核心 2008年第3期96-98,共3页 Journal of Intelligence

基金辽宁省教育厅高等学校科学研究项目(编号:2004D110)资助

关键词聚类信息提取隐马尔可夫模型

分类号 TP391.41 [自动化与计算机技术—计算机应用技术] TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1孙斌.信息提取技术概述(下)[J].术语标准化与信息技术,2003(1):34-37. 被引量：11
2李保利,陈玉忠,俞士汶.信息抽取研究综述[J].计算机工程与应用,2003,39(10):1-5. 被引量：178
3Yamron J, garp I, GiUick Letal. A Hidden Markov Model Approach to text Segmentation and Event Tracking[ C]. In: Proceedings of ICASSP'98, IEEE, Volume : 1,1998: 333 - 336
4张玲,黄铁军,高文.基于隐马尔可夫模型的引文信息提取[J].计算机工程,2003,29(20):33-34. 被引量：11
5徐静.ARMA模型及其应用.立信会计高等专科学校学报,2001,(9).
6王源,陈亚军.基于高斯混合模型的EM学习算法[J].山西师范大学学报（自然科学版）,2005,19(1):46-49. 被引量：18
7钟敏娟,郝谦,刘云中.基于多模板隐马尔可夫模型的文本信息抽取算法[J].计算机工程,2006,32(2):203-205. 被引量：9
8Grishman R. Information Extraction:Techniques and Challenges. In: Lecture Notes in Computer Science, 1997,1299 :10 - 27
9Eikvil L. Information Extraction from World Wide Web - A Survey [ J ]. Technical Report 945, Norweigan Conter, 1999

二级参考文献53

1卢正鼎,董泽锋.文法推断与HMM相结合的信息提取[J].计算机工程与科学,2005,27(8):1-3. 被引量：1
2钱云涛,谢维信.一种由模糊逻辑神经元网络实现的聚类分析方法[J].西安电子科技大学学报,1995,22(1):1-7. 被引量：12
3李蕾,周延泉,王菁华.基于全信息的中文信息抽取系统及应用[J].北京邮电大学学报,2005,28(6):48-51. 被引量：11
4邓尚民,孙玉伟.信息抽取系统的研究现状[J].现代图书情报技术,2006(3):55-58. 被引量：23
5尹继豪,樊孝忠,赵攀超,于江德.基于组块分析技术的中文机构名称识别[J].哈尔滨工程大学学报,2006,27(B07):466-470. 被引量：5
6尹继豪,樊孝忠,于江德.基于类语言模型的中文机构名称自动识别[J].计算机科学,2006,33(11):212-214. 被引量：3
7[16]Hobbs J,Appelt D,Bear J et al.FASTUS:A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text[C].In:Roche,Schabes eds. Finite State Devices for Natural Language Processing, MIT Press,Cambridge MA, 1996
8[17]Appelt D E.Introduction to Information Extraction[J].AI COMMUNICATIONS, 1999; 12(3)
9[18]Yangarber R.Scenario Customization for Information Extraction[D].Ph D Thesis.New York University,2001-01
10[19]Cowie J, Lehnert W.Information Extraction[J].Communications of the ACM, 1996;39(1)

共引文献224

1沈芳婷,于艳华,李志强,李劼.基于Attention-Comprehension OpenTag的人物属性抽取算法[J].新一代信息技术,2022,5(6):1-5.
2王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
3叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
4岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(z2):344-349.
5张向喆,王明辉,赵洪波,王起山,潘玉春.生物医学文本中命名实体识别研究[J].上海交通大学学报（农业科学版）,2010,28(2):132-139. 被引量：6
6李万辉,林瑞明,张文德.台湾科技文献信息抽取与检索平台的设计与实现[J].图书馆学研究（应用版）,2010(6):71-75.
7宋远君,赵铭远,马静.基于本体的无人机情报获取与分析系统研究[J].计算机科学,2012,39(S3):215-219. 被引量：1
8李海涛.纯文本文档处理技术的研究与应用[J].现代图书情报技术,2004(10):33-35. 被引量：2
9马彦波,张蕾.一种创建事件模式的新方法[J].微机发展,2005,15(1):20-23. 被引量：2
10陈科,贾焰,杨树强,王永恒.汉语短文话题提取系统中SDTF*PDF算法的研究[J].计算机应用,2005,25(1):14-16. 被引量：1

同被引文献28

1卢正鼎,董泽锋.文法推断与HMM相结合的信息提取[J].计算机工程与科学,2005,27(8):1-3. 被引量：1
2苏新宁,章成志,卫平.论信息资源整合[J].现代图书情报技术,2005(9):54-61. 被引量：99
3李蕾,周延泉,王菁华.基于全信息的中文信息抽取系统及应用[J].北京邮电大学学报,2005,28(6):48-51. 被引量：11
4邓尚民,孙玉伟.信息抽取系统的研究现状[J].现代图书情报技术,2006(3):55-58. 被引量：23
5李彦刚,魏海平,侯兴华.基于HTMLParser的Web信息抽取系统的设计与实现[J].辽宁石油化工大学学报,2006,26(2):83-86. 被引量：8
6严方,胡维治.互联网农业信息资源的采集与利用[J].理工高教研究,2006,25(3):133-134. 被引量：2
7尹继豪,樊孝忠,赵攀超,于江德.基于组块分析技术的中文机构名称识别[J].哈尔滨工程大学学报,2006,27(B07):466-470. 被引量：5
8尹继豪,樊孝忠,于江德.基于类语言模型的中文机构名称自动识别[J].计算机科学,2006,33(11):212-214. 被引量：3
9Heritrix-home page. [2007 -06 - 10 ]. http://crawler. archive. org,/ .
10HTMLparser-home page [ 2007 - 06 - 15 ]. http://htmlparser sourceforge. net/.

引证文献6

1陈俊彬,曹树金.基于Heritrix的Web信息抽取[J].图书情报工作,2009,53(9):112-115. 被引量：6
2陈诗琴,李文江.基于.NET的农产品市场行情信息采集——以重庆农产品市场行情查询网为例[J].现代图书情报技术,2010(6):88-92.
3冯曦曦,朱学芳.基于Spring框架的农业网站信息资源采集器设计与实现[J].信息化研究,2011,37(3):19-22. 被引量：1
4范智勇,邝瑶,吴玲.基于大数据的运营商基站能耗稽核系统[J].通信与信息技术,2022(S02):14-17. 被引量：2
5王雨燕,赵佳鹏,时金桥,申立艳,刘洪梦,杨燕燕.暗网网页用户身份信息聚合方法[J].计算机工程,2023,49(11):187-194. 被引量：1
6孙斌.信息提取技术概述(下)[J].术语标准化与信息技术,2003(1):34-37. 被引量：11

二级引证文献21

1卢正鼎,董泽锋.文法推断与HMM相结合的信息提取[J].计算机工程与科学,2005,27(8):1-3. 被引量：1
2李蕾,周延泉,王菁华.基于全信息的中文信息抽取系统及应用[J].北京邮电大学学报,2005,28(6):48-51. 被引量：11
3邓尚民,孙玉伟.信息抽取系统的研究现状[J].现代图书情报技术,2006(3):55-58. 被引量：23
4尹继豪,樊孝忠,赵攀超,于江德.基于组块分析技术的中文机构名称识别[J].哈尔滨工程大学学报,2006,27(B07):466-470. 被引量：5
5尹继豪,樊孝忠,于江德.基于类语言模型的中文机构名称自动识别[J].计算机科学,2006,33(11):212-214. 被引量：3
6李蕾,王劲林.二维网络信息聚合的研究与系统设计[J].高技术通讯,2007,17(11):1125-1130. 被引量：3
7常军林,吴笑伟,吴芬芬,刘磊.基于特征和隐马尔可夫模型的文本信息抽取[J].河南科技大学学报（自然科学版）,2008,29(2):55-57. 被引量：3
8金砚硕,迟呈英,战学刚.一种基于隐马尔可夫聚类的信息提取方法[J].情报杂志,2008,27(3):96-98. 被引量：6
9詹佳佳.基于Web-Harvest的Web信息抽取系统的设计与应用[J].现代图书情报技术,2010(3):76-81. 被引量：1
10蔡卫平,艾新革.广州地区图书馆学研究综述(2009)[J].图书馆论坛,2010,30(6):151-155.

1常雨骁,庞琳,贾岩涛,林海伦,王元卓,刘悦,刘春阳.融合马尔可夫聚类的实体间关系消解方法[J].计算机科学与探索,2017,11(4):511-519.
2王玙,高琳.动态网络桥系数增量聚类算法[J].西安电子科技大学学报,2013,40(1):30-35. 被引量：5
3王玙,刘东苏,李慧.一种基于语义的P2P数字图书馆模型[J].情报理论与实践,2008,31(2):283-285. 被引量：2
4朱红军,马秀峰.面向文本的信息提取概述[J].商情（科学教育家）,2008,0(3):45-45. 被引量：1
5杨利艳.CAD图纸文本信息提取与处理技术研究[J].消费电子,2014(12):160-160.
6唐思源,高琦,邢俊凤.一种基于角点与BP神经网络的文本检测及定位算法[J].现代电子技术,2016,39(4):112-115. 被引量：1
7江延湖,白似雪.复杂背景图像文本信息提取技术研究[J].江西教育学院学报,2008(3):18-21.
8李东勤,徐勇.自然场景图像中的文本信息提取研究[J].黑龙江科技信息,2015(36):131-133.
9胡辉,胡松,陈伽,蔡映雪,陈军,蔡昭权.自然场景文本信息提取关键技术探究[J].电子制作,2016,24(07X):70-71.
10周戈.一种基于反向文本频率互信息的文本挖掘算法研究[J].计算机应用研究,2012,29(2):487-489. 被引量：9

情报杂志

2008年第3期

浏览历史

内容加载中请稍等...

一种基于隐马尔可夫聚类的信息提取方法被引量：6

参考文献9

二级参考文献53

共引文献224

同被引文献28

引证文献6

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

一种基于隐马尔可夫聚类的信息提取方法 被引量：6

参考文献9

二级参考文献53

共引文献224

同被引文献28

引证文献6

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

一种基于隐马尔可夫聚类的信息提取方法被引量：6