文本元数据自动抽取算法的研究被引量：2

ON AUTOMATIC TEXTUAL METADATA EXTRACTION ALGORITHM

下载PDF

导出

摘要提出一种从科技文献等文档中自动抽取元数据的方法,将自动归纳法和相似特征度算法结合起来,基于特征相似的归纳学习算法自动生成抽取规则,并对文档进行元数据的自动抽取。这种方法利用文档自身某些特有属性,对文档的内容进行分块,利用归纳法自动生成抽取规则,并结合特征相似度对生成规则进行匹配,然后对文档元数据信息进行自动抽取,提高了自动生成规则的效率和抽取元数据信息的准确率。 This paper presents a new approach for extracting metadata from textual documents of scientific literatures.The approach combines automatic induction method with feature-similarity degree algorithm and automatically generates extraction rules according to feature-similar induction learning algorithm and extracts automatically the metadata from documents.This algorithm utilises some features of the documents of their own to divide the content of document into blocks,and uses induction method to automatically generate the extraction rules as well as matches these generated rules in conjunction with the feature similarity degree,then it automatically extract metadata information from textual documents,which improves the efficiency of automatic rule-generation and the precision rate of metadata extraction.

作者商杰陈德华薛莉芳

机构地区东华大学计算机科学与技术学院上海万达信息股份有限公司

出处《计算机应用与软件》 CSCD 2011年第12期148-150,共3页 Computer Applications and Software

关键词元数据归纳学习机器学习信息抽取 Metadata Induction learning Machine learning Information extraction

分类号 TP301.4 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献7

1刘永丹,曾海泉,李荣陆,胡运发.基于语义分析的倾向性文本过滤[J].通信学报,2004,25(7):78-85. 被引量：34
2钟敏娟,郝谦,刘云中.基于多模板隐马尔可夫模型的文本信息抽取算法[J].计算机工程,2006,32(2):203-205. 被引量：9
3张秀秀,马建霞.PDF科技论文语义元数据的自动抽取研究[J].现代图书情报技术,2009(2):102-106. 被引量：10
4Laender A H F, Ribeiro-Neto B A, da Silva A S, et al. A brief survey of web data extraction tools [ J]. SIGMOD Records, 2002, 31 ( 2 ) : 84 -93.
5周亚.2001—2008年国内元数据自动抽取研究综述[J].科技情报开发与经济,2009,19(23):140-142. 被引量：3
6Kern R, Van Hateren J H, Egelhaaf M. Representation of behaviourally relevant information by blowfly motion-sensitive visual intemeurons re- quires precise compensatory head movements [ J ]. J. Exp. Biol, 2006 (209) :1251 - 1260.
7钱建立,吴广茂,蒋路.基于特征相似度的科技论文元数据提取算法研究[J].微电子学与计算机,2008,25(8):129-132. 被引量：9

二级参考文献37

1李胜利,李昌清,袁平鹏,刘英书.基于Web的电子期刊元数据信息抽取方法[J].华中科技大学学报（自然科学版）,2007,35(12):13-15. 被引量：7
2游祎,赵荣.我国元数据研究现状与发展[J].图书情报工作,2008,52(S1):202-205. 被引量：7
3刘金红,夏阳,陆余良.基于Ontology的网络元数据抽取系统的研究与实现[J].安徽电子信息职业技术学院学报,2004,3(5):10-13. 被引量：3
4袁平,韩景润,党海飞.空间元数据自动生成技术研究[J].地理信息世界,2005,3(1):11-15. 被引量：3
5郭瑞华,张玉莉.语义Web上DC元数据的描述及抽取技术[J].现代情报,2005,25(6):212-214. 被引量：6
6钱云涛,谢维信.一种由模糊逻辑神经元网络实现的聚类分析方法[J].西安电子科技大学学报,1995,22(1):1-7. 被引量：12
7常娥,何琳,侯汉清.元数据自动生成技术研究[J].情报理论与实践,2006,29(5):608-611. 被引量：5
8杜晓,晋佩东,郭大海,王建超,周英杰.遥感影像快速入库和元数据提取系统的研究[J].国土资源遥感,2006,18(3):80-84. 被引量：9
9屠彤辉.期刊论文的元数据描述探析[J].上海高校图书情报工作研究,2006,16(4):30-34. 被引量：3
10陈俊林,张文德.基于XSLT的PDF论文元数据的优化抽取[J].现代图书情报技术,2007(2):18-23. 被引量：9

共引文献60

1熊静娴,李生红.面向不良文本信息监控的概念网技术研究[J].计算机工程与应用,2006,42(3):183-186. 被引量：3
2马海兵,刘永丹,王兰成,李荣陆.三种文档语义倾向性识别方法的分析与比较[J].现代图书情报技术,2007(4):43-47. 被引量：15
3程亮,何志浩,李留英,李龙.中文BBS内容安全监控模型构想[J].情报杂志,2007,26(12):100-102. 被引量：1
4金砚硕,迟呈英,战学刚.一种基于隐马尔可夫聚类的信息提取方法[J].情报杂志,2008,27(3):96-98. 被引量：6
5侯传宇.马尔可夫及隐马尔可夫模型在数据挖掘中的应用[J].电脑知识与技术,2008(3):1186-1188. 被引量：5
6冯艳.基于语义标注和最小二乘神经网络的信息抽取[J].科技情报开发与经济,2008,18(20):138-140.
7李钝,乔保军,曹元大,万月亮.基于语义分析的词汇倾向识别研究[J].模式识别与人工智能,2008,21(4):482-487. 被引量：17
8来火尧,刘功申.基于主题相关性分析的文本倾向性研究[J].信息安全与通信保密,2009,31(3):77-78. 被引量：16
9LI Dun,MA Yong-tao,GUO Jian-li.Words semantic orientation classification based on HowNet[J].The Journal of China Universities of Posts and Telecommunications,2009,16(1):106-110. 被引量：4
10李新.基于语义的文本信息安全过滤平台[J].信息化研究,2009,35(6):15-20. 被引量：2

同被引文献10

1钟巧华.数据仓库的数据抽取技术研究[J].计算机工程,2004,30(B12):62-63. 被引量：11
2盛守照,王道波,黄向华.一种动态筛选样本的前向神经网络快速学习算法[J].电子与信息学报,2005,27(11):1818-1820. 被引量：1
3陈哲,魏衍君.XML数据本体抽取算法研究[J].河南科技大学学报（自然科学版）,2007,28(5):36-39. 被引量：2
4周大海,安云哲,夏秀峰,于戈.数据仓库系统中Excel文档数据的ETL方法研究与实现[J].小型微型计算机系统,2007,28(10):1813-1816. 被引量：7
5刘群.基于句法的统计机器翻译模型与方法[J].中文信息学报,2011,25(6):63-71. 被引量：16
6李春艳,徐保民.Web数据抽取技术研究初探[J].电脑知识与技术,2009,0(12Z):9920-9922. 被引量：3
7张元鸣,陈苗,陆佳炜,徐俊,肖刚.非结构化表格文档数据抽取与组织模型研究[J].浙江工业大学学报,2016,44(5):487-494. 被引量：12
8李亚超,熊德意,张民.神经机器翻译综述[J].计算机学报,2018,41(12):2734-2755. 被引量：106
9肖枝洪,于浩,王一超.基于动态离差平方和准则的无监督机器学习[J].重庆理工大学学报（自然科学）,2018,32(11):134-139. 被引量：10
10徐立臻,谢鸿强,董逸生.数据仓库系统中源数据的提取与集成[J].小型微型计算机系统,2003,24(5):869-873. 被引量：17

引证文献2

1张志强,王伟钧,施达.一种大容量数据文件抽取算法的优化研究[J].成都大学学报（自然科学版）,2019,38(1):52-55. 被引量：3
2刘婉婉.结合无监督元学习方法的神经机器翻译[J].信息技术与信息化,2021(1):241-243.

二级引证文献3

1吉豪杰,宋欣潮.POI用户模型的重构与优化[J].软件,2019,40(5):193-199. 被引量：1
2杜小丹,吴成宾,王惟洁,何源,刘新跃,罗德彪.数据中心Web系统非结构化数据治理策略及措施[J].实验室研究与探索,2020,39(8):52-55. 被引量：3
3余向前.基于XML的电力营销数据智能抽取方法研究[J].自动化仪表,2023,44(1):92-95. 被引量：2

1石永革,廖强,方泉.基于Agent的容灾系统数据同步机制[J].微计算机信息,2009(9):209-211. 被引量：2
2张汶钊,吴薇.基于小波变换的图像融合算法[J].江苏科技信息,2013(20):52-53. 被引量：1
3成江.用无线网和WBT实现企业internet 接入[J].计算机与网络,2006,32(6):47-48.
4王灿辉,张敏,马少平,黄宇.基于相邻词的中文关键词自动抽取[J].广西师范大学学报（自然科学版）,2007,25(2):161-164. 被引量：10
5王燕.基于相邻词的中文关键词自动抽取研究[J].科技致富向导,2012(26):84-84.
6宋元海.基于Markov的概念自动抽取算法[J].软件工程师,2013(10):31-33.
7倪政林.领域本体的快速识别研究[J].新乡学院学报,2012,29(4):341-344.
8赵若冰.基于信息熵的领域术语自动抽取算法在产品评论过滤中的具体运用[J].金田,2011(11):255-257.
9陈治昂,周知予,李大学.一种基于模板的快速网页文本自动抽取算法[J].计算机应用研究,2009,26(7):2646-2649. 被引量：11
10王庆刚,张林,张剑.基于移动互联网的农业电商系统设计与实现[J].计算机应用,2016,36(A01):286-290. 被引量：22

计算机应用与软件

2011年第12期

浏览历史

内容加载中请稍等...

文本元数据自动抽取算法的研究被引量：2

参考文献7

二级参考文献37

共引文献60

同被引文献10

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

文本元数据自动抽取算法的研究 被引量：2

参考文献7

二级参考文献37

共引文献60

同被引文献10

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

文本元数据自动抽取算法的研究被引量：2