HTML页面中的文献记录分析算法

Analysis Algorithm of Reference Record in HTML Page

导出

摘要为了使出版机构能够及时从大量网页中发现所需文献,需要设计能够从超文本标记语言页面中自动提取文献信息的算法.为此,设计了基于条件随机场的文献记录分析算法:首先,设计了文档对象树的分割算法,通过分割标记将页面数据分成独立的部分,这些数据块由标签和文本序列构成;随后,将该序列作为条件随机场模型的特征向量,建立文献信息标记模型;最后,设计启发式算法,从标记模型中提取文献信息数据,并通过实验验证了其有效性. With rapid development of Internet,web pages have become the main sources of information.In order to make publishing agencies timely find necessary references from large number of pages,it is necessary to design a reference information extraction algorithm to get useful references information from hyper text markup language pages. A reference analysis algorithm based on conditional random fields was proposed. Firstly,a document object tree segmentation algorithm was designed. Through classifier the web page data were divided into separate parts,and these data blocks were composed of tags and text sequences. Subsequently,these sequences were taken as characteristic vectors of conditional random field model to establish reference information labeling model. Finally,a heuristic algorithm was presented to extract reference information data from the labeling model,and validity of this algorithm was verified by experiments.

作者曾庆涛解凯李业丽王欣刚叶宇姗马少平

机构地区北京印刷学院信息工程学院清华大学计算机科学与技术博士后流动站国家新闻出版广电总局广播电视卫星直播管理中心

出处《北京邮电大学学报》 EI CAS CSCD 北大核心 2017年第S1期85-88,共4页 Journal of Beijing University of Posts and Telecommunications

基金北京市教委科技创新服务能力建设项目(PXM2016_014223_000025) 北京印刷学院校级重点项目(ea201507) 北京印刷学院教师队伍建设-博士启动金项目(27170116005/062) 北京印刷学院科研项目-出版物数据资产评估实验室建设项目(20190116005/006)

关键词数字出版条件随机场文献记录分析 digital publishing conditional random field reference analysis

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1湛江.文献检索统计中易被漏检和错误归类的高校学报[J].中国科技期刊研究,2015,26(9):1005-1009. 被引量：4
2孙颖,崔洁爽,陈扬.关键词共现分析技术在图书馆文献检索中的应用——以心理学为我国“五位一体”[J].图书馆工作与研究,2015(11):45-49. 被引量：6
3林岚.认知弹性理论在文献检索教学中的应用[J].图书馆,2010(2):119-120. 被引量：3
4张莉.文献检索方式的发展与提高期刊影响力[J].编辑学报,2005,17(2):124-125. 被引量：12
5张佳,窦丽华,陈杰.科技文献检索实践课程教学的创新[J].实验室研究与探索,2012,31(2):115-118. 被引量：6
6邹永利,何侃,徐健.文体特征在网络学术文献检索中的意义与应用[J].情报理论与实践,2008,31(4):594-597. 被引量：4
7张永宏,胡立耘.文献检索在编辑工作中的应用[J].编辑学报,2001,13(3):156-160. 被引量：16
8黄晓鹂,李树民,廉立军.我国高等院校文献检索教学研究文献分析[J].现代情报,2009,29(3):222-225. 被引量：4

二级参考文献66

1罗祎晟.《文献检索》实践模式的设计[J].广东技术师范学院学报,2007,28(7):160-161. 被引量：3
2彭元玲,张传燧.E-Learning的发展及其对大学教师的挑战[J].湘潭师范学院学报（自然科学版）,2008,30(3):143-146. 被引量：2
3王海明.科技论文中参考文献著录失真的原因及对策分析[J].青海师范大学学报（自然科学版）,2009,25(1):99-102. 被引量：5
4张永平,陈继华.我国科技期刊进入国际著名检索系统的途径[J].编辑学报,2004,16(3):197-198. 被引量：11
5舒畅.信息检索在医学科技期刊编辑中的应用[J].预防医学情报杂志,2004,20(4):401-402. 被引量：5
6李馨.认知弹性理论在信息技术环境下教学组织策略中的应用[J].电化教育研究,2004,25(9):8-11. 被引量：6
7李丽,张凤莲.应重视参考文献表的编辑加工[J].编辑学报,2004,16(6):412-413. 被引量：20
8黄晓鹂,吕蕴红,廖志江,陈珊.我国循证医学研究成果统计分析[J].医学情报工作,2005,26(1):12-14. 被引量：4
9杨玉宝.认知弹性理论对网络环境下专题教学的启示[J].安徽水利水电职业技术学院学报,2005,5(1):77-79. 被引量：13
10汤亚玲,梁新华,王晴.Pub Med口腔医学期刊文献搜索引擎的制作及其在编辑工作中的应用[J].编辑学报,2005,17(4):258-259. 被引量：2

共引文献47

1王海明.科技论文中参考文献著录失真的原因及对策分析[J].青海师范大学学报（自然科学版）,2009,25(1):99-102. 被引量：5
2刘炳琪,张琪,唐西蕙.利用网络优势打造品牌科技期刊[J].科技编辑研究,2006,18(1):13-15.
3刘有芹,颜芸,徐悦华.应用为导向的《化学文献检索及论文写作》教改探索[J].内蒙古石油化工,2014,40(8):89-91. 被引量：11
4舒畅.信息检索在医学科技期刊编辑中的应用[J].预防医学情报杂志,2004,20(4):401-402. 被引量：5
5李丽,张凤莲.应重视参考文献表的编辑加工[J].编辑学报,2004,16(6):412-413. 被引量：20
6汤亚玲,梁新华,王晴.Pub Med口腔医学期刊文献搜索引擎的制作及其在编辑工作中的应用[J].编辑学报,2005,17(4):258-259. 被引量：2
7李学敏,陈平.医学信息检索对医学文稿编辑加工的作用[J].编辑学报,2005,17(4):278-279. 被引量：8
8王朴,黄秀清.3G业务之“七种武器”[J].中国新通信,2006(13):74-76.
9柳晓丽.提高科技期刊影响因子的途径探讨[J].编辑学报,2006,18(4):285-286. 被引量：55
10雷琪.参考文献的著录质量亟待提高[J].编辑学报,2006,18(1):40-41. 被引量：23

1李峰,司亚利,陈真,申利民.基于马尔可夫链的轻量级机会路由转发策略[J].通信学报,2017,38(5):108-120. 被引量：2
2刘敏娜,赵蔷.SSI技术在教学资源平台应用的研究[J].计算机技术与发展,2017,27(9):170-174. 被引量：1
3郝南海.考虑打印件排布的3D打印批次规划[J].现代制造工程,2017(5):55-58. 被引量：3

北京邮电大学学报

2017年第S1期

浏览历史

内容加载中请稍等...

HTML页面中的文献记录分析算法

参考文献8

二级参考文献66

共引文献47

相关作者

相关机构

相关主题

浏览历史