期刊文献+

面向深网网页的信息抽取算法研究

下载PDF
导出
摘要 海量结构化数据隐藏在深网中(Deep Web),对有价值的深网数据抽取研究变得十分重要。提出一种面向深网网页的信息抽取算法,创新性引入序列比对算法进行页面噪声去除,实验结果表明抽取效率和准确率大幅提升,同时具有较好的召回率和查准率。
作者 李丹
出处 《信息记录材料》 2019年第1期46-47,共2页 Information Recording Materials
基金 2018年沈阳城市建设学院科研发展基金项目<面向深网网页的信息抽取算法研究>(XKJ2018006)
  • 相关文献

参考文献2

二级参考文献12

  • 1邓松,万常选,刘喜平,等.基于主题语义的非合作结构化Top-N深网数据源选择[J].计算机研究与发展,2012,49(增刊1):58-64.
  • 2Milad S. Central-rank-based collection selection in un- cooperative distributed information retrieval [C] // Proc of the 29th European Conference on IR Research. Heidelberg: Springer-Verlag, 2007: 160-172.
  • 3Hong D, Si L, Bracke P, et al. A joint probabilistic classification model for resource selection :C] //Proe of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIRrl0). New York: ACM, 2010: 98-105.
  • 4Liu V Z, Luo R C, Chu W W. Dprot A probabilistic approach for hidden Web database selection using dy- namic probing [C] //Proc of the 20th Int'l Conf. on Data Engineering ( ICDE ' 04 ). Washington. IEEE Computer Society, 2004: 1-12.
  • 5Nguyen K,Cao J. K-Graphs: Selecting top-k data sources for XML keyword Queries [(3] //Proc of 22nd Int'l Conf on Database and Expert Systerrts Applications. Heidelberg: Springer-Verlag, 2011: 425-439.
  • 6李文波,孙乐,张大鲲.基于Labeled-LDA模型的文本分类新算法[J].计算机学报,2008,31(4):620-627. 被引量:103
  • 7范举,周立柱.基于关键词的深度万维网数据库选择[J].计算机学报,2011,34(10):1797-1804. 被引量:11
  • 8刘丹丹,彭成,钱龙华,周国栋.词汇语义信息对中文实体关系抽取影响的比较[J].计算机应用,2012,32(8):2238-2244. 被引量:11
  • 9万常选,邓松,刘喜平,廖国琼,刘德喜,江腾蛟.Web数据源选择技术[J].软件学报,2013,24(4):781-797. 被引量:16
  • 10王俊华,左万利,彭涛.面向文本的本体学习方法[J].吉林大学学报(工学版),2015,45(1):236-244. 被引量:4

共引文献16

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部