面向深网网页的信息抽取算法研究

下载PDF

导出

摘要海量结构化数据隐藏在深网中(Deep Web),对有价值的深网数据抽取研究变得十分重要。提出一种面向深网网页的信息抽取算法,创新性引入序列比对算法进行页面噪声去除,实验结果表明抽取效率和准确率大幅提升,同时具有较好的召回率和查准率。

作者李丹

机构地区沈阳城市建设学院

出处《信息记录材料》 2019年第1期46-47,共2页 Information Recording Materials

基金 2018年沈阳城市建设学院科研发展基金项目<面向深网网页的信息抽取算法研究>(XKJ2018006)

关键词深网序列比对模板抽取

分类号 TP391.3 [自动化与计算机技术—计算机应用技术] TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1邓松,万常选,吁亮,刘德喜,雷刚,王映龙.非合作结构化深网数据源摘要的动态更新[J].微电子学与计算机,2014,31(4):36-39. 被引量：1
2罗明,黄海量.基于词汇-语义模式的金融事件信息抽取方法[J].计算机应用,2018,38(1):84-90. 被引量：17

二级参考文献12

1邓松,万常选,刘喜平,等.基于主题语义的非合作结构化Top-N深网数据源选择[J].计算机研究与发展,2012,49(增刊1):58-64.
2Milad S. Central-rank-based collection selection in un- cooperative distributed information retrieval [C] // Proc of the 29th European Conference on IR Research. Heidelberg: Springer-Verlag, 2007: 160-172.
3Hong D, Si L, Bracke P, et al. A joint probabilistic classification model for resource selection :C] //Proe of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIRrl0). New York: ACM, 2010: 98-105.
4Liu V Z, Luo R C, Chu W W. Dprot A probabilistic approach for hidden Web database selection using dy- namic probing [C] //Proc of the 20th Int'l Conf. on Data Engineering ( ICDE ' 04 ). Washington. IEEE Computer Society, 2004: 1-12.
5Nguyen K,Cao J. K-Graphs: Selecting top-k data sources for XML keyword Queries [(3] //Proc of 22nd Int'l Conf on Database and Expert Systerrts Applications. Heidelberg: Springer-Verlag, 2011: 425-439.
6李文波,孙乐,张大鲲.基于Labeled-LDA模型的文本分类新算法[J].计算机学报,2008,31(4):620-627. 被引量：103
7范举,周立柱.基于关键词的深度万维网数据库选择[J].计算机学报,2011,34(10):1797-1804. 被引量：11
8刘丹丹,彭成,钱龙华,周国栋.词汇语义信息对中文实体关系抽取影响的比较[J].计算机应用,2012,32(8):2238-2244. 被引量：11
9万常选,邓松,刘喜平,廖国琼,刘德喜,江腾蛟.Web数据源选择技术[J].软件学报,2013,24(4):781-797. 被引量：16
10王俊华,左万利,彭涛.面向文本的本体学习方法[J].吉林大学学报（工学版）,2015,45(1):236-244. 被引量：4

共引文献16

1付淇.社会化短文本及其技术研究[J].景德镇学院学报,2018,33(2):113-117.
2殷学梅,周军华,朱耀琴.复杂产品协同设计中数据建模与驱动方法[J].计算机应用,2018,38(10):3017-3024. 被引量：5
3李盼,李宜广,徐春.基于关键节点的网络热点信息抽取[J].计算机与现代化,2019,0(9):60-64. 被引量：3
4毛瑞彬,吕华揆,朱菁.上市公司公告篇章级信息抽取框架与实现[J].情报科学,2019,37(11):73-78. 被引量：3
5李小龙,尹涵.面向政务文本数据的事件级时空模型研究[J].江西科学,2019,37(6):958-963. 被引量：1
6李文慧,张英俊,潘理虎.改进biLSTM网络的短文本分类方法[J].计算机工程与设计,2020,41(3):880-886. 被引量：10
7唐晓波,谭明亮,胡潇然,石文萱,周巧.面向金融决策支持的知识获取研究综述[J].信息资源管理学报,2020,10(3):27-35. 被引量：6
8邓原,简书娜,滕剑仑.基于事件嵌套的财务报告知识推理研究[J].会计之友,2020(21):127-130. 被引量：2
9马晓雯,何琳,刘建斌,李章超,高丹.基于Bi-LSTM的古籍事件句触发词分类方法研究[J].农业图书情报学报,2021,33(9):27-36. 被引量：3
10郭炜杰,包晓安.知识数据库中非结构化文本关键信息抽取模型[J].计算机仿真,2021,38(9):357-360. 被引量：4

1张儒清,郭岩,刘悦,俞晓明,程学旗.任意网页的主题信息抽取研究[J].中文信息学报,2017,31(5):127-137. 被引量：6
2文丹艳,马超群,王琨.一种多源数据驱动的自动交易系统决策模型[J].自动化学报,2018,44(8):1505-1517. 被引量：5
3王文豪,严云洋,姜明新,高尚兵,于永涛.基于噪声检测和动态窗口的图像去噪算法[J].图学学报,2019,40(1):111-116. 被引量：7
4田昊阳.大数据时代对创新环境的影响[J].通讯世界,2019,26(3):182-183.
5孙娜.自然语言文本中否定性信息智能抽取仿真[J].计算机仿真,2018,35(12):276-279. 被引量：2
6刘雪娇,席晓丽.结构型含磷阻燃剂在PET中应用的专利分析[J].创新科技,2018,18(12):40-42.
7韩戈白,陈迪,王博,杨绍雄.基于ARIMA和误差修正的航材消耗预测模型[J].电子质量,2019(2):24-30. 被引量：3
8张永真,吕学强,申闫春,徐丽萍.基于SAO结构的中文专利实体关系抽取[J].计算机工程与设计,2019,40(3):706-712. 被引量：10

信息记录材料

2019年第1期

浏览历史

内容加载中请稍等...

面向深网网页的信息抽取算法研究

参考文献2

二级参考文献12

共引文献16

相关作者

相关机构

相关主题

浏览历史