一种针对商品数据记录的自动抽取方法被引量：8

Automatic Extraction Method for Product Data Records

下载PDF

导出

摘要提出一种针对电子商务网站商品列表页数据记录的自动抽取方法。该方法根据商品记录的特点,通过商品记录中商品的文本、图片以及布局等节点类型信息计算节点对应的值,依据节点值的相似度对节点进行分组,再从不同分组中过滤出包含数据记录节点的集合,从而抽取整个页面的数据记录。实验结果证明该方法有效且抽取效率较高。 This paper proposes an automatic extraction method for Product Data Record（PDR） of list page on E-commerce website.According to the characteristics of the product records,it calculates value for each node in the DOM tree of page by the node type information of text,image,layout and so on,classifies these nodes according to their similarity of value,and gets the final node collection which contains data record,so that the data records of the whole page are extracted.Experimental results show that the method is effective and with high efficiency.

作者杨舟卓林赵朋朋崔志明

机构地区苏州大学智能信息处理及应用研究所江苏省现代企业信息化应用支撑软件工程技术研发中心

出处《计算机工程》 CAS CSCD 北大核心 2010年第23期262-265,共4页 Computer Engineering

基金国家自然科学基金资助项目(60970015) 2008年江苏省重大科技支撑与自主创新基金资助项目(BE2008044) 江苏省基础研究计划企业博士创新基金资助项目(BK2009563)

关键词 WEB信息抽取数据抽取信息集成商品数据记录 Web information extraction data extraction information integration Product Data Record（PDR）

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Liu Bing. Mining Data Records in Web Pages[C]//Proceedings of the ACM International Conference on Knowledge Discovery and Data Mining. Washington D. C. , USA: [s. n. ], 2003:601-606.
2Miao Gengxin, Tatemura J, Hsiung Wang+Pin, et al. Extracting Data Records from the Web Using Tag Path Clustering[C] //Proceedings of the 18th International Conference on the World Wide Web. Madrid: Spain, [s. n. ], 2009: 981-990.
3胡仁龙,袁春风,武港山,濮小佳.基于重复模式的自动Web信息抽取[J].计算机工程,2008,34(22):73-76. 被引量：8
4Zhai Yanhong, Liu Bing. Web Data Extraction Based on Partial Tree Alignment [C]//Proceedings of the 14th International Conference on the World Wide Web. Chiba, Japan.. [s. n. ], 2005 : 76-85.
5Wang Jingyi, Lochovsk F H. Data Extraction and Label Assignment for Web Databases[C]//Proceedings of the 12th International Conference on the World Wide Web. Budapest, Hungary: [s. n. ],2003.. 187-196.
6Liu Bing, Zhai Yanhong. NET: System for Extracting Web Data from Flat and Nested Data Records[C]//Proceedings of the Conference on Web Information Systems Engineering: New York, USA: [s. n.], 2005: 487-495.
7Liu Wei, Meng Xiaofeng, Meng Weiyi. Vision-based Web Data Records Extractign[C]//Proceedings of the 9th Int'l Workshop on Web and Databases. New York, USA: ACM Press, 2006: 20 -25.

二级参考文献6

1Chang Chia-Hui, Kayed M, Girgis M R. A Survey of Web Information Extraction Systems[J]. IEEE Transaction on Know-ledge and Data Engineering, 2006, 18( 10): 1411 - 1428.
2Crescenzi V, Mecca G, Merialdo R Road-runner: Towards Automatic Data Extraction from Large Web Sites[C]//Proc. of the 26th Int'l Conf. on Very Large Database Systems. Roma, Italy: [s. n.], 2001: 109-118.
3Chang Chia-Hui, Lui C. IEPAD: Information Extraction Based on Pattern Discovery[C]//Proceedings of the 10th International Conference on World Wide Web. Hong Kong, China: [s. n.], 2001: 681-688.
4Liu Bing, Grossman R, Zhai Yanhong. Mining Data Records in Web Pages[C]//Proceedings of KDD'03. Washington D. C., USA: [s. n.], 2003: 601-606.
5Phong L Vuong B Gao Xiaoying, et al. Data Extraction from Semi-structured Web Pages by Clustering[C]//Proceedings of WI'06. Hong Kong, China: [s. n.], 2006: 374-377.
6Wu Yang. Identifying Syntactic Differences Between Two Programs[J]. Software-practice and Experience, 1991, 21(7): 739-755.

共引文献7

1关冕,马军.针对Web论坛的一种结构化数据自动抽取方法[J].山东大学学报（理学版）,2010,45(5):42-47. 被引量：1
2彭程,吴华瑞,朱华吉.村镇产业信息自动获取与可视化展示方法[J].计算机工程,2011,37(1):270-272.
3李友元,庄英萍,张嗣良.生物信息软件的自动化策略及其实现[J].计算机工程,2011,37(4):81-83. 被引量：1
4解姝,叶施仁,肖春.社会媒体网页内容的分割与抽取[J].计算机工程,2011,37(21):155-158.
5黄亮,赵泽茂,梁兴开.基于编辑距离的Web数据挖掘[J].计算机应用,2012,32(6):1662-1665. 被引量：16
6伍杰华,倪振声,陈有青.一种基于逆序匹配重复模式的主题信息提取方法[J].计算机应用与软件,2013,30(4):88-91.
7许志坚,孙蕾.基于数据富集区域的Web内容自动抽取[J].计算机工程,2013,39(9):192-195.

同被引文献68

1陈挺,刘嘉勇,夏天,范刚.基于平板型Web论坛的信息抽取研究[J].成都信息工程学院学报,2009,24(1):1-4. 被引量：9
2赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
3刘丹,谢庆生,顾新建.电子商务环境下产品本体构建技术研究[J].计算机应用,2007,27(3):752-755. 被引量：11
4朱红灿,龙朝阳.基于熵的新闻网页抽取方法的研究[J].现代图书情报技术,2007(4):48-51. 被引量：2
5罗永莲,秦振吉.新闻网页主题内容提取方法研究[J].微计算机应用,2007,28(5):556-560. 被引量：5
6黄健斌,姬红兵,孙鹤立.Web网页中动态数据区域的识别与抽取[J].计算机工程,2007,33(11):53-55. 被引量：8
7乔少杰唐常杰陈瑜等.基于树编辑距离的层次聚类算法.计算机科学与探索,2007,1(3):282-292.
8Muslea I, Minton S, Knoblock C. A Hierarchical Approach to Wrapper Induction[C]//Proceedings of the 3rd International Conference on Autonomous Agents. Seattle, USA: [s. n.], 1999.
9Liu Bing, Grossman R, Zhai Yanhong. Mining Data Record in Web Pages[C]//Proceedings of KDD'03. Washington D. C., USA: Is. n.], 2003: 601-606.
10Tai Kuochung. The Tree-to-tree Correction Problem[J]. Journal of the Association for Computing Machinery, 1979, 26(3): 422-433.

引证文献8

1解姝,叶施仁,肖春.社会媒体网页内容的分割与抽取[J].计算机工程,2011,37(21):155-158.
2孔燕燕,施化吉.基于相似URL的深层网数据区域识别[J].计算机工程,2012,38(2):48-50. 被引量：1
3郭建兵,崔志明,陈明,赵朋朋.基于DOM树与领域本体的Web抽取方法[J].计算机工程,2012,38(5):56-58. 被引量：5
4唐朝伟,李俊,苗光胜,杜欣慧.基于DOM树的视频元数据抽取系统[J].计算机工程,2012,38(8):268-270. 被引量：1
5黄武冠,朱明,尹文科.基于DOM树和视觉特征的网页信息自动抽取[J].计算机工程,2013,39(10):309-312. 被引量：5
6李湘东,霍亚勇,黄莉.图书网页的自动识别及书目信息抽取研究[J].现代图书情报技术,2014(4):71-77. 被引量：3
7刘全志,于治楼.基于Heritrix和Jsoup的信息抽取系统的设计与实现[J].山东师范大学学报（自然科学版）,2015,30(2):16-19. 被引量：2
8刘春梅,郭岩,俞晓明,赵岭,刘悦,程学旗.针对开源论坛网页的信息抽取研究[J].计算机科学与探索,2017,11(1):114-123. 被引量：10

二级引证文献27

1陈荟慧,舒云星,林丽.多语种Web新闻语料抓取的通用模型研究[J].洛阳理工学院学报（自然科学版）,2013,23(4):34-39. 被引量：1
2王督,蔡永香,李博涵,刘远刚.油气行业垂直搜索引擎关键问题解决方案[J].计算机系统应用,2018,27(12):18-24.
3陈荟慧,舒云星,林丽.Web语料抓取中基于相似度的URL过滤规则生成算法[J].模式识别与人工智能,2014,27(7):631-637.
4刘晨,孟昭彤,韩燕波.一种面向最终用户的可视化网页数据抽取及服务化封装方法[J].北方工业大学学报,2014,26(3):16-22.
5伊政,徐武平,徐爱萍.一种基于结构分析的网页主题区域发现方法[J].计算机工程与应用,2015,51(6):227-230. 被引量：1
6李晨,朱世伟,赵燕清,于俊凤.基于MapReduce的网络爬虫设计与实现[J].山东科学,2015,28(2):101-107. 被引量：1
7刘宝超,崔荣一.基于最大Jaccard相似度的互激励实体验证算法[J].延边大学学报（自然科学版）,2015,41(1):42-45. 被引量：1
8何云钢,曹宝香.基于DOM树和DBSCAN算法的Web信息提取[J].电子技术（上海）,2015,42(6):88-92. 被引量：1
9常丽君,钱钢.面向不规则列表的网页数据抽取技术的研究[J].计算机应用研究,2015,32(9):2651-2654. 被引量：1
10王佩,牛晨,丁立彤.基于PHP的在线跨站脚本检测工具[J].现代电子技术,2015,38(20):41-43.

计算机工程

2010年第23期

浏览历史

内容加载中请稍等...

一种针对商品数据记录的自动抽取方法被引量：8

参考文献7

二级参考文献6

共引文献7

同被引文献68

引证文献8

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

一种针对商品数据记录的自动抽取方法 被引量：8

参考文献7

二级参考文献6

共引文献7

同被引文献68

引证文献8

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

一种针对商品数据记录的自动抽取方法被引量：8