-
题名电商网页中商品规格信息自动抽取方法研究
被引量:4
- 1
-
-
作者
赵晓永
王磊
-
机构
北京信息科技大学信息管理学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2017年第24期168-171,共4页
-
基金
国家自然科学基金(No.61572079)
北京市教育委员会科技计划一般项目(No.KM201711232018)
-
文摘
Web中数十亿的商品规格信息的自动挖掘,对电子商务领域的市场分析、商品推荐、售后服务等诸多领域有重要的应用价值。但目前的商品规格信息抽取方法尚未有效解决人工标注工作量、扩展性和准确率之间的平衡问题,提出一种商品网页规格信息自动抽取方法TSAE(Title Seed Automatic Extract),采用无监督的学习方法,以网页标题为种子,结合统计特征、自然语义和机器语义,在减少工作量、提升扩展性的同时,达到了较高的准确率。实验表明,TSAE方法在提供更好的自动化抽取效果的同时,具备良好的性能和扩展性,能够支撑海量数据处理,具有良好的实用价值。
-
关键词
信息抽取
自动抽取
商品规格信息
电子商务
-
Keywords
information extraction
automatic extraction
product specification
e-commerce
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-