期刊文献+

基于XGBoost模型的电商商品品名识别算法研究 被引量:6

Identifying Commodity Names Based on XGBoost Model
原文传递
导出
摘要 【目的】针对淘宝商品上架自动类目识别需求,在电子商务领域中提出商品品名识别问题。【方法】通过合作方获取的大量商品交易数据,构建电商商品描述数据集,并对数据集人工标注;使用基于XGBoost模型的有监督机器学习算法,对电商商品描述短文本进行品名识别研究。【结果】实验结果表明,该算法对最终20059条数据集上的816种商品的识别准确率为85%,召回率为87%。【局限】商品种类不够完善,语料库中的商品种类和描述数量可进一步丰富。【结论】本研究在电子商务领域中尝试使用机器学习算法解决商品品名识别问题。实验证明本算法是合理的、有效的,具有实际应用价值。 [Objective] This paper tries to automatically identify commodity names from product descriptions, aiming to classifying items sold by Taobao.[Methods] First, we retrieved a large number of transaction records from Taobao. Then, we built an e-commerce commodity description dataset and labeled it manually. Third, we created a supervised machine learning algorithm based on the XGBoost model to extract names from product description.[Results] The precision and recall of the algorithm was 85% and 87% for 816 different items from 20,059 records.[Limitations] Categories of commodities in the test corpus need to be expanded.[Conclusions] Machine learning algorithm is an effective way to identify product names.
作者 李晓峰 马静 李驰 朱恒民 Li Xiaofeng;Ma Jing;Li Chi;Zhu Hengmin(College of Economics and Management, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China;Alibaba Zhejiang Rookie Supply Chain Management Co., Ltd., Hangzhou 311100, China;College of Economics and Management, Nanjing University of Posts and Telecommunications,Nanjing 210046, China)
出处 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第7期34-41,共8页 Data Analysis and Knowledge Discovery
基金 国家自然科学基金面上项目“基于演化本体的网络舆情自适应话题跟踪方法研究”(项目编号:71373123) 国家自然科学基金项目“基于主路径网络的舆情传播态势预测与干预研究——以社会化媒体中舆情为对象”(项目编号:71874088)的研究成果之一 中央高校基本科研业务费专项:前瞻性发展策略研究资助项目“基于大数据技术的跨境电商政府管理范式研究”(项目编号:NW2018004)
关键词 电子商务 商品描述 品名识别 XGBoost 特征抽取 E-Commerce Product Description Product Name Recognition XGBoost Feature Extraction
  • 相关文献

参考文献7

二级参考文献79

共引文献212

同被引文献72

引证文献6

二级引证文献21

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部