摘要
【目的】针对淘宝商品上架自动类目识别需求,在电子商务领域中提出商品品名识别问题。【方法】通过合作方获取的大量商品交易数据,构建电商商品描述数据集,并对数据集人工标注;使用基于XGBoost模型的有监督机器学习算法,对电商商品描述短文本进行品名识别研究。【结果】实验结果表明,该算法对最终20059条数据集上的816种商品的识别准确率为85%,召回率为87%。【局限】商品种类不够完善,语料库中的商品种类和描述数量可进一步丰富。【结论】本研究在电子商务领域中尝试使用机器学习算法解决商品品名识别问题。实验证明本算法是合理的、有效的,具有实际应用价值。
[Objective] This paper tries to automatically identify commodity names from product descriptions, aiming to classifying items sold by Taobao.[Methods] First, we retrieved a large number of transaction records from Taobao. Then, we built an e-commerce commodity description dataset and labeled it manually. Third, we created a supervised machine learning algorithm based on the XGBoost model to extract names from product description.[Results] The precision and recall of the algorithm was 85% and 87% for 816 different items from 20,059 records.[Limitations] Categories of commodities in the test corpus need to be expanded.[Conclusions] Machine learning algorithm is an effective way to identify product names.
作者
李晓峰
马静
李驰
朱恒民
Li Xiaofeng;Ma Jing;Li Chi;Zhu Hengmin(College of Economics and Management, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China;Alibaba Zhejiang Rookie Supply Chain Management Co., Ltd., Hangzhou 311100, China;College of Economics and Management, Nanjing University of Posts and Telecommunications,Nanjing 210046, China)
出处
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2019年第7期34-41,共8页
Data Analysis and Knowledge Discovery
基金
国家自然科学基金面上项目“基于演化本体的网络舆情自适应话题跟踪方法研究”(项目编号:71373123)
国家自然科学基金项目“基于主路径网络的舆情传播态势预测与干预研究——以社会化媒体中舆情为对象”(项目编号:71874088)的研究成果之一
中央高校基本科研业务费专项:前瞻性发展策略研究资助项目“基于大数据技术的跨境电商政府管理范式研究”(项目编号:NW2018004)