基于XGBoost模型的电商商品品名识别算法研究被引量：6

Identifying Commodity Names Based on XGBoost Model

导出

摘要【目的】针对淘宝商品上架自动类目识别需求,在电子商务领域中提出商品品名识别问题。【方法】通过合作方获取的大量商品交易数据,构建电商商品描述数据集,并对数据集人工标注;使用基于XGBoost模型的有监督机器学习算法,对电商商品描述短文本进行品名识别研究。【结果】实验结果表明,该算法对最终20059条数据集上的816种商品的识别准确率为85%,召回率为87%。【局限】商品种类不够完善,语料库中的商品种类和描述数量可进一步丰富。【结论】本研究在电子商务领域中尝试使用机器学习算法解决商品品名识别问题。实验证明本算法是合理的、有效的,具有实际应用价值。 [Objective] This paper tries to automatically identify commodity names from product descriptions, aiming to classifying items sold by Taobao.[Methods] First, we retrieved a large number of transaction records from Taobao. Then, we built an e-commerce commodity description dataset and labeled it manually. Third, we created a supervised machine learning algorithm based on the XGBoost model to extract names from product description.[Results] The precision and recall of the algorithm was 85% and 87% for 816 different items from 20,059 records.[Limitations] Categories of commodities in the test corpus need to be expanded.[Conclusions] Machine learning algorithm is an effective way to identify product names.

作者李晓峰马静李驰朱恒民 Li Xiaofeng;Ma Jing;Li Chi;Zhu Hengmin(College of Economics and Management, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China;Alibaba Zhejiang Rookie Supply Chain Management Co., Ltd., Hangzhou 311100, China;College of Economics and Management, Nanjing University of Posts and Telecommunications,Nanjing 210046, China)

机构地区南京航空航天大学经济与管理学院阿里巴巴浙江菜鸟供应链管理有限公司南京邮电大学经济与管理学院

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第7期34-41,共8页 Data Analysis and Knowledge Discovery

基金国家自然科学基金面上项目“基于演化本体的网络舆情自适应话题跟踪方法研究”(项目编号:71373123) 国家自然科学基金项目“基于主路径网络的舆情传播态势预测与干预研究——以社会化媒体中舆情为对象”(项目编号:71874088)的研究成果之一中央高校基本科研业务费专项:前瞻性发展策略研究资助项目“基于大数据技术的跨境电商政府管理范式研究”(项目编号:NW2018004)

关键词电子商务商品描述品名识别 XGBoost 特征抽取 E-Commerce Product Description Product Name Recognition XGBoost Feature Extraction

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] G35 [文化科学—情报学]

引文网络
相关文献

参考文献7

1程园,吾守尔.斯拉木,买买提依明.哈斯木.基于综合的句子特征的文本自动摘要[J].计算机科学,2015,42(4):226-229. 被引量：11
2贾晓婷,王名扬,曹宇.结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究[J].数据分析与知识发现,2018,2(2):86-95. 被引量：19
3吴晓锋,宗成庆.一种基于LDA的CRF自动文摘方法[J].中文信息学报,2009,23(6):39-45. 被引量：13
4胡学钢,杨超群,张玉红.基于自身特征扩展的短文本分类方法[J].计算机应用研究,2017,34(4):1008-1010. 被引量：15
5王盛,樊兴华,陈现麟.利用上下位关系的中文短文本分类[J].计算机应用,2010,30(3):603-606. 被引量：38
6范云杰,刘怀亮.基于维基百科的中文短文本分类研究[J].现代图书情报技术,2012(3):47-52. 被引量：34
7周练.Word2vec的工作原理及应用探究[J].科技情报开发与经济,2015,28(2):145-148. 被引量：100

二级参考文献79

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
3王元珍,钱铁云,冯小年.基于关联规则挖掘的中文文本自动分类[J].小型微型计算机系统,2005,26(8):1380-1383. 被引量：13
4秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
5樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
6刘磊,曹存根,王海涛,陈威.一种基于“是一个”模式的下位概念获取方法[J].计算机科学,2006,33(9):146-151. 被引量：18
7刘功中,李建华,李生红.基于类信息的特征选择和加权方法[C]//第一届全国信息检索与内容安全学术会议.上海:上海交通大学出版社,2004.
8HP Luhn. The Automatic Creation of Literature Abstracts[J]. IBM Journal of Research and Development, 1958, 2(2): 159-165.
9D.R. Radev, E. Hovy and K. McKeown. Introduction to the Special Issue on Summarization[J]. Computational Linguistics, 2002, 28(4): 399-408.
10Xiaofeng Wu, Chengqing Zong. A New Approach to Automatic Document Summarization[C]//International Joint Conference of Natural Language Processing, 2008: 126-132.

共引文献212

1李奕霖,周艳平.基于孪生网络和字词向量结合的文本相似度匹配[J].计算机系统应用,2022,31(10):295-302. 被引量：2
2黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：20
3范云杰,刘怀亮.基于维基百科的中文短文本分类研究[J].现代图书情报技术,2012(3):47-52. 被引量：34
4王红玲,张明慧,周国栋.主题信息的中文多文档自动文摘系统[J].计算机工程与应用,2012,48(25):132-136. 被引量：5
5郭乔进,李宁,杨育彬,武港山.LDA-CRF:一种基于概率图模型的目标检测方法[J].计算机研究与发展,2012,49(11):2296-2304. 被引量：4
6张素智,刘婧姣.基于语义的KNN短文本分类算法研究[J].郑州轻工业学院学报（自然科学版）,2012,27(6):1-4. 被引量：4
7张倩,刘怀亮.一种基于半监督学习的短文本分类方法[J].现代图书情报技术,2013(2):30-35. 被引量：6
8赵辉,刘怀亮.一种基于维基百科的中文短文本分类算法[J].图书情报工作,2013,57(11):120-124. 被引量：16
9赵辉,刘怀亮.面向用户生成内容的短文本聚类算法研究[J].现代图书情报技术,2013(9):88-92. 被引量：6
10赵辉,刘怀亮.面向社区问答的中文短文本分类算法研究[J].现代情报,2013,33(10):70-74. 被引量：3

同被引文献72

1侯汉清,黄刚.电子计算机与文献分类[J].现代图书情报技术,1982(1):5-14. 被引量：10
2董乐红,耿国华,高原.Boosting算法综述[J].计算机应用与软件,2006,23(8):27-29. 被引量：26
3徐琳宏,林鸿飞,潘宇,任惠,陈建美.情感词汇本体的构造[J].情报学报,2008,27(2):180-185. 被引量：381
4罗亮生,张文欣.基于客户价值的航空公司客户关系管理策略[J].企业经济,2008(12):20-22. 被引量：10
5胡泽文,王效岳,白如江.国内外文本分类研究计量分析与综述[J].图书情报工作,2011,55(6):78-81. 被引量：16
6应维云.随机森林方法及其在客户流失预测中的应用研究[J].管理评论,2012,24(2):140-145. 被引量：20
7杨敏,谷俊.基于SVM的中文书目自动分类及应用研究[J].图书情报工作,2012,56(9):114-119. 被引量：16
8刘大千,修春亮.国内外犯罪地理学研究进展评析[J].人文地理,2012,27(2):38-44. 被引量：30
9张恒才,陆锋,陈洁.微博客蕴含交通信息的提取[J].中国图象图形学报,2013,18(1):123-129. 被引量：12
10琚春华,卢琦蓓,郭飞鹏.融入个体活跃度的电子商务客户流失预测模型[J].系统工程理论与实践,2013,33(1):141-150. 被引量：18

引证文献6

1贺波,马静,李驰.基于融合特征的商品文本分类方法研究[J].情报理论与实践,2020,43(11):162-168. 被引量：9
2刘昭,何赏璐,刘英舜.基于社交网络数据的交通突发事件识别方法[J].交通信息与安全,2021,39(2):53-60. 被引量：5
3屠振超,马静.基于改进文本表示的商品文本分类算法研究[J].数据分析与知识发现,2022,6(5):34-43. 被引量：2
4邢绍艳,朱学芳.付费知识直播用户流失预测实证研究[J].信息资源管理学报,2022,12(4):121-130. 被引量：4
5张齐,李雪琛.基于机器学习的多标签盗窃犯罪类型识别方法研究[J].中国人民公安大学学报（自然科学版）,2023,29(1):88-93. 被引量：1
6李晓峰,马静,周琰.基于增强语义模型的货品名分类算法[J].计算机与现代化,2023(3):71-78.

二级引证文献21

1姬建睿,孙春华,刘业政.基于多重迭代合并策略的论坛版块关注点识别研究[J].情报理论与实践,2021,44(7):118-124. 被引量：1
2周好,王东波,黄水清.古籍引书上下文自动识别研究——以注疏文献为例[J].情报理论与实践,2021,44(9):169-175. 被引量：7
3王艳,王胡燕,余本功.基于多特征融合的中文文本分类研究[J].数据分析与知识发现,2021,5(10):1-14. 被引量：5
4王婉,张向先,卢恒,张莉曼.融合FastText模型和注意力机制的网络新闻文本分类模型[J].现代情报,2022,42(3):40-47. 被引量：8
5谢汉青,邱少辉,王寓霖,张灿,李帆,段在鹏.面向非均衡文本信息的企业生产安全氛围智能感知模型[J].安全与环境工程,2022,29(3):47-54.
6唐炉亮,赵紫龙,杨雪,阚子涵,任畅,高婕,李朝奎,张霞,李清泉.大数据环境下道路场景高时空分辨率众包感知方法[J].测绘学报,2022,51(6):1070-1090. 被引量：5
7屠振超,马静.基于改进文本表示的商品文本分类算法研究[J].数据分析与知识发现,2022,6(5):34-43. 被引量：2
8卜磊.余弦定理在新闻分类中的应用[J].电脑知识与技术,2022,18(24):75-76.
9唐进君,庹昊南,刘佑,付强.基于BERT-Bi-LSTM-CRF模型的自主式交通系统参与主体识别方法[J].交通信息与安全,2022,40(5):80-90. 被引量：8
10刘颖,李惠迪,谭博元.基于多源数据深度融合的金融时间序列预测[J].统计与决策,2022(23):52-56. 被引量：2

1祁瑞华,杨明昕,徐琳宏,关菁华.图书评论特征抽取研究综述[J].现代情报,2019,39(9):160-167.
2严绍奎,杨琦.智能电表故障库完善及深化应用[J].电力系统装备,2019,0(13):224-225.
3王会青,郭芷榕,白莹莹.基于BP和朴素贝叶斯的时间序列分类模型[J].计算机应用研究,2019,36(8):2271-2274. 被引量：17
4朱志强.基于BP-Adaboost模型的交通流量预测[J].福建交通科技,2019,0(4):124-127. 被引量：1
5赵民钢,周俊妍,薛文良,魏孟媛,钱竞芳,郭建峰.跨境电商进口商品与中国国际进口博览会展品的对比分析[J].中国纤检,2019(8):118-121.
6白美丽.基于迁移学习的卷积神经网络服装图像分类[J].信息与电脑,2019,0(14):32-34. 被引量：4
7吴建宝,肖诗斌,王焕鹏.改进的神经网络算法在舰船目标识别上的应用[J].北京信息科技大学学报（自然科学版）,2019,34(3):94-98. 被引量：4
8刘慧,徐金龙,赵荣彩,姚金阳.学习模型指导的编译器优化顺序选择方法[J].计算机研究与发展,2019,56(9):2012-2026. 被引量：3
9谢连梅.浅谈现网GPON平滑过渡10G GPON方案[J].信息通信,2019,0(8):57-58. 被引量：4
10王萃,张海悦.基于机器学习和自然语言处理算法的电影内容元素与票房关联性研究[J].现代电影技术,2019(9):4-9.

数据分析与知识发现

2019年第7期

浏览历史

内容加载中请稍等...

基于XGBoost模型的电商商品品名识别算法研究被引量：6

参考文献7

二级参考文献79

共引文献212

同被引文献72

引证文献6

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于XGBoost模型的电商商品品名识别算法研究 被引量：6

参考文献7

二级参考文献79

共引文献212

同被引文献72

引证文献6

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于XGBoost模型的电商商品品名识别算法研究被引量：6