移动营销领域的文本相似度计算方法被引量：6

Text similarity calculation method for mobile marketing

下载PDF

导出

摘要针对移动营销文本中长度偏短、用词多变、语句残缺等问题,提出了在文本表示过程中采用word2vec进行词项加权语义映射的方法。首先在全语料库中采用word2vec训练词向量,对整体词向量进行聚类操作来汇聚相近语义词语形成语义簇特征空间,在文本向量化过程中,将词语与聚类中心的相似度和词语本身权重结合完成特征权值计算,向量化之后的文本采用欧氏距离计算相似度。将该算法应用于移动营销短文本测试集,通过K近邻(KNN)分类实验表明,该方法在分类性能上比基于词统计特征的方法在各类的F1值有平均6%的提升,能够更有效地衡量移动营销类别短文本的相似度。 In this paper, the authors proposed a weighted semantic mapping method based on word2 vec in the short text representation process, aiming at the shortness of text length, the variability of words and the incomplete sentences in mobile marketing text. Firstly, word2 vec was used in the whole corpus to train the word vector, and the whole word vector was clustered to form semantic cluster feature space by similar semantic words. In text vectorization process, feature weights were calculated using similarity between the word and the cluster center integrate with weight of the word itself. The similarity of the text after vectorization was calculated by Euclidean distance. The K Nearest Neighbor（ KNN） classification experiments show that this method has a 6% improvement on average F1 value compared to word-based statistical method and is more effective in measuring the short text similarity of mobile marketing.

作者孙志远王伟马迪毛伟

机构地区中国科学院大学中国科学院计算机网络信息中心北龙中网(北京)科技有限责任公司

出处《计算机应用》 CSCD 北大核心 2017年第A01期292-294,299,共4页 journal of Computer Applications

关键词移动营销短文本向量化相似度计算 word2vec K近邻 mobile marketing short text vectorization similarity calculation word2vec K Nearest Neighbor（KNN）

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1黄贤英,陈红阳,刘英涛.短文本相似度研究及其在微博话题检测中的应用[J].计算机工程与设计,2015,36(11):3128-3133. 被引量：11
2侯永帅,张耀允,王晓龙,陈清财,王宇亮,户保田.中文问答系统中时间敏感问句的识别和检索[J].计算机研究与发展,2013,50(12):2612-2620. 被引量：4
3吕超镇,姬东鸿,吴飞飞.基于LDA特征扩展的短文本分类[J].计算机工程与应用,2015,51(4):123-127. 被引量：49
4黄贤英,张金鹏,刘英涛,赵明军.基于词项语义映射的短文本相似度算法[J].计算机工程与设计,2015,36(6):1514-1518. 被引量：11
5程传鹏,吴志刚.一种基于知网的句子相似度计算方法[J].计算机工程与科学,2012,34(2):172-175. 被引量：27
6吴全娥,熊海灵.一种综合多特征的句子相似度计算方法[J].计算机系统应用,2010,19(11):110-114. 被引量：9
7李卫疆,赵铁军,王宪刚.基于上下文的查询扩展[J].计算机研究与发展,2010,47(2):300-304. 被引量：32

二级参考文献81

1张敏,宋睿华,马少平.基于语义关系查询扩展的文档重构方法[J].计算机学报,2004,27(10):1395-1401. 被引量：55
2胡国全,陈家骏,戴新宇,尹存燕.一种基于实例的汉英机器翻译策略[J].计算机工程与设计,2005,26(4):900-903. 被引量：5
3王荣波,池哲儒,常宝宝,柏晓静.基于词串粒度及权值的汉语句子相似度衡量[J].计算机工程,2005,31(13):142-144. 被引量：13
4骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
5樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
6张亮,冯冲,陈肇雄,黄河燕.基于语句相似度计算的FAQ自动回复系统设计与实现[J].小型微型计算机系统,2006,27(4):720-723. 被引量：19
7丁国栋,白硕,王斌.文本检索的统计语言建模方法综述[J].计算机研究与发展,2006,43(5):769-776. 被引量：19
8丁国栋,白硕,王斌.一种基于局部共现的查询扩展方法[J].中文信息学报,2006,20(3):84-91. 被引量：43
9张华平.计算所汉语词法分析系统ICTCLAS[EB/OL].[2002-08-16].http://www.nip.org.cn/project/project.php?pwj_id=6.
10Ponte J, Croft W. A language modeling approach to information retrieval [C] //Proc of the 21st ACM Conf on Research and Development in Information Retrieval (SIGIR'98). New York: ACM, 1998:222-229.

共引文献133

1贾善崇,周兰江,张建安,周枫.融入多特征的汉-老双语对齐方法[J].中国水运（下半月）,2020,20(3):78-80. 被引量：2
2陶志勇,李小兵,刘影,刘晓芳.基于双向长短时记忆网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29. 被引量：23
3安俊秀.基于服务器集群的云检索系统的研究与示范[J].计算机科学,2010,37(7):179-182. 被引量：7
4刘金岭.基于查询词扩展的中文垃圾短信检索[J].计算机工程,2011,37(8):52-54. 被引量：6
5刘金岭,严云洋.基于上下文的短信文本分类方法[J].计算机工程,2011,37(10):41-43. 被引量：13
6王海云,刘金岭.基于查询词扩展的文本检索算法研究[J].计算机与数字工程,2011,39(6):15-17. 被引量：1
7涂俊翔,朱晓林.协同企业产品生命周期管理系统信息的检索[J].中国工程机械学报,2011,9(2):244-248.
8杨石,邹国奇,杨作为.一种扩展功能可选取的文本检索系统[J].大众科技,2011,13(10):22-24.
9黄名选.负关联规则挖掘与特征词抽取融合的局部反馈查询扩展[J].计算机工程与科学,2011,33(11):144-148. 被引量：2
10王力,李培峰,朱巧明.一种面向主题的关键词查询扩展方法[J].计算机应用与软件,2011,28(12):29-31. 被引量：3

同被引文献60

1丁振国,张卓,黎靖.基于Hash结构的逆向最大匹配分词算法的改进[J].计算机工程与设计,2008,29(12):3208-3211. 被引量：26
2闫瑞,曹先彬,李凯.面向短文本的动态组合分类算法[J].电子学报,2009,37(5):1019-1024. 被引量：32
3王素格,杨安娜,李德玉.基于汉语情感词表的句子情感倾向分类研究[J].计算机工程与应用,2009,45(24):153-155. 被引量：34
4张爱华,靖红芳,王斌,徐燕.文本分类中特征权重因子的作用研究[J].中文信息学报,2010,24(3):97-104. 被引量：16
5王宇,谭松波,廖祥文,曾依灵.基于扩展领域模型的有名属性抽取[J].计算机研究与发展,2010,47(9):1567-1573. 被引量：13
6王瑞雷,栾静,潘晓花,卢修配.一种改进的中文分词正向最大匹配算法[J].计算机应用与软件,2011,28(3):195-197. 被引量：41
7谢丽星,周明,孙茂松.基于层次结构的多策略中文微博情感分析和特征抽取[J].中文信息学报,2012,26(1):73-83. 被引量：198
8张瑶,陈维斌,傅顺开.基于大数据的高校图书馆推荐系统仿真研究[J].计算机工程与设计,2013,34(7):2533-2541. 被引量：23
9贺飞艳,何炎祥,刘楠,刘健博,彭敏.面向微博短文本的细粒度情感特征抽取方法[J].北京大学学报（自然科学版）,2014,50(1):48-54. 被引量：29
10李海峰.基于HTML5+jQuery Mobile的移动学习平台Web App研究与实现[J].信息通信,2014,27(5):84-85. 被引量：23

引证文献6

1王俊芳,王中龙,刘建,耿建,李艳,王蕾,秦宾.电力企业供应商疑似围标串标行为分析[J].经营与管理,2018,0(5):120-123. 被引量：4
2陈梦婷,瞿少成,罗文,王静静.基于岗位推荐的高校实习全生命周期管理系统[J].华中师范大学学报（自然科学版）,2019,53(6):884-891. 被引量：1
3郭玉栋,左金平.大数据下数据库引文索引匹配误差检测仿真[J].计算机仿真,2020,37(2):394-397. 被引量：3
4周灵,张英俊,潘理虎.一种基于情感特征的短文本分类方法[J].计算机与现代化,2020,0(7):80-84. 被引量：1
5刘惠,陈春荣,徐秋程,杜军朝.空管问答机器人技术[J].指挥信息系统与技术,2021,12(5):32-37.
6谢毅.移动网络相似信息重复记录智能检测仿真[J].计算机仿真,2019,36(2):439-442. 被引量：1

二级引证文献10

1徐明磊,赵博文,诸葛福民.高校网络舆情获取方法研究[J].软件导刊,2018,17(10):48-50. 被引量：1
2程向华,李汉秋,章崎峰,尤震,罗天.基于社区发现和关联规则分析的供应商围串标审计方法探索[J].中国内部审计,2020(9):9-12. 被引量：3
3金涛伟,冷荣伟,张迪,刘畅.基于信任模型的中医药方剂相似度计算方法[J].计算机仿真,2021,38(2):244-248. 被引量：2
4王建华,张明瑶,陈慧敏.电器电子闭环供应链激励机制设计与分析——基于全生命周期管理[J].生态经济,2022,38(4):201-209. 被引量：1
5李鹏基.计算机软件开发中的数据库测试技术研究[J].无线互联科技,2022,19(9):50-52. 被引量：4
6王艳艳,金义,钱诚,许晓艺.基于资质评价模型与不良行为分析的供电企业供应商管理系统开发[J].武汉理工大学学报（信息与管理工程版）,2022,44(5):752-757.
7胡小琴,潘锦锋.大数据相似重复记录检测算法在试题库中的运用[J].成都工业学院学报,2023,26(1):66-69. 被引量：1
8张思扬,匡芳君.基于LDA-BiLSTM的金融恐慌舆情分析与预测[J].软件导刊,2023,22(10):79-83. 被引量：1
9付敏.基于关联特征的英语语料库快速检索方法[J].信息技术,2024,48(2):78-81.
10梁开孟,秦凤敏.基于电商平台的客户评论数据分析与挖掘[J].现代计算机,2019,25(6):23-27. 被引量：2

1富士施乐召开“2017至尊合作伙伴年会”[J].今日印刷,2017,0(7):79-79.
2戚后林,顾磊.概率潜在语义分析的KNN文本分类算法[J].计算机技术与发展,2017,27(7):57-61. 被引量：2
3袁丽娜.一种适于时空大数据的有损压缩算法[J].现代计算机（中旬刊）,2017(7):30-33. 被引量：1
4徐凤平.基于短文本理解和改进聚类的微博热点发现[J].新乡学院学报,2017,34(6):32-37.
5向帆.词意辨析:可视化、视觉化、Visualization及信息图形[J].装饰,2017(4):24-29. 被引量：19
6施伟,张东,陈庆,谭守标,张骥.一种快速精准的核相关滤波器跟踪算法[J].计算机应用与软件,2017,34(7):125-129.
7崔竹山.关于韩国语副词修饰体词的研究[J].韩国语教学与研究,2017(2):4-12.
8董立岩,王越群,贺嘉楠,孙铭会,李永丽.基于时间衰减的协同过滤推荐算法[J].吉林大学学报（工学版）,2017,47(4):1268-1272. 被引量：31
9沈乐阳,孙廷凯.高斯混合模型的上采样分析[J].生物信息学,2017,15(2):84-89.
10肖斌,王锦阳,任启强.分布式KNN算法在微信公众号分类中的应用[J].计算机应用,2017,37(A01):295-299. 被引量：4

计算机应用

2017年第A01期

浏览历史

内容加载中请稍等...

移动营销领域的文本相似度计算方法被引量：6

参考文献7

二级参考文献81

共引文献133

同被引文献60

引证文献6

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

移动营销领域的文本相似度计算方法 被引量：6

参考文献7

二级参考文献81

共引文献133

同被引文献60

引证文献6

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

移动营销领域的文本相似度计算方法被引量：6