语义分析与TF-IDF方法相结合的新闻推荐技术被引量：11

News Recommendation Technology Combining Semantic Analysis with TF-IDF Method

下载PDF

导出

摘要在新闻项目的推荐系统中,通常使用TF-IDF权重技术结合余弦相似性度量方法,然而这种技术没有考虑到文字本身的实际语义,因此,提出了基于内容和语义分析相结合的一种新方法。此方法将同义词集合的逆文档频率及语义相似性相结合,采用WordNet同义词集合做相似性计算。构建用户配置文件进行实验测试,验证了该方法的有效性。实验结果表明,提出的语义方法性能优于TF-IDF方法。 Currently in the news item recommendation system, usually using TF-IDF weighting technology combined with the cosine similarity measure, however, this technique does not take into account the actual semantics of the text itself, therefore, the paper propsed a new method based on the combination of contents and their semantic similarities. This method is a collection of synonyms and inverse document frequency combining semantic similarity using WordNet synset do similar calculations. Building user profiles for laboratory tests to verify the effectiveness of the method. Experimental results show that the proposed method outperforms the TF-IDF method.

作者周由戴牡红

机构地区湖南大学软件学院

出处《计算机科学》 CSCD 北大核心 2013年第11A期267-269,300,共4页 Computer Science

基金湖南省自然科学基金项目(2011FJ3034)资助

关键词新闻推荐系统语义分析语义相似度 WordNet同义词集合 News recommendation system, Semantic analysis, Semantic similarity, WordNet synset

分类号 TP311.132 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1华秀丽,朱巧明,李培峰.语义分析与词频统计相结合的中文文本相似度量方法研究[J].计算机应用研究,2012,29(3):833-836. 被引量：41
2Goossen F,Jntema W, Frasincar F, et al. News Personalization using the CF-IDF Semantic Recommender[C] //Proc of the In- ternational Conference on Web Intelligence, Mining and Seman- tics. 2011.
3黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：212
4李明涛,罗军勇,尹美娟,路林.结合词义的文本特征词权重计算方法[J].计算机应用,2012,32(5):1355-1358. 被引量：9
5Toutanova K, Klein D, Manning C D, et al. Feature-Rich Part-o Speech Tagging with a Cyclic Dependency Network[C] //Proc of " NAACL'. 2003 173-180.
6Jensen A S, Boss N S. Dry similarity[OL], http://damn, dk/ similarity/javadoc/model/similarity/Lesk, html,2008.
7Lextek Onix Text Retrieval Toolkit { API Reference. http// www. lextek, com/manuals/onix/stopwordsl, html (2011)(stop word).
8Jiang J J, Conrath D W. Semantic Similarity Basedon Corpus Statistics and Lexical Taxonomy[J]. Proc of 10th International Conference on Research in Computational Linguistics, 1997,19 (33).
9Fellbaum C. WordNet: an electronic lexieal database [OL]. WordNet is available from http://www, eogsci, princeton, edu/ wn,2010.
10I Resnik P. Using Information Content to Evaluate Semantic Sim- ilarity in a Taxonomy[C] ffProc of the 14th International Joint Conference on Artificial Intelligence. 1995,11 .. 448-453.

二级参考文献47

1车万翔,刘挺,秦兵,等.面向双语句对检索的汉语句子相似度计算[C]//全国第七届计算语言学联合学术会议论文集.北京:清华大学出版社,2003:81-88.
2Fung B C M,Wang K,Ester M.Hierarchical document clustering//Wang John ed.The Encyclopedia of Data Warehousing and Mining,idea Group.2005:970-975.
3Salton G.The SMART Retrieval System-Experiments in Automatic Document Processing.Englewood Cliffs,New Jersey:Prentice Hall Inc,1971.
4Wang Y,Julia H.Document clustering with semantic analysis//Proceedings of the 39th Hawaii International Conferences on System Sciences.Hawaii,US,2006:54-63.
5Hotho A,Staab S,Stumme G.Wordnet improves text document clustering//Proceedings of the Semantic Web Workshop at SIGIR-2003,26th Annual International ACM SIGIR Conference.Toronto,Canada,2003:541-550.
6Hall P,Dowling G.Approximate string matching.Computing Survey,1980,12(4):381-402.
7Coelho T,Calado P,Souza L,Ribeiro-Neto B,Muntz R.Image retrieval using multiple evidence ranking.IEEETransactions on Knowledge and Data Engineering,2004,16(4):408-417.
8Ko Y,Park J,Seo J.Improving text categorization using the importance of sentences.lnformation Processing and Management,2004,40(1):65-79.
9Erkan G,Radev D.Lexrank:Graph-based lexical centrality as salience in text summarization.Journal of Artificial Intelligence Research,2004,22(7):457-479.
10Theobald M,Siddharth J,Paepcke A.SpotSigs:Robust and efficient near duplicate detection in large Web collections//Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Singapore,2008:563-570.

共引文献252

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：11
2杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
3赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
4孙红,黎铨祺,赵娜.基于双层树状支持向量机的观点挖掘与倾向分析[J].智能计算机与应用,2021,11(3):44-47. 被引量：3
5王鹏,郑贵省,郭强,贾蓓.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,22(1):87-90. 被引量：1
6高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
7皮靖,邵雄凯,肖雅夫.基于朴素贝叶斯算法的主题爬虫的研究[J].计算机与数字工程,2012,40(6):76-78. 被引量：6
8杜华.文字云图的英语阅读教学设计与实践——以文字云图工具Wordle为例[J].现代教育技术,2012,22(9):65-69. 被引量：17
9周亦鹏,杜军平.基于时空情境模型的主题跟踪[J].华南理工大学学报（自然科学版）,2012,40(8):82-87. 被引量：1
10杨传慧,吉根林,章志刚.AP算法在图像聚类中的应用研究[J].计算机与数字工程,2012,40(10):119-121. 被引量：6

同被引文献66

1林鸿飞,杨志豪,赵晶.基于内容和合作模式的信息推荐机制[J].中文信息学报,2005,19(1):48-55. 被引量：14
2倪巍伟,陆介平,陈耿,孙志挥.基于k均值分区的流数据高效密度聚类算法[J].小型微型计算机系统,2007,28(1):83-87. 被引量：8
3徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21(1):96-100. 被引量：119
4范明等.数据挖掘概念与技术[M].北京：机械工业出版社,2001..
5刘伟,孟小峰,孟卫一.Deep Web数据集成研究综述[J].计算机学报,2007,30(9):1475-1489. 被引量：136
6PeterHarrington著.机器学习实战[M].李锐,李鹏等译.北京:人民邮电出版社,2013.6.
7BERGMAN M K. The Deep Web : surfacing hidden value[ EB/OL]. [ 2014-6-18] .http://www.brightplanet.com/2012/06/the-deep-web-surfa-cing-hidden-value/.
8Liu Tantan,Wang Fan, Agrawal G.Instance discovery and schema matching with applications to biological Deep Web data integration[ C] .Washing-ton ,IEEE International Conference on Bioinformatics & Bioengineering, 2010.
9Research on Deep Web Query InterfaceClustering Based on Hadoop[ J].Journal of Software,2014, 9( 12) :3057-3062.
10WangYing; LiHuilai ; ZuoWanli ; et al. Ontology - Based Approach to Integrate Deep Web Query Interfaces.J] . Advanced Science Letters, 2012( 4):220-223.

引证文献11

1熊清华.基于社交网络的推荐模型研究[J].计算机时代,2015(8):29-30.
2袁仁进,陈刚,李锋,魏双建.基于VSM和Bisecting K-means聚类的新闻推荐方法[J].北京邮电大学学报,2019,42(1):114-119. 被引量：16
3陈兴俊,魏晶晶,廖祥文,简思远,陈国龙.基于词对齐模型的中文评价对象与评价词抽取[J].山东大学学报（理学版）,2016,51(1):58-64. 被引量：4
4苟和平,景永霞,吴多智.基于XML Schema的Deep Web查询接口分类研究[J].长春大学学报,2016,26(4):13-18.
5苟和平,景永霞,刘强.一种基于XML分析的Deep Web查询接口分类研究[J].南华大学学报（自然科学版）,2016,30(2):78-82.
6曾铖淋,王智,张瑾,林永君.上下文信息对移动视频推送的影响分析[J].计算机科学,2016,43(7):57-61. 被引量：1
7景永霞,苟和平,刘强,吴多智.基于内容相似性的社交网络用户行为倾向性研究[J].吉林师范大学学报（自然科学版）,2016,37(4):135-139. 被引量：3
8张晓阳,秦贵和,邹密,孙铭会,高庆洋.基于LDA模型的餐厅推荐方法研究[J].计算机科学,2017,44(7):180-184. 被引量：4
9马汉达,戴季国,薛艳飞.一种基于贝叶斯分类的个性化导购推荐算法[J].信息技术,2017,41(11):133-138. 被引量：5
10张赟,沈兵虎,王李冬.视频节目层次化搜索和推荐方法的研究[J].计算机技术与发展,2018,28(7):165-168.

二级引证文献33

1张彩琴.评价对象抽取研究[J].太原师范学院学报（自然科学版）,2016,15(4):26-29.
2廖祥文,陈兴俊,魏晶晶,陈国龙,程学旗.基于多层关系图模型的中文评价对象与评价词抽取方法[J].自动化学报,2017,43(3):462-471. 被引量：15
3陈添源.高校移动图书馆用户画像构建实证[J].图书情报工作,2018,62(7):38-46. 被引量：63
4詹悦,王丽丽.基于行为包含的日志变化挖掘[J].通化师范学院学报,2018,39(8):10-15.
5聂卉,司倩楠.在线口碑传播效应影响因素研究——以餐饮业为例[J].图书馆论坛,2019,39(3):80-90. 被引量：3
6黎丹雨,陈怡华.一种多层多维的关联规则挖掘算法在推荐系统中的应用[J].计算机与现代化,2019,0(6):44-48. 被引量：6
7胡婷.基于协同推荐的英语教学资源管理系统设计[J].自动化技术与应用,2019,38(9):158-161. 被引量：11
8金鹏,杨菁,王宗伟,刘鲲鹏,卜晓阳,ZHENG Xuan.一种基于最小距离编辑法的模糊地址识别模型[J].电力大数据,2019,22(10):9-15. 被引量：3
9鲍凯丽,刘其成,牟春晓.融合朴素贝叶斯和协同过滤的外卖推荐并行算法研究[J].计算机应用与软件,2019,36(11):250-255. 被引量：2
10张新祥,李天鹏,孟鹏洋,贾明泽,葛敬云.基于Vanilla算法的网络视频推荐策略研究[J].数学的实践与认识,2019,49(21):302-308. 被引量：1

1马海昌,张志昌,赵学锋,刘鑫,孔波.面向经济领域的同义词获取融合方法研究[J].科学技术与工程,2014,22(15):207-211. 被引量：1
2天涯衰草.复制文字就是这么简单[J].电脑爱好者,2016,0(17):68-68.
3解铭,吉伟卓,温科,刘丽英.基于神经网络的多断面短时交通流预测[J].通讯世界（下半月）,2015(3):206-207.
4单晓菲,米传民,马静.基于选择性随机游走的协同过滤推荐算法研究[J].中国管理科学,2014,22(S1):73-78. 被引量：3
5张小红.协同过滤中的相似性度量方法的研究[J].无线电通信技术,2013,39(1):94-96. 被引量：2
6杨秀梅,孙咏,王美吉,李岩.新闻推荐系统中用户冷启动问题的研究[J].小型微型计算机系统,2016,37(3):479-482. 被引量：12
7方忠进,周舒,夏志华.基于关键词的加密云数据模糊搜索策略研究[J].计算机科学,2015,42(3):136-139. 被引量：5
8昝红英,俞士汶.CCD及其应用[J].广西师范大学学报（自然科学版）,2003,21(A01):98-103. 被引量：7
9张锐.Wordnet综述[J].辽宁教育行政学院学报,2003,20(9):5-7. 被引量：3
10付娟妮.基于信息用户的新闻推荐系统特点及构建[J].企业科技与发展,2013(8):39-40. 被引量：3

计算机科学

2013年第11A期

浏览历史

内容加载中请稍等...

语义分析与TF-IDF方法相结合的新闻推荐技术被引量：11

参考文献11

二级参考文献47

共引文献252

同被引文献66

引证文献11

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

语义分析与TF-IDF方法相结合的新闻推荐技术 被引量：11

参考文献11

二级参考文献47

共引文献252

同被引文献66

引证文献11

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

语义分析与TF-IDF方法相结合的新闻推荐技术被引量：11