基于网页概率潜在语义信息的用户兴趣聚类被引量：2

User's interest clustering based on webpage probabilistic latent semantic information

下载PDF

导出

摘要为了能准确挖掘用户兴趣点,首先利用概率潜在语义分析PLSA模型将"网页-词"矩阵向量投影到概率潜在语义向量空间,并提出"自动相似度阈值选择"方法得到网页间的相似度阈值,最后提出将平面划分法与凝聚式层次聚类相结合的凝聚式层次k中心点HAK-medoids算法,实现用户兴趣点聚类。实验结果表明,与传统的基于划分的算法相比,HAK-medoids算法聚类效果更好。同时,提出的用户兴趣点聚类技术在个性化服务领域可提高个性化推荐和搜索的效率。 To mine user＇s interests accurately, probabilistic latent semantic analysis （PLSA） model is firstly used to project webpage-word matrix vector into probabilistic latent semantic vector space. A method of ＂auto-selected similarity threshold＂ is proposed to get web pages similarity threshold. At last, combined with divisiory algorithms and hierarchical agglomerative clustering, a hierarchical agglomerative k-medoids clustering algorithm is proposed to realize cluster user＇s interests. The experimental results show that, compared with the traditional divisiory algorithms, the hierarchical agglomerative k- medoids algorithm has a better clustering effect. Furthermore, user＇s interest clustering technique can improve the efficiency of personalized recommendation and search in user＇ personalized service fields. Key words.probabilistic latent semantic analysis; auto-selected similarity threshold; user＇s interest

作者钱雪忠吴志媛

机构地区江南大学物联网工程学院

出处《计算机工程与科学》 CSCD 北大核心 2014年第4期765-771,共7页 Computer Engineering & Science

基金国家自然科学基金资助项目(61103129) 江苏省科技支撑计划资助项目(BE2009009)

关键词概率潜在语义分析自动相似度阈值选择用户兴趣点凝聚式层次k中心点个性化服务 probabilistic latent semantic analysis auto-selected similarity threshold user＇s interestpoints hierarchical agglomerative k-medoids personalized service

分类号 TP274 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献10

1李媛媛,马永强.基于潜在语义索引的文本特征词权重计算方法[J].计算机应用,2008,28(6):1460-1462. 被引量：17
2曾春,邢春晓,周立柱.个性化服务技术综述[J].软件学报,2002,13(10):1952-1961. 被引量：394
3郭景峰,赵玉艳,边伟峰,李晶.基于改进的凝聚性和分离性的层次聚类算法[J].计算机研究与发展,2008,45(z1):202-206. 被引量：15
4朱征宇,张小林,熊茜,谢祈鸿.基于用户兴趣子类的协作推荐算法[J].计算机科学,2005,32(10):176-180. 被引量：5
5马素琴,施化吉.阈值优化的文本密度聚类算法[J].计算机工程与应用,2011,47(17):134-136. 被引量：6
6张猛,王大玲,于戈.一种基于自动阈值发现的文本聚类方法[J].计算机研究与发展,2004,41(10):1748-1753. 被引量：16
7李胜,胡和平.一种基于PLSA的高效检索方法[J].华中科技大学学报（自然科学版）,2010,38(11):48-50. 被引量：3
8张玉芳,朱俊,熊忠阳.改进的概率潜在语义分析下的文本聚类算法[J].计算机应用,2011,31(3):674-676. 被引量：14
9肖升,胡金柱,姚双云,舒江波.基于本体视图特征项抽取方法研究[J].计算机应用研究,2010,27(1):42-44. 被引量：1
10贾瑞玉,耿锦威,宁再早,何成刚.基于代表点的快速聚类算法[J].计算机工程与应用,2010,46(33):121-123. 被引量：7

二级参考文献111

1赵林,胡恬,黄萱菁,吴立德.基于知网的概念特征抽取方法[J].通信学报,2004,25(7):46-54. 被引量：17
2杨芳,杨振山.基于语义网技术的主题词自动标引[J].计算机工程与设计,2005,26(10):2837-2839. 被引量：4
3苏亮,聂峰光,郭力,李晓霞,梁春燕.隐含语义检索系统词条权重的处理[J].计算机与应用化学,2005,22(11):972-976. 被引量：4
4唐杰,梁邦勇,李涓子,王克宏.语义Web中的本体自动映射[J].计算机学报,2006,29(11):1956-1976. 被引量：96
5董强,郝长伶,董振东.基于知网的中文信息结构抽取[EB/OL].( 2005-11 - 10 ) [ 2006-04-12]. http ://www. keenage, com.
6Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2004, 64(3): 993-1 022.
7Hofmann T. Probabilistic latent semantic analysis [C]//15th Annual Conf on Uncertainty in Artificial Intelligence. San Francisco.. IEEE, 1999: 289-296.
8Ding C H. A probabilistic model for latent semantic indexing[J]. Journal of the American Society for Information Science and Technology, 2005, 56 (6) : 597-608.
9Hofmann T. Unsupervised learning by probabilistic latent semantic analysis [J ]. Machine Learning, 2001, 42(2):177-196.
10Lloyd R, Shakiban C. Improvements in latent semantic analysis[J]. American Journal of Undergraduate Research, 2004, 3(2) : 123-137.

共引文献465

1孙林.短视频关键扩散因素研究[J].情报工程,2022,8(4):110-118.
2周绍景,华德志,应杰,潘宏斌,杨正元.基于MVC的软件自定义的实现[J].中国科技纵横,2018,0(15):23-24.
3蒋宗礼,肖华,赵钦.WebSifter:个性化网络搜索辅助系统[J].清华大学学报（自然科学版）,2005,45(S1):1903-1907. 被引量：5
4雷庆,吴扬扬.识别和抽取XM L文档中的关系信息及其出现模式[J].清华大学学报（自然科学版）,2005,45(S1):1757-1761. 被引量：3
5张付志,任志刚,欧阳素珍.基于中间件的多源个性化系统间协同模型研究[J].计算机应用研究,2009,26(3):904-907.
6叶鹰.开源互动理念指引图书馆2.0研究——兼论图书馆2.0与个性化图书馆的结合[J].图书馆杂志,2007,26(8):15-18. 被引量：43
7陈大平.搜索引擎技术方式之探析[J].长春理工大学学报（高教版）,2009(10):161-162. 被引量：1
8辛治运,顾明,马兆丰.基于粗糙集理论的金融信息推荐算法研究[J].计算机研究与发展,2007,44(z2):262-270.
9卫琳,石磊.基于搜索结果的Web预取模型研究[J].计算机研究与发展,2007,44(z2):377-382.
10周二虎,张水平,谢必昌.信息过滤技术在智能信息推送系统中的应用[J].软件导刊,2010,9(1):24-26. 被引量：5

同被引文献20

1刘群,李素建.基于《知网》的词汇语义相似度计算[J].中文计算语言学,2002,7(2):59-76.
2李媛媛,马永强.基于潜在语义索引的文本特征词权重计算方法[J].计算机应用,2008,28(6):1460-1462. 被引量：17
3郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008,25(11):3256-3258. 被引量：101
4段淮川,胡平.基于主题特征和时间因子的改进PageRank算法[J].计算机工程与设计,2010,31(4):866-868. 被引量：21
5徐德玉,王迪.基于COPS原型系统的网上文章复制检测[J].科技信息,2009(31):49-50. 被引量：1
6马慧芳,史忠植.一种高效稳定的链接分析算法[J].计算机应用研究,2011,28(2):488-491. 被引量：2
7王小林,王义.改进的基于知网的词语相似度算法[J].计算机应用,2011,31(11):3075-3077. 被引量：38
8刘宏哲,须德.基于本体的语义相似度和相关度计算研究综述[J].计算机科学,2012,39(2):8-13. 被引量：98
9孙建旺,吕学强,张雷瀚.基于语义与最大匹配度的短文本分类研究[J].计算机工程与设计,2013,34(10):3613-3618. 被引量：18
10卢露,赵靖,魏登月.基于社会标注系统的Web用户聚类算法[J].计算机应用研究,2013,30(12):3557-3559. 被引量：4

引证文献2

1朱宝华.基于HowNet的用户兴趣挖掘研究及应用[J].计算机与数字工程,2014,42(10):1949-1951. 被引量：1
2刘玉林,郭雅娟,陈锦铭,陈昊.基于自然语言处理技术的电网招标资料查重系统研制[J].电力信息与通信技术,2018,16(5):11-17. 被引量：9

二级引证文献10

1秦瑞,方乐,俞敏.文本分析方法在医学研究中的应用进展[J].浙江预防医学,2015,27(10):1008-1011. 被引量：2
2龙婧,徐文峰,罗启星.面向智能写作的混合推荐模型研究[J].电力信息与通信技术,2019,17(4):56-61.
3魏泳,陈甜妹,王庆,刘美意.基于供应商信息库的物资成本自动化分析模型的研究与实现[J].自动化与仪器仪表,2019,0(12):169-171. 被引量：2
4肖立华,张博,胡伟,陈继军,韩智忠.基于机器学习的电网工程量计价预测模型[J].沈阳工业大学学报,2021,43(3):241-246. 被引量：9
5王琼,杨波,陈佐虎.基于共有文本特征词跨类联合分类的电力文本分类算法研究[J].电子技术与软件工程,2021(7):213-214.
6王宏,周育忠,李自立,陶秀杰.电力知识发现系统的设计与实现[J].电力信息与通信技术,2021,19(7):17-24. 被引量：3
7邓春宇,沙宇恒,任玲玲,陈文静,严俊.基于智能聚类算法的企业储备项目数据价值挖掘应用研究[J].电力信息与通信技术,2021,19(11):44-55. 被引量：1
8王东,王飘,江俊鹏,李青,徐晨阳.科技项目申报书查重方法研究[J].中国科技资源导刊,2022,54(5):30-40.
9魏冠元,赵紫璇,彭国政,史梦洁.基于知识图谱的电力科技专家遴选系统设计与应用[J].电力信息与通信技术,2023,21(5):33-41. 被引量：1
10刘腾泽,王贺阳,王然.基于灰色vlPSO-LSSVM模型的机械制造车间电力储备需求预测[J].智能物联技术,2023,55(4):6-12.

1张振亚,程红梅,王进,王煦法.面向凝聚式层次聚类算法实现的矩阵存储数据结构研究[J].计算机科学,2006,33(1):14-17. 被引量：5
2李春妍,王勇.个性化服务中用户兴趣聚类算法研究[J].信息技术,2007,31(10):77-80. 被引量：3
3崔立伟,张晓滨.移动用户兴趣点标记语义映射方法[J].计算机系统应用,2015,24(4):219-222. 被引量：1
4郭跇秀,吕学强,李卓.基于突发词聚类的微博突发事件检测方法[J].计算机应用,2014,34(2):486-490. 被引量：33
5方耀宁,郭云飞,扈红超,兰巨龙.一种基于Sigmoid函数的改进协同过滤推荐算法[J].计算机应用研究,2013,30(6):1688-1691. 被引量：9
6冯锦海,杨连贺,蒋鑫龙.基于多模式的室内兴趣点推荐系统设计与实现[J].计算机工程,2015,41(8):273-278. 被引量：4
7李志先,刘爱萍.基于PLSA模型的用户兴趣聚类算法研究[J].微计算机信息,2009,25(27):214-215.
8吴志媛,钱雪忠.基于PLSI的标签聚类研究[J].计算机应用研究,2013,30(5):1316-1319. 被引量：4
9刘凯鹏,方滨兴.基于社会性标注的本体学习方法[J].计算机学报,2010,33(10):1823-1834. 被引量：14
10沈典.基于信息推送的领域垂直搜索引擎研究[J].电子世界,2012(8):86-87. 被引量：1

计算机工程与科学

2014年第4期

浏览历史

内容加载中请稍等...

基于网页概率潜在语义信息的用户兴趣聚类被引量：2

参考文献10

二级参考文献111

共引文献465

同被引文献20

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于网页概率潜在语义信息的用户兴趣聚类 被引量：2

参考文献10

二级参考文献111

共引文献465

同被引文献20

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于网页概率潜在语义信息的用户兴趣聚类被引量：2