基于聚类分析策略的用户偏好挖掘被引量：8

A Cluster-based Approach on Mining Text Preference

下载PDF

导出

摘要利用训练文档集准确高效地挖掘隐藏的用户文本偏好和概念向量是文本信息过滤和多文档自动文摘等自然语言处理应用的关键技术之一。针对训练文本集中往往存在多个主题类别的问题,提出一种基于聚类分析策略的文本偏好挖掘方法。其基本思路是对训练文档集进行聚类处理,然后对同主题文档进行共性分析,并经过特征权值调整和特征约简,获得表示用户不同主题偏好的概念向量。实验结果表明该方法具有对用户的文本偏好刻画更加精确,对相关阈值变化不敏感等优点,可以与Rocchio等算法结合来进行用户兴趣建模。 It is one of the key technologies in NLP applications such as text information filtering and multi-document summarization to mine the hidden user text preference and concept vector from the training documents. To solve the problem of multitopic problem in training documents, an approach which is based on cluster analysis has been introduced . The basic idea is to classify the training documents firstly, then analyze the commonness of the documents on the same topic. After feature weight modification and feature reduction, the concept vectors on different topic are formed. The experiment results show that the approach can represent user text preference more precisely, and not sensitive to relevance threshold. User preference profile can be mined by combing the approach with Rocchio algorithm.

作者刘远超王晓龙刘秉权钟彬彬

机构地区哈尔滨工业大学计算机科学与技术学院

出处《计算机应用研究》 CSCD 北大核心 2005年第12期21-23,共3页 Application Research of Computers

基金国家自然科学基金资助项目(60373100) 国家"863"计划资助项目(2002AA117010-09)

关键词偏好挖掘:文档聚类概念向量 Rocchio算法 Preference Mining Document Clustering Concept Vector Rocchio Algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1Byoung-tak Zhang, Young-woo Seo.Personalized Web Documentfilte-ring Using Reinforcement Learning[J].Applied Artificial Intelligence,2001,15:665-685.
2Bollacker K D, Lawrence S, Giles C L. Discovering Relevant Scientific Literature on the Web[J]. IEEE Intelligent Systems, 2000,15(2):42-47.
3Joachims T, Freitag D, Mitchell T. WebWatcher: A Tour Guide for the World Wide Web[A]. Proceedings of the International Joint Conference on Artificial Intelligence[C]. San Francisco: Morgan Kaufmann Publishers, 1997. 770-777.
4Rocchio J I.Relevance Feedback in Information Retrieval[A]. The SMART Retrieval System[M]. Prentice-Hall,1971.313-323.
5A Strehl,J Ghosh, R Mooney.Impact of Similarity Measures on Web-page Clustering[C]. AAAI 2000 Workshop on AI for Web Search,2000.58-64.
6Yunjae Jung.Design and Evaluation of Clustering Criterion for Optimal Hierarchical Agglomerative Clustering[D]. University of Minnesota.

同被引文献63

1张慧颖,梁伟.基于用户访问模式挖掘的网页实时推荐研究[J].计算机应用,2004,24(6):70-73. 被引量：12
2苏贵洋,马颖华,李建华.一种基于内容的信息过滤改进模型[J].上海交通大学学报,2004,38(12):2030-2034. 被引量：22
3郭伟刚.电子商务网站用户访问模式挖掘中的预处理技术[J].计算机应用,2005,25(3):691-694. 被引量：5
4陈炯,范卓华,张虎.汉语文本聚类及其算法设计[J].山西电子技术,2005(2):29-30. 被引量：3
5白丽君.基于内容和协作的信息过滤方法研究[J].情报学报,2005,24(3):304-308. 被引量：14
6赵银春,付关友,朱征宇.基于Web浏览内容和行为相结合的用户兴趣挖掘[J].计算机工程,2005,31(12):93-94. 被引量：36
7张玉叶,李连,王春歆.个性化主动信息服务实现研究[J].情报杂志,2005,24(8):71-72. 被引量：2
8曾令明,唐常杰,阴小雄,李川,胡建军,蒋永光.双向关联规则挖掘及其相关性分析[J].计算机工程与设计,2005,26(10):2585-2588. 被引量：19
9赵丰年,刘林,商建云.基于概念的文本过滤模型[J].计算机工程与应用,2006,42(4):186-188. 被引量：11
10刘丽珍,宋瀚涛,陆玉昌.无标记训练样本的Web文本分类方法[J].计算机科学,2006,33(3):200-201. 被引量：2

引证文献8

1李湘云.ISODATA动态聚类算法在文本挖掘中的应用[J].长春工程学院学报（自然科学版）,2007(2):56-58.
2姚娟,杨琴.从交通运输统计数据的聚类分析看我国物流业的发展[J].江苏商论,2006(10):55-56. 被引量：1
3汪琴,安贺意,秦颖.网络信息过滤和个性化信息服务[J].情报科学,2007,25(6):858-863. 被引量：8
4朱征宇,李力沛,罗颖,周智,朱庆生.一种应用于中文文本聚类的适应值函数[J].计算机科学,2009,36(5):244-246.
5裘立波,姜元春,林文龙.基于关联规则和协同过滤的网络商品捆绑方法研究[J].计算机与现代化,2009(9):1-4. 被引量：2
6刘平峰,章佩璐,聂规划.客户服务价值感知偏好的智能获取研究[J].武汉理工大学学报,2010,32(13):147-151. 被引量：1
7李雪茹,高洋.基于在线社交数据的消费偏好识别与分析[J].商业经济研究,2018(5):46-48.
8张亭亭,赵宇翔,朱庆华.众包社区中基于敏感性分析的用户偏好挖掘模型及实验[J].数据分析与知识发现,2018,2(5):23-31. 被引量：3

二级引证文献15

1Bottom Up与Top Down[J].管理学家（学术版）,2013(12):34-34.
2彭敏晶,梁俊杰.基于Ajax的电子数据面板设计[J].现代情报,2008,28(1):110-113.
3左黎明,汤鹏志.基于WFP系统的网络反黄系统过滤驱动研究[J].华东交通大学学报,2008,25(3):74-77. 被引量：1
4田莹颖.基于社会化标签系统的个性化信息推荐探讨[J].图书情报工作,2010,54(1):50-53. 被引量：40
5阮冰.基于特征向量的文本信息过滤算法研究[J].现代电子技术,2010,33(4):145-147.
6田玲,薛万欣,马丽仪.面向网上零售商的交叉销售识别研究[J].江苏商论,2011(11):60-63. 被引量：3
7闫娜,闫蕾.基于Android的个性化天气预报系统的设计与软件实现[J].计算机光盘软件与应用,2012,15(7):155-156. 被引量：8
8威廉斯,A.使用自然光拍摄人像[J].摄影世界,2000(6):16-17.
9汪琴,杨守文,安贺意,桑海风.学科导航门户的可持续发展研究——以CALIS学科导航库为例[J].情报理论与实践,2012,35(8):120-124. 被引量：15
10林美娜,苏玉,张红艳.基于VSM的个性化信息过滤算法的研究[J].微型机与应用,2012,31(21):53-55.

1刘彦保,王文发,王文东.基于聚类分析策略的Web文本挖掘方法[J].延安大学学报（自然科学版）,2007,26(4):22-25. 被引量：1
2胡雨成,于俊清,黄贤强,何云峰,管涛.足球视频搜索引擎中的用户偏好挖掘[J].中国图象图形学报,2014,19(4):622-629. 被引量：2
3谢意,陈德人,干红华.基于浏览偏好挖掘的实时商品推荐方法[J].计算机应用,2011,31(1):89-92. 被引量：12
4贺桂和.基于用户偏好挖掘的电子商务协同过滤推荐算法研究[J].情报科学,2013,31(12):38-42. 被引量：19
5陆红蕾.文本分类技术在网络基础教学资源中的应用[J].漯河职业技术学院学报,2012,11(2):50-52. 被引量：1
6汪卫星,李峰,殷苌茗.一种新型的基于神经网络的图像检索算法[J].微计算机信息,2010,26(21):228-230. 被引量：2
7马甲林,刘金岭,金春霞.基于概念簇的文本分类算法[J].图书情报工作,2013,57(15):132-136. 被引量：2
8黄照鹤,刘丽,刘中艳.面向历史轨迹的多因素驾驶偏好挖掘算法[J].信阳师范学院学报（自然科学版）,2014,27(4):597-600.
9杨军,夏清国.ROCCHIO算法实现数据库模糊查询[J].微电子学与计算机,2006,23(1):160-161. 被引量：1
10李微娜,王雪萍,富春岩,周虹,曲思龙,张竞达.移动环境下用户偏好挖掘推荐研究[J].电脑知识与技术,2016,0(6):64-65. 被引量：1

计算机应用研究

2005年第12期

浏览历史

内容加载中请稍等...

基于聚类分析策略的用户偏好挖掘被引量：8

参考文献6

同被引文献63

引证文献8

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于聚类分析策略的用户偏好挖掘 被引量：8

参考文献6

同被引文献63

引证文献8

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于聚类分析策略的用户偏好挖掘被引量：8