基于Web日志的性格预测与群体画像方法研究被引量：10

Personality Prediction and Group Profiling Method Based on Web Log

下载PDF

导出

摘要提出一种用户性格预测与群体画像方法。该方法将数据挖掘、机器学习和画像技术相结合,首先改进了传统TF-IDF算法没有考虑文章结构的问题,提高网页主题挖掘的准确率;其次根据大五类性格构建“性格-主题-关键词”(PTK)模型,归结不同用户的兴趣属性特征和性格属性特征,并结合用户的基础属性对用户进行综合画像;然后运用K-means方法将拥有相同属性特征的人群进行聚类,描绘在社会中拥有相似特征人群的群体面貌;最后通过实验证明,该方法使用改进的TF-IDF方法对网页文本进行挖掘效果要优于LDA主题模型,而且可以有效对用户的性格进行预测与群体画像。 A method of user personality prediction and group profiling was proposed.Data mining,machine learning and user profiling techniques were combined.Firstly,the problem of article structure not considered in traditional TF-IDF algorithm was solved,and the accuracy rate of topic mining was improved.Secondly,the“personality-theme-keywords”(PTK)model was constructed according to the big five character.The comprehensive profiling of the user was formed according to the user’s interest attribute and personality attribute.Finally,the K-means method was used to cluster the groups with the same attribute charactics and describe the group appearance of the groups with similar characteristics in the society.In addition,experiments showed that the improved TF-IDF method was better than LDA topic model for web text mining,and the user’s personality was effectively predicted and the group profiling was effectively formed.

作者康海燕李昊 KANG Haiyan;LI Hao(School of Information Management,Beijing Information Science and Technology University,Beijing 100192,China;School of Computer Science,Beijing Information Science and Technology University,Beijing 100192,China)

机构地区北京信息科技大学信息管理学院北京信息科技大学计算机学院

出处《郑州大学学报（理学版）》 CAS 北大核心 2020年第1期39-46,共8页 Journal of Zhengzhou University:Natural Science Edition

基金北京信息科技大学科研水平提高项目(5211910933) 国家自然科学基金项目(61370139)

关键词 WEB日志数据挖掘用户画像性格预测 TF-IDF K-MEANS Web logs data mining user profile personality prediction TF-IDF K-means

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1康海燕,王紫豪,于爱民,谭雨轩.基于网络日志的用户行为刻画与预测研究[J].郑州大学学报（理学版）,2019,51(3):48-54. 被引量：6
2黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：213
3孙荣宗,苗夺谦,卫志华,李文.基于粗糙集的快速KNN文本分类算法[J].计算机工程,2010,36(24):175-177. 被引量：22
4康海燕,孟祥.基于社会工程学的漏洞分析与渗透攻击研究[J].信息安全研究,2017,3(2):116-122. 被引量：5
5费鹏,林鸿飞,杨亮,徐博,古丽孜热.艾尼外.一种用于构建用户画像的多视角融合框架[J].计算机科学,2018,45(1):179-182. 被引量：42
6郭俊霞,高城,许南山,卢罡.基于网页浏览日志的用户行为分析[J].计算机科学,2014,41(3):110-115. 被引量：13
7罗燕,赵书良,李晓超,韩玉辉,丁亚飞.基于词频统计的文本关键词提取方法[J].计算机应用,2016,36(3):718-725. 被引量：73
8张乃洲,曹薇,李石君.一种基于节点密度分割和标签传播的Web页面挖掘方法[J].计算机学报,2015,38(2):349-364. 被引量：13
9张宏鑫,盛风帆,徐沛原,汤颖.基于移动终端日志数据的人群特征可视化[J].软件学报,2016,27(5):1174-1187. 被引量：15
10罗杰,戴晓阳.中文形容词大五人格量表的初步编制Ⅰ:理论框架与测验信度[J].中国临床心理学杂志,2015,23(3):381-385. 被引量：35

二级参考文献161

1戴晓阳,吴依泉.NEO-PI-R在16～20岁人群中的应用研究[J].中国临床心理学杂志,2005,13(1):14-18. 被引量：21
2王晓晔,王正欧.K-最近邻分类技术的改进算法[J].电子与信息学报,2005,27(3):487-491. 被引量：24
3王国胤,Rough集理论与知识获取[M].西安:西安交通大学出版社,1999.
4CALINSKI R,HARABASZ J.A dendrite method for cluster analysis[J].Communications in Statistics,1974,3(1):1 -27.
5DAVIES D L,BOULDIN D W.A cluster separation measure[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1979,1(2):224-227.
6DUDOIT S,FRIDLYAND J.A prediction-based resampling method for estimating the number of clusters in a dataset[J].Genome Biology,2002,3(7):1-21.
7DIMITRIADOU E,DOLNICAR S,WEINGESSEL A.An examination of indexes for determining the number of cluster in binary data sets[J].Psychometrika,2002,67(1):137-160.
8KAPP A V,TIBSHIRANI R.Are clusters found in one dataset present in another dataset?[J].Biostatistics,2007,8(1):9-31.
9ROUSSEEUW P J.Silhouettes:a graphical aid to the interpretation and validation of cluster analysis[J].Journal of Computational and Applied Mathematics,1987,20(1):53 -65.
10DEMB(E)L(E) D,KASTNER P.Fuzzy C-means method for clustering microarray data[J].Bioinformatics,2003,19(8):973-980.

共引文献564

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：11
2杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
3赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
4巴哈古丽·图尼亚孜,玉素甫·艾拜都拉.维吾尔语词频统计系统研究[J].电子世界,2020(3):63-64.
5张小玲,赵梦雪,廖兴亚,李媛媛,熊珂,孙淑娟,苗宽,冯正直.军人自我形象量表的编制及其与心理健康状态的关系[J].陆军军医大学学报,2022,44(19):1938-1945.
6孙红,黎铨祺,赵娜.基于双层树状支持向量机的观点挖掘与倾向分析[J].智能计算机与应用,2021,11(3):44-47. 被引量：3
7于伟杰,杨文忠,任秋如.基于全词BERT的集成用户画像方法[J].东北师大学报（自然科学版）,2022,54(4):87-92. 被引量：2
8蒲素清,罗云梅,李缨来.我国统计源核心期刊官方网站建设情况分析及其在国内主要搜索引擎平台中的排位情况[J].编辑学报,2020,0(1):72-75. 被引量：15
9毛任平.基于标签体系结构游戏用户画像构建方法[J].广西质量监督导报,2021(6):130-131.
10王鹏,郑贵省,郭强,贾蓓.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,22(1):87-90. 被引量：1

同被引文献150

1林志玮,杨素慧,黄联发.Web与VR结合的植物实验教学系统建设[J].实验技术与管理,2020,37(2):144-147. 被引量：5
2王鹏宇,王国宇,贾贞,曹晓晓,王泉斌,苏天赟.一种基于局部特征的层次聚类算法[J].中国海洋大学学报（自然科学版）,2019,49(S02):176-184. 被引量：6
3高巍,陈志,黄玉祥,杨敏丽.吉林省农户采用玉米机械化收获的影响因素分析[J].农业机械学报,2012,43(S1):175-179. 被引量：22
4陈悦,刘则渊.悄然兴起的科学知识图谱[J].科学学研究,2005,23(2):149-154. 被引量：792
5李亮.知识地图——知识管理的有效工具[J].情报理论与实践,2005,28(3):233-237. 被引量：70
6文俊浩,何光辉,任海军.利用改进变色龙算法进行有障碍物体聚类[J].计算机工程与应用,2005,41(32):28-29. 被引量：3
7柯平.图书馆服务理论探讨[J].大学图书馆学报,2006,24(1):38-44. 被引量：121
8秦长江,侯汉清.知识图谱——信息管理与知识管理的新领域[J].大学图书馆学报,2009,27(1):30-37. 被引量：276
9龙真真,张策,刘飞裔,张正文.一种改进的Chameleon算法[J].计算机工程,2009,35(20):189-191. 被引量：13
10陈钟彬.基于知识需求的高校图书馆资源整合与用户服务研究[J].图书馆理论与实践,2010(5):85-87. 被引量：9

引证文献10

1冯建英,王博,吴丹丹,穆维松,田东.用户画像技术与其在农业领域应用研究进展[J].农业机械学报,2021,52(S01):385-395. 被引量：6
2顾唐杰,秦波,蒋小菲.一种基于改进型Chameleon算法的宿舍分配方法[J].智能计算机与应用,2022,12(5):23-30.
3王建,罗政,张希,张梦琪,张科,马文成.Web项目前后端分离的设计与实现[J].软件工程,2020,23(4):22-24. 被引量：53
4褚龙现,陈婉冰.基于Hadoop的Web日志分析系统设计[J].信息与电脑,2020,32(20):116-118. 被引量：4
5刘秀磊,孔凡芃,谌彤童,刘旭红.基于BERT与XGBoost的航天科技开源情报分类[J].郑州大学学报（理学版）,2021,53(3):15-22. 被引量：7
6卢思佳,王凤姣.基于画像分析的高校图书馆精准知识服务研究[J].大学图书馆学报,2021,39(5):55-62. 被引量：19
7张昊.基于文本挖掘技术的用户画像设计分析[J].电子制作,2021,29(24):50-52.
8谢少辉,段旭磊,张仰森,侯振瑜,陈琳,范国梁.基于用户画像的军事信息推荐方法[J].指挥信息系统与技术,2022,13(3):72-77. 被引量：2
9苗光尧,安静,黄小花,李叶飞,王国彬.基于多源数据融合的电力用户画像构建方法研究[J].自动化技术与应用,2022,41(8):93-96. 被引量：6
10康海燕,胡成倩.基于特征提取和集成学习的个人信用评分方法[J].计算机仿真,2024,41(1):311-320.

二级引证文献97

1杨闿文,张元生,刘冠洲,吕潇.基于Spring Cloud架构的生产管控平台研究[J].冶金自动化,2021,45(S01):24-27. 被引量：1
2孙杰.基于深度学习的军事情报智能推荐技术研究[J].智能安全,2023,2(2):79-91.
3孙珏,盛艺明,沈建华,李渊,朱美华,李朝衡,黄秀英,范忠泽.中药消癌平针剂经肝动脉介入治疗转移性肝癌的临床研究[J].上海中医药杂志,2000,34(1):14-17. 被引量：36
4邵永润.信息咨询与现代社会[J].情报资料工作,2000,21(2):4-7. 被引量：14
5齐秋阳,辛平,吴起蒙,张恩辉,宋语牧.基于Python的农业岗位招聘数据获取与分析展示系统[J].现代农机,2020(4):30-31.
6侯莹,陈文胜,王丹宁,程陈,牛诗川,姬瑶.智能问答技术在网络运维服务中的研究[J].软件工程,2020,23(9):9-12. 被引量：2
7谢业欣.一个基于数据共享的接口开发平台[J].软件,2020,41(8):152-157. 被引量：2
8王瑞萍,刘峰,杨媛琦,邢春玉.审计知识图谱的构建与研究——基于Neo4j的图谱技术[J].中国注册会计师,2020(9):109-113. 被引量：7
9左匡天,张振虎.基于B/S架构的校园“约球”平台的设计与实现[J].电脑知识与技术,2020,16(26):1-3.
10李俊成,李健,徐运标,杨幸,成亚玲,刘曼春.一种具有语音播报功能的单独招生平台的设计[J].软件工程,2020,23(11):41-45.

1许海涛.区块链技术在可信电子文件管理中的适用性研究[J].山西档案,2019,0(6):19-27. 被引量：29
2吴应海.结构严谨浑然一体[J].学苑创造（C版）,2020,0(1):64-66.
3廖霞.略论普高历史构建适应时代要求的课程体系[J].新作文（中小学教学研究）,2019,2(11):5-5.
4刘艳艳,邓焕丹,黄双根.基于社会网络分析法和主题挖掘的“主体”教学研究——以高职《中国传统文化》课程为例[J].电脑知识与技术,2019,15(12X):1-3.
5高健,顾晓菲.非物质文化遗产网络外宣研究[J].人文之友,2019,0(16):57-60.
6饶高琦,李宇明.基于词频逆文档频统计的词汇时间分布层次[J].中文信息学报,2019,33(11):31-38. 被引量：1
7边扬帆,成全.工业4.0时代的中国科技政策热点及政策导向分析[J].情报探索,2020,0(1):112-119. 被引量：3
8程铮,刘振吉,吴家菊.虚拟现实网页动态数据自动化采集系统设计[J].自动化与仪器仪表,2019,0(10):18-21.
9左琳.基于Wmatrix的中美高校英文网页文本对比研究——以“专业”为例[J].海外英语,2019,0(24):25-27. 被引量：1
10张聪,易秀双,朱明浩,王兴伟.基于Spark的学术研究热点挖掘方法[J].计算机工程,2019,45(12):171-175. 被引量：1

郑州大学学报（理学版）

2020年第1期

浏览历史

内容加载中请稍等...

基于Web日志的性格预测与群体画像方法研究被引量：10

参考文献12

二级参考文献161

共引文献564

同被引文献150

引证文献10

二级引证文献97

相关作者

相关机构

相关主题

浏览历史

基于Web日志的性格预测与群体画像方法研究 被引量：10

参考文献12

二级参考文献161

共引文献564

同被引文献150

引证文献10

二级引证文献97

相关作者

相关机构

相关主题

浏览历史

基于Web日志的性格预测与群体画像方法研究被引量：10