结合语义特征的个人微博聚类方法研究被引量：3

Research on Personal Microblog Clustering Method Combining Semantic Features

下载PDF

导出

摘要针对个人微博聚类时缺乏考虑文本语义特征的问题,提出一种结合语义特征的个人微博聚类方法.该方法充分考虑了微博文本的语义特征,可将意义相关的微博更为准确地聚类.其要点如下:首先,利用随机游走算法产生每个词汇的语义标签及其概率,游走图基于知网的语义关系图产生;其次,利用排列算法将两篇微博中词汇的各个语义项进行相似度求解,得到意思集合;最后,利用余弦相似度计算两条微博的语义相关度,并将大于相似度阈值的聚在一起.为了提高算法效能,在计算微博的相似度时进行了分段和优化.实验表明,利用语义特征得到的聚类结果,F-度量值较利用词共现和word2vec聚类方法有明显地提高. For the problem that semantic features are less covered by existing individual microblog clustering algorithms,a clustering method integrating semantic features of microblog texts is proposed. On the basis of this relevant microblog can be clustered better. Its main points are as follows：Firstly, random surfer model generates semantic signature and probability of each lexical item based on HowNet semantic relation graph;Secondly, alignment algorithm produces sets of senses by calculating semantic signature similarity of lexical item in two microblogs ; Finally, semantic metric is calculated cosine similarity, if the metric is greater than a certain threshold, the corresponding microblogs are clustered. To improve algorithm performance, segmentation by time and optimization are adopted to calculate microblog texts similarity. Experimental results show that the proposed method outperforms word co-occurrence and word2vec method in F-measure.

作者高永兵张娣杨贵朋马占飞

机构地区内蒙古科技大学信息工程学院包头师范学院计算机系

出处《小型微型计算机系统》 CSCD 北大核心 2017年第7期1543-1548,共6页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61163025)资助内蒙古自治区自然科学基金项目(2015MS0621)资助

关键词个人微博聚类语义知网 individual microblog clustering semantic HowNet

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1刘少鹏,印鉴,欧阳佳,黄云,杨晓颖.基于MB-HDP模型的微博主题挖掘[J].计算机学报,2015,38(7):1408-1419. 被引量：31
2郑伟,王朝坤,刘璋,王建民.一种基于随机游走模型的多标签分类算法[J].计算机学报,2010,33(8):1418-1426. 被引量：57
3王小林,王义.改进的基于知网的词语相似度算法[J].计算机应用,2011,31(11):3075-3077. 被引量：38
4葛斌,李芳芳,郭丝路,汤大权.基于知网的词汇语义相似度计算方法研究[J].计算机应用研究,2010,27(9):3329-3333. 被引量：66
5朱征宇,孙俊华.改进的基于《知网》的词汇语义相似度计算[J].计算机应用,2013,33(8):2276-2279. 被引量：58
6黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：221

二级参考文献100

1刘亚军,徐易.一种基于加权语义相似度模型的自动问答系统[J].东南大学学报（自然科学版）,2004,34(5):609-612. 被引量：36
2吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
3余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究[J].计算机工程与设计,2006,27(2):241-244. 被引量：25
4荀恩东,颜伟.基于语义网计算英语词语相似度[J].情报学报,2006,25(1):43-48. 被引量：41
5李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
6李佳,祝铭,刘辰,杨正球.中文本体映射研究与实现[J].中文信息学报,2007,21(4):27-33. 被引量：10
7夏天.汉语词语语义相似度计算研究[J].计算机工程,2007,33(6):191-194. 被引量：63
8Shen X,Boutell M,Luo J,Brown C.Multi-label machine learning and its application to semantic scene classification//Proceedings of the 2004 International Symposium on Electronic Imaging.San Jose,California,USA,2004:18-22.
9Hullermeier E,Furnkranz J,Cheng W,Brinker K.Label ranking by learning pairwise preferences.Artificial Intelligence,2008,172(16):1897-1916.
10Read J.A pruned problem transformation method for multi-label classification//Proceedings of the New Zealand Computer Science Research Student Conference.New Zealand,2008:143-150.

共引文献441

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：15
2杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
3赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
4孙红,黎铨祺,赵娜.基于双层树状支持向量机的观点挖掘与倾向分析[J].智能计算机与应用,2021,11(3):44-47. 被引量：3
5王鹏,郑贵省,郭强,贾蓓.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,22(1):87-90. 被引量：1
6高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
7喻金平,郑杰,朱桂祥.基于多关系网络的社区检测算法[J].系统仿真学报,2015,27(1):147-154. 被引量：1
8孙伟平,向杰,陈加忠,余胜生.基于GPU的粒子滤波并行算法[J].华中科技大学学报（自然科学版）,2011,39(5):63-66. 被引量：11
9叶焕倬,吴迪.基于改进编辑距离的相似重复记录清理算法[J].现代图书情报技术,2011(7):82-90. 被引量：7
10孙喜来,王欣,葛昂,郑家民,邓宏斌.面向相似度的多维异构数据比对模型研究[J].信息安全与技术,2011,2(9):71-76.

同被引文献14

1赵世奇,刘挺,李生.一种基于主题的文本聚类方法[J].中文信息学报,2007,21(2):58-62. 被引量：23
2李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
3葛斌,李芳芳,郭丝路,汤大权.基于知网的词汇语义相似度计算方法研究[J].计算机应用研究,2010,27(9):3329-3333. 被引量：66
4田森平,吴文亮.自动获取k-means聚类参数k值的算法[J].计算机工程与设计,2011,32(1):274-276. 被引量：18
5徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：236
6张晨逸,孙建伶,丁轶群.基于MB-LDA模型的微博主题挖掘[J].计算机研究与发展,2011,48(10):1795-1802. 被引量：166
7王小林,王义.改进的基于知网的词语相似度算法[J].计算机应用,2011,31(11):3075-3077. 被引量：38
8王小林,王东,杨思春,邰伟鹏,郑啸.基于《知网》的词语语义相似度算法[J].计算机工程,2014,40(12):177-181. 被引量：16
9王永贵,张旭,刘宪国.基于AT模型的微博用户兴趣挖掘研究[J].计算机工程与应用,2015,51(13):126-130. 被引量：5
10陈平华,陈传瑜,洪英汉.一种结合关联规则的协同过滤推荐算法[J].小型微型计算机系统,2016,37(2):287-292. 被引量：15

引证文献3

1高永兵,宋添树,李江宇,马占飞.基于知网的个人微博语义相关度的聚类研究[J].计算机工程与科学,2019,41(6):1128-1135. 被引量：3
2高永兵,许庆瑞.基于改进LDA模型的微博用户兴趣挖掘研究[J].内蒙古科技大学学报,2019,38(3):272-276. 被引量：3
3邵忻.基于用户兴趣挖掘技术的微博信息推送应用研究[J].电脑编程技巧与维护,2021(6):152-153. 被引量：1

二级引证文献7

1黄俊义.基于语义分析的农业科技推广服务技术研究[J].佳木斯大学学报（自然科学版）,2020,38(6):138-144.
2陈瀛,生佳根.基于LDA和Word2vec的微博标签生成算法[J].计算机与现代化,2021(12):37-42. 被引量：3
3张思,陈娟,夏丹,王涛,王志锋,刘清堂.在线论坛中学习者兴趣与行为主题联合建模研究[J].远程教育杂志,2022,40(1):81-90. 被引量：8
4陈骁.一种基于数据挖掘技术的科技政策信息推送算法[J].数字技术与应用,2022,40(1):41-43. 被引量：1
5郑影,常春.食物链能量流动递减视角下叙词表概念相关性研究[J].中华医学图书情报杂志,2022,31(10):48-55.
6祝和明,蔡榕,周长江,王存超,郭晏.基于融合指标的电力专利可信数据挖掘方法研究[J].自动化技术与应用,2024,43(3):139-142.
7马海江,柴功昊.基于BERT模型和LDA主题模型的用户兴趣模型构建方法[J].人工智能与机器人研究,2022,11(4):418-428.

1本刊“知网采编系统”上线通知[J].电脑与信息技术,2017,25(3):75-75.
2陈劲光.一种基于云模型的文摘单元选取方法研究[J].中文信息学报,2016,30(5):187-194.
3曾德华.基于语义和统计特征的中文文本表示方法[J].中国管理信息化,2009,12(15):65-67.
4王竹青.全国中考英语介词考点研究[J].信息教研周刊,2013(2):26-27.
5吴运兵,朱丹红,廖祥文,张栋,林开标.路径张量分解的知识图谱推理算法[J].模式识别与人工智能,2017,30(5):473-480. 被引量：18
6李强,陈光化,余渊.基于随机游走和混合高斯模型的运动目标检测[J].计算机技术与发展,2017,27(6):11-16. 被引量：1
7陈飞跃,徐震浩,顾幸生.基于离散布谷鸟搜索算法的带阻塞有差速混合流水车间调度[J].华东理工大学学报（自然科学版）,2017,43(3):425-435. 被引量：10
8李春晓,陈伟达.《说文解字》与闽南方言古语词互证——兼议大型辞书的阙失[J].中国文字研究,2017(1):155-162. 被引量：2
9赵红红,谭红叶,寻丽娜,王蓉.基于时间片段和主题片段的时间关系识别[J].山东大学学报（理学版）,2017,52(6):32-39. 被引量：1
10范铭升,吴汉枢.基于年龄变化的人脸识别[J].科技风,2017(13):1-1.

小型微型计算机系统

2017年第7期

浏览历史

内容加载中请稍等...

结合语义特征的个人微博聚类方法研究被引量：3

参考文献6

二级参考文献100

共引文献441

同被引文献14

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

结合语义特征的个人微博聚类方法研究 被引量：3

参考文献6

二级参考文献100

共引文献441

同被引文献14

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

结合语义特征的个人微博聚类方法研究被引量：3