结合内容和标签的Web文本聚类研究被引量：8

Using Content and Tags for Web Text Clustering

导出

摘要【目的】探索社会标签与文本内容的结合对文本聚类的影响。【方法】采用Engadget中英文博客数据,使用TF×IDF、Text Rank、Text Rank×IDF三种特征抽取方法,线性函数和Sigmod函数进行相似度加权,AP算法进行聚类。【结果】结果表明,TF×IDF的聚类效果最好,两种加权对英文博文聚类有不同程度的改善,但在中文博文聚类中,Sigmod加权结果稍有下降,线性加权比Sigmoid加权方法效果更好。【局限】没有找出标签相似度与内容相似度最佳的权重系数。AP聚类算法不能应用于大数据,聚簇过多影响聚类结果的展示。【结论】社会标签与文本内容相似度的线性加权能改善Web文本聚类结果。 [Objective] This paper explores the infulence of the combination of social tagging and text content. [Methods] In this paper, taking the English and Chinese blogs for example, using TF × IDF, TextRank and TextRank × IDF as text feature extraction method, basing on tags combining with text content where two types weighted methods is used, and AP clustering algorithm is used to cluster samples. [Results] The results show that TF×IDF acts the best in the clustering of three feature extraction. And content weighted with tags improve different degree of the clustering of English blogs, but not for Chinese blogs in the method of Sigmoid. In two kinds of similarity weighted, linear method performs better than the Sigmoid method. [Limitations] The authors cannot find the best weight coefficient of tag similarity and content similarity. AP clustering algorithm can＇t apply to big data and a lot of clustering results interfered the visualization of show. [Conclusions] The weighted similarity of social tags and text content can improve the effect of the clutering of Web text.

作者顾晓雪章成志

机构地区南京理工大学经济管理学院

出处《现代图书情报技术》 CSSCI 北大核心 2014年第11期45-52,共8页 New Technology of Library and Information Service

基金国家社会科学基金项目"在线社交网络中基于用户的知识组织模式研究"(项目编号:14BTQ033) 教育部人文社会科学基金规划项目"多语言高质量社会化标签生成及聚类研究"(项目编号:13YJA870020)的研究成果之一

关键词社会标签特征选择文本聚类 Social tag Feature selection Text clustering

分类号 G254 [文化科学—图书馆学]

引文网络
相关文献

参考文献12

1李星毅,曾路平,施化吉.基于单词相似度的文本聚类[J].计算机工程与设计,2009,30(8):1966-1968. 被引量：9
2李鹏,王斌,石志伟,崔雅超,李恒训.Tag-TextRank:一种基于Tag的网页关键词抽取方法[J].计算机研究与发展,2012,49(11):2344-2351. 被引量：56
3毛嘉莉.基于K-means的文本聚类算法[J].计算机系统应用,2009,18(10):85-87. 被引量：9
4杨鲲,马慧芳,史忠植.基于社会标注的Web资源语义聚类研究[J].高技术通讯,2012,22(1):48-54. 被引量：2
5李鹏,王斌,晋薇.Improving Web Document Clustering through Employing User-Related Tag Expansion Techniques[J].Journal of Computer Science & Technology,2012,27(3):554-566. 被引量：5
6马娜.文本聚类研究[J].电脑知识与技术（过刊）,2009,15(7X):5487-5489. 被引量：2
7贺秋芳,曾启杰,蔡延光.挖掘用户标签的增强型社区网页聚类算法[J].微电子学与计算机,2013,30(2):74-77. 被引量：4
8叶宇飞,安世全,代劲.一种新的Web中文文本聚类方法研究[J].计算机应用与软件,2013,30(12):222-225. 被引量：3
9何文静,何琳.基于社会标签的文本聚类研究[J].现代图书情报技术,2013(7):49-54. 被引量：8
10吴夙慧,成颖,郑彦宁,潘云涛.文本聚类中文本表示和相似度计算研究综述[J].情报科学,2012,30(4):622-627. 被引量：23

二级参考文献195

1王波,唐常杰,段磊,尹佳,左劼,李川.RT-Rank:基于RSS标签排名相关性的文档聚类[J].计算机研究与发展,2007,44(z3):125-130. 被引量：2
2李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
3侯汉清 ,章成志 ,郑红 .Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92. 被引量：32
4王升明,李淼.一种基于改进的自组织特征映射网络的文档聚类方法[J].计算机工程与应用,2005,41(3):167-169. 被引量：3
5周昭涛,卜东波,程学旗.文本的图表示初探[J].中文信息学报,2005,19(2):36-43. 被引量：17
6宋江春,沈钧毅,宋擒豹.一个基于关联规则的多层文档聚类算法[J].计算机应用,2005,25(7):1570-1572. 被引量：4
7尉景辉,何丕廉,孙越恒.基于K-Means的文本层次聚类算法研究[J].计算机应用,2005,25(10):2323-2324. 被引量：18
8荀恩东,颜伟.基于语义网计算英语词语相似度[J].情报学报,2006,25(1):43-48. 被引量：41
9冯志伟.术语学中的概念系统与知识本体[J].术语标准化与信息技术,2006(1):9-15. 被引量：37
10黄建鹏,陆立强.一种新的相似度标准及其相关的聚类算法[J].复旦学报（自然科学版）,2006,45(2):177-184. 被引量：4

共引文献122

1陈财森,向阳霞,寇应展,刘会英.面向装备作战数据的知识图谱平台构建[J].装甲兵学报,2022(5):105-110. 被引量：1
2姚瑶,王战红,石磊.一种基于页面聚类的Web概念化建模新方法[J].微电子学与计算机,2015,32(1):156-160. 被引量：2
3高劲松,张俊丽.基于粒子群的模糊C均值文本聚类算法研究[J].图书情报工作,2010,54(6):57-60. 被引量：2
4罗晖霞,曲晓玲.基于网络舆情的K-Means算法的改进研究[J].电脑开发与应用,2010,23(8):4-6. 被引量：3
5姜传菊.概念格在数字图书馆中的应用研究[J].情报科学,2010,28(12):1908-1911. 被引量：1
6杨云,吴亚男,李健.基于潜在特征词的文本相似度计算方法[J].计算机工程与设计,2011,32(2):572-575. 被引量：5
7王莹莹,任贤,龙鹏飞.中文短语文本相似度计算新方法[J].软件导刊,2011,10(1):79-81. 被引量：2
8吴亚男,杨云.一种新型的网络社区高影响力主题提取方法[J].陕西科技大学学报（自然科学版）,2011,29(1):138-141.
9刘海峰,姚泽清,刘守生.一种基于模糊加权的改进文本聚类方法[J].微电子学与计算机,2011,28(9):39-42.
10荀瑞新.基于模糊聚类算法的故障数据分析与类型识别[J].现代计算机,2011,17(21):13-15.

同被引文献43

1张万山,肖瑶,梁俊杰,余敦辉.基于主题聚类的Web资源个性化推荐研究[J].微电子学与计算机,2015,32(4):35-39. 被引量：6
2孙爽,章勇.一种基于语义相似度的文本聚类算法[J].南京航空航天大学学报,2006,38(6):712-716. 被引量：18
3谢艳玲,何丕廉,于鷃,孙越恒.一种高效的网页聚类方法[J].计算机工程与设计,2007,28(17):4229-4232. 被引量：7
4马丽.基于群体兴趣偏向度的数字图书馆协同过滤技术研究[J].现代图书情报技术,2007(10):19-22. 被引量：9
5肖宇,于剑.基于近邻传播算法的半监督聚类[J].软件学报,2008,19(11):2803-2813. 被引量：165
6王刚,邱玉辉.基于本体及相似度的文本聚类研究[J].计算机应用研究,2010,27(7):2494-2497. 被引量：9
7田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报（信息科学版）,2010,28(6):602-608. 被引量：177
8张文秀,朱庆华.领域本体的构建方法研究[J].图书与情报,2011(1):16-19. 被引量：71
9吴志强,王义翠,马慧娟.协同信息推荐:一种数字图书馆个性化信息服务新模式[J].图书馆,2011(1):45-47. 被引量：22
10鲍泓,徐光美,冯松鹤,须德.自动图像标注技术研究进展[J].计算机科学,2011,38(7):35-40. 被引量：21

引证文献8

1黄凌云.图书馆数字资源自动推荐优化算法研究[J].情报探索,2016(2):25-29. 被引量：1
2洪文,聂延平,青巧.馆藏资源自动推荐模型结构与处理流程优化分析[J].情报理论与实践,2016,39(5):130-133. 被引量：1
3毕强,刘健,鲍玉来.基于语义相似度的文本聚类研究[J].现代图书情报技术,2016(12):9-16. 被引量：8
4钟学燕,陈国青,孙磊磊,张明月,刘澜.基于多视角特征融合的移动信息服务模式挖掘[J].系统工程理论与实践,2018,38(7):1853-1861. 被引量：5
5郭红建,陈一飞.社会标注系统自适应网页聚类算法研究[J].电子科技,2018,31(8):73-76.
6郭蕾蕾,俞璐,段国仑,陶性留.基于伴随文本信息的Web图像批量标注方法[J].信息技术与网络安全,2018,37(9):70-75.
7林淑贞.基于读者信息挖掘的图书馆资源推荐自动模型研究[J].情报探索,2018(4):6-10. 被引量：1
8郭蕾蕾,俞璐,段国仑,陶性留.基于AP聚类的多特征融合方法[J].计算机技术与发展,2019,29(8):47-52. 被引量：3

二级引证文献19

1林鑫,桑运鑫,龙存钰.基于用户决策机理的个性化推荐[J].图书情报工作,2019,63(2):99-106. 被引量：4
2王建雄.数字资源发布策略设计与实现——以客家文化资源平台为例[J].科技文献信息管理,2016,30(2):12-16.
3吴春燕,黄巧梅,刘海清,张捷.文本主要信息的自动获取和主体挖掘[J].信息技术与信息化,2017(3):41-43. 被引量：1
4闫晶,毕强,李洁.数字图书馆资源聚合质量评价指标构建[J].图书情报工作,2017,61(24):5-12. 被引量：19
5吴鸣晓.基于读者需求的高职院校图书馆资源建设创新服务——以沧州医学高等专科学校为例[J].科技视界,2019(6):259-261. 被引量：4
6桂宇晖,刘婧,刘军,宋刚.基于智慧工厂的语音交互设计研究[J].包装工程,2020,41(6):26-31. 被引量：6
7杨尽,陈晓美,毕强,关心惠.国内数字图书馆资源聚合研究综述[J].兰台内外,2020(6):72-76. 被引量：1
8钱宇,曹恩叶,邓文君,袁华.海量用户评论在APP更新设计中的参与作用挖掘[J].系统工程理论与实践,2021,41(3):554-564. 被引量：11
9李晓峰,刘刚,卫晋,王妍玮.基于卷积神经网络与特征选择的医疗图像误差预测算法[J].湖南大学学报（自然科学版）,2021,48(4):90-99. 被引量：6
10吴锦池,余维杰.融合知识库语义的文本聚类研究[J].情报杂志,2021,40(5):156-164. 被引量：7

1顾晓雪,章成志.标注内容与用户属性结合的标签聚类研究[J].现代图书情报技术,2015(10):30-39. 被引量：4
2何文静,何琳.基于社会标签的文本聚类研究[J].现代图书情报技术,2013(7):49-54. 被引量：8
3黄丹,盛小平.基于社会标签的开放知识管理[J].图书与情报,2012(5):48-51. 被引量：6
4翟爽,宋文.社会标签进展研究概述[J].图书情报工作,2010,54(20):41-44. 被引量：12
5吴丹,杨艳,马曦.社会标签的规范性研究——学术博客标注[J].情报资料工作,2011,32(6):11-15. 被引量：5
6冯倩然,吴丹.社会标签在图书馆中的应用模式研究[J].图书情报工作,2011,55(21):88-92. 被引量：6
7胡海东.基于社会标签使用的图书馆网站建设研究[J].商场现代化,2012(26):222-223.
8冯祝斌,华薇娜.社会标签研究现状调研与分析——基于WoS、LISA、ACMI、EEE数据库[J].情报杂志,2012,31(2):157-162. 被引量：4
9邱均平,柴雯.我国社会标签研究进展内容分析[J].图书馆论坛,2014,34(7):8-14. 被引量：2
10章成志,顾晓雪.区分标签质量的机器生成标签聚类研究[J].现代图书情报技术,2015(10):22-29. 被引量：2

现代图书情报技术

2014年第11期

浏览历史

内容加载中请稍等...

结合内容和标签的Web文本聚类研究被引量：8

参考文献12

二级参考文献195

共引文献122

同被引文献43

引证文献8

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

结合内容和标签的Web文本聚类研究 被引量：8

参考文献12

二级参考文献195

共引文献122

同被引文献43

引证文献8

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

结合内容和标签的Web文本聚类研究被引量：8