基于主题词共现的文档非对称关系量化研究被引量：1

Analyzing Asymmetric Relationship Between Documents Based on Topic Word Co-occurrence

导出

摘要【目的】探究文档间的非对称关系并提出量化模型。【方法】基于主题词共现思想,挖掘主题词间的非对称关联信息,采用文档覆盖度指标量化文档间的非对称关系,通过文档聚类进行实证分析。【结果】在文档聚类应用中,与已有的两种文档间关系量化模型相比,所提出的基于主题词共现的文档非对称关系量化模型使聚类结果的平均熵值分别最大下降了22.6%和23.3%。【局限】量化模型只聚焦了文档的文本内容,未考虑图片和公式等非文本内容对文档间非对称关系的影响。【结论】利用文档间非对称关系能更好地区分文档间差异性,有助于提高文档聚类准确率。 [Objective]This paper proposes a quantitative model,aiming to explore the asymmetric relationship between documents.[Methods]Firstly,we examined the asymmetric association between topics with the help of co-occurrence.Secondly,we introduced the concept of the document coverage degree to quantify the asymmetric relationship between documents.Finally,we used document clustering to evaluate the proposed model’s performance.[Results]Compared with two existing measurement models,the average value of clustering was reduced by up to 22.6%and 23.3%with the proposed model.[Limitations]The proposed model only analyzed textual contents,which did not include pictures and formulas.[Conclusions]The proposed model could effectively improve the accuracy of document clustering.

作者张国防王鑫徐建民 Zhang Guofang;Wang Xin;Xu Jianmin(School of Management,Hebei University,Baoding 071002,China;College of Mathematics and Information Science,Hebei University,Baoding 071002,China;School of Cyber Security and Computer,Hebei University,Baoding 071002,China)

机构地区河北大学管理学院河北大学数学与信息科学学院河北大学网络空间安全与计算机学院

出处《数据分析与知识发现》 CSCD 北大核心 2023年第3期110-120,共11页 Data Analysis and Knowledge Discovery

基金国家社会科学基金后期资助项目(项目编号:17FTQ002) 河北省社科基金项目(项目编号:HB20TQ002)的研究成果之一。

关键词非对称关系主题词共现覆盖度 Asymmetric Relationship Topic Word Co-occurrence Coverage

分类号 TP391 [自动化与计算机技术—计算机应用技术] G354 [文化科学—情报学]

引文网络
相关文献

参考文献25

1庞贝贝,苟娟琼,穆文歆.面向高校学生深度辅导领域的主题建模和主题上下位关系识别研究[J].数据分析与知识发现,2018,2(6):92-101. 被引量：5
2张豹,陈伟荣,张梦易,吴天星,漆桂林.通过标签嵌入从社交标签中挖掘上下位关系[J].指挥信息系统与技术,2020,11(4):64-69. 被引量：1
3王思丽,祝忠明,杨恒,刘巍.基于模式和投影学习的领域概念上下位关系自动识别研究[J].数据分析与知识发现,2020,4(11):15-25. 被引量：2
4徐戈,杨晓燕,汪涛.单词语义相似性计算综述[J].计算机工程与应用,2020,56(4):9-15. 被引量：5
5杨泉.基于遗传算法的词语语义相似度计算研究[J].计算机技术与发展,2021,31(2):8-13. 被引量：5
6张志昌,陈松毅,刘鑫,马慧芳.结合语境与布朗聚类特征的上下位关系验证[J].计算机工程,2015,41(2):145-150. 被引量：1
7刘伟,黄锴宇,余浩,黄德根.基于语境相似度的中文分词一致性检验研究[J].北京大学学报（自然科学版）,2022,58(1):99-105. 被引量：6
8蔡东风,白宇,于水,叶娜,任晓娜.一种基于语境的词语相似度计算方法[J].中文信息学报,2010,24(3):24-28. 被引量：12
9赵宁宁,梁意文.综合结构和内容的XML文档相似度计算方法[J].微电子学与计算机,2016,33(4):69-72. 被引量：4
10单华玮,路冬媛.基于双向注意力语境关联建模的论辩关系预测[J].软件学报,2022,33(5):1880-1892. 被引量：1

二级参考文献250

1宰新宇,田学东.基于公式描述结构和词嵌入的科技文档检索方法[J].数据分析与知识发现,2020,4(1):131-138. 被引量：4
2刘云峰 ,齐欢 ,HU Xiang'en ,CAI Zhiqiang ,代建民 .基于潜在语义空间维度特性的多层文档聚类[J].清华大学学报（自然科学版）,2005(S1):1783-1786. 被引量：11
3孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
4董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：58
5晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：26
6刘鲁红.浅谈主题标引规范化[J].情报理论与实践,2004,27(4):367-368. 被引量：5
7张秀坤,赵丹群.TREC概况及其最新发展研究[J].情报理论与实践,2004,27(5):537-540. 被引量：8
8李洁,高新波,焦李成.一种基于修正划分模糊度的聚类有效性函数[J].系统工程与电子技术,2005,27(4):723-726. 被引量：8
9王洁贞,赵跃进,马会妍,刘言训.Kappa统计量及其应用[J].中国卫生统计,1995,12(6):49-50. 被引量：22
10刘江,郑家恒,张虎.中文文本语料库分词一致性检验技术的初探[J].计算机应用研究,2005,22(9):52-54. 被引量：10

共引文献487

1黎倩伶,张新平.我国抗菌药物耐药性研究热点分析[J].医学信息学杂志,2019,40(12):58-61.
2李沿江,赵红霞,苏玲霞.新冠肺炎疫情期间微博话题“中医新冠肺炎”的关注热点分析——基于LDA模型的微博主题挖掘[J].亚太传统医药,2020,16(11):15-17. 被引量：3
3许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：3
4赵越,刘子平,朱琳.社交媒体中的西安城市形象——基于跨平台数据的研究[J].新闻知识,2023(1):30-42.
5王树义,张晋,李峻.图数据库驱动的知识管理应用特性对比研究——以Roam Research为例[J].知识管理论坛,2021(5):292-301. 被引量：1
6陈琦,张君冬,郑婉婷,杨硕.基于LDA模型的中医药人工智能领域主题演化分析[J].世界科学技术-中医药现代化,2022,24(9):3315-3324. 被引量：3
7苏新宁,杨国立.我国情报学学科建设研究进展[J].情报学进展,2020(1):1-38. 被引量：12
8曾金,张耀峰,黄新杰,黄廷海.面向用户评论的主题挖掘研究——以美团为例[J].情报科学,2022,40(11):78-84. 被引量：4
9汤园玲.2000-2020年人工智能学习研究的趋势和问题——基于Citespace分析[J].汉字文化,2023(8):180-182.
10井世洁,邹利.“校园欺凌”的网络表达与治理——基于LDA主题模型的大数据分析[J].青少年犯罪问题,2020(6):60-68.

同被引文献19

1李纲,董琦.Web2.0环境下企业网络舆情传播过程的研究及实证分析[J].情报科学,2011,29(12):1810-1814. 被引量：48
2贾亚敏,安璐,李纲.城市突发事件网络信息传播时序变化规律研究[J].情报杂志,2015,34(4):91-96. 被引量：31
3陈婷,曲霏,陈福集.突发事件网络舆情扩散的政府应对仿真描述--基于三方博弈视角[J].图书馆杂志,2017,36(2):79-86. 被引量：24
4油永华.大数据环境下网络舆情发展阶段分析[J].价值工程,2017,36(35):177-180. 被引量：7
5王静茹,陈震.基于隐含狄利克雷分布的文本主题提取对比研究[J].情报科学,2018,36(1):102-107. 被引量：19
6罗闯,安璐,徐健,李纲.突发事件网络舆情关注点演化研究——基于利益相关者视角[J].图书馆学研究,2018(16):36-42. 被引量：19
7蒋知义,马王荣,邹凯,李黎.基于情感倾向性分析的网络舆情情感演化特征研究[J].现代情报,2018,38(4):50-57. 被引量：31
8姜金贵,闫思琦.基于主题和情绪相互作用的微博舆情演化研究——以“红黄蓝虐童事件”为例[J].情报杂志,2018,37(12):118-123. 被引量：32
9曹树金,岳文玉.突发公共卫生事件微博舆情主题挖掘与演化分析[J].信息资源管理学报,2020,10(6):28-37. 被引量：58
10邓春林,周舒阳,杨柳.大数据环境下公共安全突发事件微博用户评论的归因分析[J].情报科学,2021,39(1):48-55. 被引量：9

引证文献1

1马晶晶,肖萌,陈树广.情感视域下突发公共事件网络舆情情感分析与主题演化研究[J].情报探索,2023(8):61-68.

1陶叶辉,赵寿为.基于改进EM算法的高斯混合模型图像聚类方法[J].软件导刊,2022,21(12):182-186. 被引量：2

数据分析与知识发现

2023年第3期

浏览历史

内容加载中请稍等...

基于主题词共现的文档非对称关系量化研究被引量：1

参考文献25

二级参考文献250

共引文献487

同被引文献19

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于主题词共现的文档非对称关系量化研究 被引量：1

参考文献25

二级参考文献250

共引文献487

同被引文献19

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于主题词共现的文档非对称关系量化研究被引量：1