基于多重文本关系图中clique子团聚类的主题识别方法研究被引量：4

Study on Textual Topic Identification by Clustering Clique Structure in Multi-Relationship Text Graph

下载PDF

导出

摘要在网络成为最主要科学交流和信息传播渠道的今天,越来越多的机构将其研究成果以电子化形式呈现,这些电子化的文本资源中蕴涵着丰富的语义信息。面对这些海量的资源,科研人员很难在短时间内快速捕获文本中的主旨内容。如何高效准确地呈现文本资源中的核心主题,辅助科研人员对文本集中的重要关联信息进行聚焦,提高科研效率,一直是文本挖掘研究中的一个重要问题。在对现有有益研究成果借鉴的基础上,结合文本中术语和术语关系的特点,论文提出将文本中的术语和术语间的共现、句法和语义关系利用图结构进行表示,识别文本关系图中的紧密关联子团,基于所得到的紧密关联子团聚类来揭示文本子主题的整体研究思路。开展了两个方面的研究:①将文本集中的术语和术语间各种关系属性进行叠加归并,构建多重文本关系叠加模型;②基于clique子团间相似性距离和语义标识,进行聚类识别文本集中所包含的重要子主题。论文采用"migraine disorders"主题中近五年的文献构建文本集,对提出的方法开展了2个有效性实验。实验1与文本中领域专家所给出的标引词按语义类型分组结果对比,结果表明论文提出的方法与领域专家给出的标引词语义类型分组结果具有一致性;实验2与目前广泛使用的LDA方法结果进行对比,在准确率和召回率上都较LDA方法有所提高。2个实验均证明了文中方法的有效性。 The Internet has become the most important channel for scientific communication and information dis- semination. An increasing number of institutes present their research findings in electronic form, and these electronic texts contain rich semantic information. However, it is difficult for researchers to capture core content on short notice when presented with various electronic texts. Assisting researchers in obtaining the core topics and important associ- ated information in these texts, quickly and accurately, is an urgent issue in text mining. Based on reference to state-of-art technologies, algorithms, and the characteristics of the terms and their relations, we propose a new method for topic identification, based on k-clique clustering, to identify text sub-themes. First, we merge the attribu-tions of terms and their relationships based on rules to construct a multi-relationship overlay model. Second, we cluster semantic k-cliques based on similarity distance and semantic content of each k-clique to identify the text sub-theme. With the above efforts, we used the migraine disorders topic dataset over nearly five years to determine the effectiveness of the proposed method. By comparing the proposed method with the Latent Dirichlet Allocation （LDA） method and using a grouping result based on semantic word types given by a professional in the Medline database, we found that the proposed method was closer to grouping results based on word semantic types, and had better precision and recall values than LDA.

作者郭红梅孔贝贝张智雄

机构地区中国科学院文献情报中心中国科学院武汉文献情报中心

出处《情报学报》 CSSCI CSCD 北大核心 2017年第5期433-442,共10页 Journal of the China Society for Scientific and Technical Information

基金中国科学院文献情报中心青年人才领域前沿项目"基于图模式的科技文献主题语义标注方法研究"(G160081001)

关键词 clique子团多重文本关系文本主题识别 cluster k-clique sub-graph text multi-relationship overlay model textual topic identification

分类号 G254 [文化科学—图书馆学]

引文网络
相关文献

同被引文献39

1张治河,丁华,孙丽杰,周国华.创新型城市与产业创新系统[J].科学学与科学技术管理,2006,27(12):150-155. 被引量：22
2化柏林.情报学三动论探析:序化论、转化论与融合论[J].情报理论与实践,2009,32(11):21-24. 被引量：24
3王众托.关于超网络的一点思考[J].上海理工大学学报,2011,32(3):229-237. 被引量：62
4刘晓勇,付辉.一种快速AP聚类算法[J].山东大学学报（工学版）,2011,41(4):20-23. 被引量：20
5王小华,徐宁,谌志群.基于共词分析的文本主题词聚类与主题发现[J].情报科学,2011,29(11):1621-1624. 被引量：33
6朱红,丁世飞,许新征.基于改进属性约简的细粒度并行AP聚类算法[J].计算机研究与发展,2012,49(12):2638-2644. 被引量：7
7周杰,刘玉琴,曾建勋.学术研究主体与研究内容间的关联关系可视化方法[J].现代图书情报技术,2012(11):92-97. 被引量：6
8许海云,方曙.科学计量学的研究主题与发展——基于普赖斯奖得主的扩展作者共现分析[J].情报学报,2013,32(1):58-67. 被引量：7
9史庆伟,乔晓东,徐硕,农国武.作者主题演化模型及其在研究兴趣演化分析中的应用[J].情报学报,2013,32(9):912-919. 被引量：24
10化柏林.多源信息融合方法研究[J].情报理论与实践,2013,36(11):16-19. 被引量：59

引证文献4

1许海云,董坤,隗玲,王超,岳增慧.科学计量中多源数据融合方法研究述评[J].情报学报,2018,37(3):318-328. 被引量：28
2许海云,武华维,罗瑞,董坤,李婧.基于多元关系融合的科技文本主题识别方法研究[J].中国图书馆学报,2019,45(1):82-94. 被引量：9
3李海林,邬先利.基于时间序列聚类的主题发现与演化分析研究[J].情报学报,2019,38(10):1041-1050. 被引量：18
4余丽,钱力,付常雷,赵华茗.基于深度学习的文本中细粒度知识元抽取方法研究[J].数据分析与知识发现,2019,3(1):38-45. 被引量：34

二级引证文献87

1高景宏,赵杰,李明原,曹明波,翟运开.面向精准医疗的多源异构数据融合技术研究[J].医学信息学杂志,2021,42(5):69-74. 被引量：10
2张发玉.点到空间回转轴线距离的一种测量方法[J].洛阳工学院学报,2000,21(1):37-39.
3罗瑞,许海云,董坤.领域前沿识别方法综述[J].图书情报工作,2018,62(23):119-131. 被引量：39
4许海云,武华维,罗瑞,董坤,李婧.基于多元关系融合的科技文本主题识别方法研究[J].中国图书馆学报,2019,45(1):82-94. 被引量：9
5刘自强,许海云,罗瑞,董坤,朱礼军.基于主题关联分析的科技互动模式识别方法研究[J].情报学报,2019,38(10):997-1011. 被引量：18
6朱雯,陈荣,孙济庆.多源数据的文献计量功能发展及其比较研究[J].图书馆理论与实践,2019,0(10):66-71. 被引量：1
7迟玉琢.2018年我国情报学研究进展[J].山东图书馆学刊,2019,0(4):24-31. 被引量：1
8张维冲,王芳,赵洪.多源信息融合用于新兴技术发展趋势识别——以区块链为例[J].情报学报,2019,38(11):1166-1176. 被引量：42
9蔡皎洁.AI中的文本信息抽取方法进展研究[J].湖北工程学院学报,2019,39(6):65-72. 被引量：3
10邱韵霏,李春旺.智能情报分析模式:数据驱动型与知识驱动型[J].情报理论与实践,2020,43(2):28-34. 被引量：11

1冯泽英.论网络环境下高校图书馆信息资源的共建共享[J].科技情报开发与经济,2005,15(18):51-52. 被引量：6
2周子明.一种规则和统计相结合的文本主题识别[J].中国电子商务,2011(4):79-79.
3孙铁精.在贴近中提高舆论引导水平[J].记者摇篮,2004(1):17-18.
4曹力.试论我国高校图书馆知识服务模式构建[J].科技资讯,2015,13(12):200-200.
5王婧雯.媒体融合语境下主流媒体舆论引导研究[J].东南传播,2016(12):9-11. 被引量：2
6陈九龙.论发明创造的途径和方法[J].自然辩证法研究,2002,18(1):13-15. 被引量：2
7刘希.读绘本,学“预测”[J].小学语文教师,2014,0(10):18-19.
8孙燕,陈建平.高校图书馆知识服务探析[J].泰州职业技术学院学报,2009,9(4):74-76. 被引量：1
9紧密围绕党和国家的中心工作为决策提供优质的对策研究成果：中国社科院召开‘[J].情报资料工作,1997,18(3):4-5.
10集成了字典术语关系、关键词关联以及用户兴趣的基于浏览概念的信息检索[J].图书情报工作动态,2003(2):30-30.

情报学报

2017年第5期

浏览历史

内容加载中请稍等...

基于多重文本关系图中clique子团聚类的主题识别方法研究被引量：4

同被引文献39

引证文献4

二级引证文献87

相关作者

相关机构

相关主题

浏览历史

基于多重文本关系图中clique子团聚类的主题识别方法研究 被引量：4

同被引文献39

引证文献4

二级引证文献87

相关作者

相关机构

相关主题

浏览历史

基于多重文本关系图中clique子团聚类的主题识别方法研究被引量：4