期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于多重文本关系图中clique子团聚类的主题识别方法研究 被引量:4
1
作者 郭红梅 孔贝贝 张智雄 《情报学报》 CSSCI CSCD 北大核心 2017年第5期433-442,共10页
在网络成为最主要科学交流和信息传播渠道的今天,越来越多的机构将其研究成果以电子化形式呈现,这些电子化的文本资源中蕴涵着丰富的语义信息。面对这些海量的资源,科研人员很难在短时间内快速捕获文本中的主旨内容。如何高效准确地呈... 在网络成为最主要科学交流和信息传播渠道的今天,越来越多的机构将其研究成果以电子化形式呈现,这些电子化的文本资源中蕴涵着丰富的语义信息。面对这些海量的资源,科研人员很难在短时间内快速捕获文本中的主旨内容。如何高效准确地呈现文本资源中的核心主题,辅助科研人员对文本集中的重要关联信息进行聚焦,提高科研效率,一直是文本挖掘研究中的一个重要问题。在对现有有益研究成果借鉴的基础上,结合文本中术语和术语关系的特点,论文提出将文本中的术语和术语间的共现、句法和语义关系利用图结构进行表示,识别文本关系图中的紧密关联子团,基于所得到的紧密关联子团聚类来揭示文本子主题的整体研究思路。开展了两个方面的研究:①将文本集中的术语和术语间各种关系属性进行叠加归并,构建多重文本关系叠加模型;②基于clique子团间相似性距离和语义标识,进行聚类识别文本集中所包含的重要子主题。论文采用"migraine disorders"主题中近五年的文献构建文本集,对提出的方法开展了2个有效性实验。实验1与文本中领域专家所给出的标引词按语义类型分组结果对比,结果表明论文提出的方法与领域专家给出的标引词语义类型分组结果具有一致性;实验2与目前广泛使用的LDA方法结果进行对比,在准确率和召回率上都较LDA方法有所提高。2个实验均证明了文中方法的有效性。 展开更多
关键词 clique子团 多重文本关系 文本主题识别
下载PDF
基于图挖掘的文本主题识别方法研究综述 被引量:14
2
作者 郭红梅 张智雄 《中国图书馆学报》 CSSCI 北大核心 2015年第6期97-108,共12页
本文通过文献调研分析,将基于图挖掘的文本主题识别方法总结为中心度方法、紧密关联子图查找和图聚类三种,后两者又细分为基于clique子团或类clique子团、基于图拓扑结构或结点属性聚类的方法。中心度方法通过对比文本网络中术语结点的... 本文通过文献调研分析,将基于图挖掘的文本主题识别方法总结为中心度方法、紧密关联子图查找和图聚类三种,后两者又细分为基于clique子团或类clique子团、基于图拓扑结构或结点属性聚类的方法。中心度方法通过对比文本网络中术语结点的重要度来实现文本主题的识别,紧密关联子图查找和图聚类方法则是根据文本图中术语结点和边的属性相似度来识别文本核心主题。基于语言文本网络自身特性,如何构建复杂文本关系图来同时揭示术语间的句法、共现和语义关系,如何基于术语关联和图拓扑结构识别其中的紧密关联子团,基于何种标准将紧密关联子团聚类以揭示文本核心主题,都是未来需要进一步深入研究的问题。 展开更多
关键词 文本主题识别 图挖掘 中心度 clique子团
下载PDF
基于多重文本术语关系叠加识别文本核心主题的有效性探索 被引量:7
3
作者 郭红梅 张智雄 《情报学报》 CSSCI CSCD 北大核心 2017年第11期1157-1164,共8页
目前基于图或网络进行文本主题挖掘的研究大多是基于单一文本术语关系,而文本是由一系列具有语义信息的术语,按照一定的逻辑结构构成的,这些术语除了物理位置上共现关系外,还存在句法上的支配从属关系和隐含的语义关联,仅利用单一术语... 目前基于图或网络进行文本主题挖掘的研究大多是基于单一文本术语关系,而文本是由一系列具有语义信息的术语,按照一定的逻辑结构构成的,这些术语除了物理位置上共现关系外,还存在句法上的支配从属关系和隐含的语义关联,仅利用单一术语关系对文本内容进行分析难免会造成信息的丢失,因此本文尝试将术语间的共现、句法和语义三种关系进行叠加,探索基于多重文本术语关系识别核心主题的有效性。文中选取PubMed数据库2012-2014年"migraine disorders"主题相关的249篇论文进行实验,结果表明术语和关系的叠加使文本主题信息更为凸显,同时存在三种关系的术语和边可表征文本的重要内容。对同时存在三种关系的术语和边组成多重文本术语关系图深度分析显示,叠加术语关系图中所包含的clique子团的边数和结点数少于术语共现关系图,但多于术语语义和句法关系图;在凝聚度最大的前20个clique中,叠加术语关系图中所含clique的凝聚度要高于共现、句法和语义三者中的任何一个,且这种差异具有统计学意义。多重术语关系的叠加平衡共现、句法和语义三种关系,在减少术语共现关系影响的同时增加术语语义和句法关系的优势,将三者含有的信息量进行叠加,克服了单独考虑一种术语关系时造成的信息丢失。 展开更多
关键词 文本术语关系叠加 文本主题识别 clique子团
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部