期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
垃圾评论自动过滤方法 被引量:15
1
作者 谭文堂 朱洪 +2 位作者 葛斌 李芳芳 肖卫东 《国防科技大学学报》 EI CAS CSCD 北大核心 2012年第5期153-157,168,共6页
针对互联网上存在的大量垃圾评论,提出一种基于电阻网络的垃圾评论检测方法,该方法用电阻距离来度量评论之间的上下文语义相似性,把整个评论数据表示成一个电阻网络,把垃圾评论当作该网络上的语义离群点来处理,根据网络节点对电阻网络... 针对互联网上存在的大量垃圾评论,提出一种基于电阻网络的垃圾评论检测方法,该方法用电阻距离来度量评论之间的上下文语义相似性,把整个评论数据表示成一个电阻网络,把垃圾评论当作该网络上的语义离群点来处理,根据网络节点对电阻网络平均电能消耗的影响,建立电离群因子来度量数据的离群程度,以此来识别垃圾评论。实验证明了该方法的有效性,在多个数据集上取得了较好的效果。 展开更多
关键词 垃圾评论检测 电阻距离 电离群因子
下载PDF
一种面向多文本集的部分比较性LDA模型 被引量:5
2
作者 谭文堂 王桢文 +2 位作者 殷风景 葛斌 肖卫东 《计算机研究与发展》 EI CSCD 北大核心 2013年第9期1943-1953,共11页
跨时空、跨文化文本挖掘等比较性文本挖掘(comparative text mining,CTM)旨在从多个可比的文本集中发现各文本集隐含语义结构的异同.针对当前主要的CTM模型只能分析公共话题的缺陷,提出一种部分比较性跨文本集LDA模型(partial comparati... 跨时空、跨文化文本挖掘等比较性文本挖掘(comparative text mining,CTM)旨在从多个可比的文本集中发现各文本集隐含语义结构的异同.针对当前主要的CTM模型只能分析公共话题的缺陷,提出一种部分比较性跨文本集LDA模型(partial comparative cross collections LDA model,PCCLDA)来实现跨文本集的话题分析,该模型通过层次狄利克雷过程(hierarchical Dirichlet processes,HDP)把话题划分为公共话题和文本集特有话题,使模型能更加精确地对文本进行建模.模型采用Gibbs抽样方法进行参数推导,一系列包括Held-Out数据对数似然和模型困惑度指标在内的定量与定性的实验表明,模型不仅能够发现公共话题在不同文本集中的差异,而且能分析各文本集特有的话题;在Held-Out对数似然测度和模型困惑度指标上,PCCLDA相对当前两个主要的CTM模型具有较大的优势. 展开更多
关键词 比较性文本挖掘 部分比较性 部分比较性跨文本集LDA模型 话题模型 GIBBS抽样
下载PDF
基于Lucene.Net的分布式全文检索系统 被引量:11
3
作者 谭文堂 贺明科 李阜 《计算机应用与软件》 CSCD 2009年第9期142-145,共4页
随着互联网的发展,现代信息量急剧增加,人们对于信息的检索要求越来越高,一个好的检索系统必须具有较快的检索速度和较高的查准率。针对海量文本数据提出一种基于Lucene.Net全文检索引擎构建的分布式全文检索系统,使用.NET Remoting实... 随着互联网的发展,现代信息量急剧增加,人们对于信息的检索要求越来越高,一个好的检索系统必须具有较快的检索速度和较高的查准率。针对海量文本数据提出一种基于Lucene.Net全文检索引擎构建的分布式全文检索系统,使用.NET Remoting实现分布式的全文索引与全文检索,具有较好的扩展性和很快的索引与检索速度,并成功地将该技术应用于军队某部信息管理系统,取得了很好的效果。 展开更多
关键词 Lucene.Net.NET REMOTING 分布式 全文检索 全文索引
下载PDF
一种面向多文本集的部分比较性混合模型 被引量:2
4
作者 谭文堂 王桢文 +2 位作者 殷风景 葛斌 肖卫东 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第11期101-107,共7页
针对当前主要的CTM模型只能分析公共话题的缺陷,提出一种PCCMix混合模型来实现跨文本集的话题分析.该模型把多个文本集中的话题划分为公共话题和文本集特有话题,首先根据文本数据建立这两类话题在所有词上的概率分布,再使用期望最大化... 针对当前主要的CTM模型只能分析公共话题的缺陷,提出一种PCCMix混合模型来实现跨文本集的话题分析.该模型把多个文本集中的话题划分为公共话题和文本集特有话题,首先根据文本数据建立这两类话题在所有词上的概率分布,再使用期望最大化算法进行模型的参数估计.实验结果表明,该模型不仅能够发现公共话题在不同文本集中的差异,而且能分析各文本集特有的话题.模型能更精确地对文本建模,具有良好的性能. 展开更多
关键词 概率分布 比较性文本挖掘 部分可比性 PCCMix模型 混合模型
下载PDF
一种面向涌现的比较性话题模型 被引量:2
5
作者 谭文堂 王桢文 +2 位作者 殷风景 葛斌 肖卫东 《国防科技大学学报》 EI CAS CSCD 北大核心 2013年第4期146-155,共10页
提出一种CDCMLDA生成模型来实现跨文本集的话题分析,采用狄利克雷组合多项式模型(Dirichlet Compound Multinomial,DCM)对文本集中词的涌现现象进行建模,把DCM模型和LDA结合起来分析文本集之间话题的差异,采用蒙特卡罗期望最大化方法进... 提出一种CDCMLDA生成模型来实现跨文本集的话题分析,采用狄利克雷组合多项式模型(Dirichlet Compound Multinomial,DCM)对文本集中词的涌现现象进行建模,把DCM模型和LDA结合起来分析文本集之间话题的差异,采用蒙特卡罗期望最大化方法进行参数推导。在多个实际数据集中通过定性和定量的方法对模型进行评价,实验表明,模型不仅能够发现不同文本集间的异同,而且在模型困惑度指标上相对当前两种主要跨文本集的话题模型具有明显的优势。 展开更多
关键词 比较性文本挖掘 涌现 话题模型 CDCMLDA模型
下载PDF
基于多维标度法的专利文本可视化聚类研究 被引量:13
6
作者 郝智勇 贺明科 +1 位作者 谭文堂 张健东 《计算机应用研究》 CSCD 北大核心 2010年第12期4608-4611,共4页
为了从当前海量的专利文本信息资源中迅速准确地获取所需的信息并将其以可视化的形式展现出来,通过研究文本挖掘相关理论和关键技术,结合专利文本的特征及现有的分析方法,提出一种基于多维标度法的专利文本可视化聚类方法,并结合实际进... 为了从当前海量的专利文本信息资源中迅速准确地获取所需的信息并将其以可视化的形式展现出来,通过研究文本挖掘相关理论和关键技术,结合专利文本的特征及现有的分析方法,提出一种基于多维标度法的专利文本可视化聚类方法,并结合实际进行了相关分析讨论。实验结果表明,该方法较好地展现了当前专利技术领域的应用主题分布状态及其关联图谱,可为相关部门的管理决策和技术创新提供有意义的参考和支持。 展开更多
关键词 多维标度法 专利文本 主题 可视化
下载PDF
基于多层最大熵模型的句子主干分析 被引量:4
7
作者 葛斌 封孝生 +1 位作者 谭文堂 肖卫东 《计算机科学》 CSCD 北大核心 2010年第12期156-160,共5页
句子主干分析的主要任务是自动识别句子的主干成分。鉴于汉语句子之间成分的相关性,提出一种多层最大熵模型,它的底层最大熵利用句子的上下文特征识别主干词候选项,高层最大熵利用底层最大熵模型的计算结果,结合句子内的远距离特征和句... 句子主干分析的主要任务是自动识别句子的主干成分。鉴于汉语句子之间成分的相关性,提出一种多层最大熵模型,它的底层最大熵利用句子的上下文特征识别主干词候选项,高层最大熵利用底层最大熵模型的计算结果,结合句子内的远距离特征和句子之间的关系,对底层最大熵模型识别出的主干词候选集进行分析。实验证明,该模型对于简单的主干成分识别正确率较高,对训练语料有一定的依赖;随着语料规模的增长,模型性能缓慢提升。 展开更多
关键词 最大熵 多层最大熵模型 主干词 主干分析 自然语言理解
下载PDF
基于概率生成模型的网络数据分类方法 被引量:2
8
作者 王桢文 肖卫东 谭文堂 《计算机研究与发展》 EI CSCD 北大核心 2013年第12期2642-2650,共9页
利用实体之间的相互关系来对实体进行分类的网络数据分类是数据挖掘的一个重要研究内容.现有的网络数据分类方法普遍根据邻居节点的类别来对节点进行分类.这些方法在同质性程度较高的网络中达到了很高的分类精度.然而在现实世界中,存在... 利用实体之间的相互关系来对实体进行分类的网络数据分类是数据挖掘的一个重要研究内容.现有的网络数据分类方法普遍根据邻居节点的类别来对节点进行分类.这些方法在同质性程度较高的网络中达到了很高的分类精度.然而在现实世界中,存在许多同质性程度很低的网络.在低同质性网络中,大多数相连节点的类别不同,所以现有方法难以正确预测出节点的类别.因此,提出了一种新的网络数据分类方法.其主要思路是建立一个描述网络的概率生成模型.在这个概率生成模型中,将网络中的边作为观察变量,将未知类别节点的类别作为潜在变量.通过吉布斯采样方法对模型进行求解,计算出潜在变量的取值,从而得到未知类别节点的类别.在真实数据集上的对比实验表明,提出的分类方法在低同质性网络上有更好的分类性能. 展开更多
关键词 网络数据 网络数据分类 节点分类 概率生成模型 同质性
下载PDF
网络节点重要度的快速评估方法 被引量:9
9
作者 肖卫东 谭文堂 +1 位作者 葛斌 李芳芳 《系统工程理论与实践》 EI CSSCI CSCD 北大核心 2013年第7期1898-1904,共7页
对网络节点进行重要性评估,快速发掘重要性节点已经成为数据挖掘、复杂网络中的一个基本问题,现有的节点重要度评估方法对于大型网络而言,计算速度较慢.基于电阻网络提出一种快速实用的节点重要度评估方法,该方法利用节点对网络电能消... 对网络节点进行重要性评估,快速发掘重要性节点已经成为数据挖掘、复杂网络中的一个基本问题,现有的节点重要度评估方法对于大型网络而言,计算速度较慢.基于电阻网络提出一种快速实用的节点重要度评估方法,该方法利用节点对网络电能消耗的影响来评估节点的重要度,如果由于一个节点的存在而导致网络平均电能消耗减少,则该节点就越重要,更之则该节点重要度就低.该方法的时间复杂度为O(n^3),在分布式扩展的情况下可达到O(n),实验分析证明了该方法的有效性,而且运算速度快,能处理大规模网络. 展开更多
关键词 网络 节点重要度 电阻网络 电能消耗
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部