期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
结合字词向量的主题向量模型 被引量:2
1
作者 张青 韩立新 刘合兵 《电子测量技术》 2019年第3期49-53,共5页
为了将已有的英文主题向量模型更好地应用于中文的主题向量训练,并且解决主题个数事先确定的缺点。本文将原有模型中,文档向量和词向量线性相加的方式改为内积的方式,并结合文档向量、字向量和词向量三者一起训练主题向量。当得到主题... 为了将已有的英文主题向量模型更好地应用于中文的主题向量训练,并且解决主题个数事先确定的缺点。本文将原有模型中,文档向量和词向量线性相加的方式改为内积的方式,并结合文档向量、字向量和词向量三者一起训练主题向量。当得到主题向量后通过聚类方法将相似的主题聚集在一起,以此来确定主题个数。实验表明,该方法训练出的主题词的相关性较原有模型和传统模型有所提升,并且能够获得较为合理的主题个数,同时,还能够得到词向量,主题向量和文档向量。 展开更多
关键词 主题模型 向量 主题向量 向量 文档向量 字词嵌入
下载PDF
基于主题向量模型的多样化资源选择算法
2
作者 李亮 张芳 《信息技术》 2018年第9期79-83,共5页
检索结果多样化任务下的资源选择是联邦检索的重要研究内容。针对现有显式方法的信息依赖和隐式方法的多样化性能不高,提出在α相关度筛选后得到的相关文档集上,构建子主题向量模型。从文中语义层提取数据源内容特征,提升资源相似度计... 检索结果多样化任务下的资源选择是联邦检索的重要研究内容。针对现有显式方法的信息依赖和隐式方法的多样化性能不高,提出在α相关度筛选后得到的相关文档集上,构建子主题向量模型。从文中语义层提取数据源内容特征,提升资源相似度计算准确度,实现多样化的资源选择。实验显示,基于主题向量模型的资源选择方法表现出更好的性能。 展开更多
关键词 主题向量模型 资源相似度 联邦检索 资源选择 检索结果多样化
下载PDF
基于主题词向量中心点的K-means文本聚类算法
3
作者 季铎 刘云钊 +1 位作者 彭如香 孔华锋 《计算机应用与软件》 北大核心 2024年第10期282-286,318,共6页
K-means由于其时间复杂度低运行速度快一直是最为流行的聚类算法之一,但是该算法在进行聚类时需要预先给出聚类个数和初始类中心点,其选取得合适与否会直接影响最终聚类效果。该文对初始类中心和迭代类中心的选取进行大量研究,根据决策... K-means由于其时间复杂度低运行速度快一直是最为流行的聚类算法之一,但是该算法在进行聚类时需要预先给出聚类个数和初始类中心点,其选取得合适与否会直接影响最终聚类效果。该文对初始类中心和迭代类中心的选取进行大量研究,根据决策图进行初始类中心的选择,利用每个类簇的主题词向量替代均值作为迭代类中心。实验表明,该文的初始点选取方法能够准确地选取初始点,且利用主题词向量作为迭代类中心能够很好地避免噪声点和噪声特征的影响,很大程度上地提高了K-means算法的性能。 展开更多
关键词 K-MEANS 初始点 决策图 迭代类中心 主题向量
下载PDF
一种基于自适应重心向量的主题检测方法 被引量:2
4
作者 潘渊 李弼程 张先飞 《计算机工程》 CAS CSCD 北大核心 2009年第3期80-82,共3页
针对影响主题检测性能的2个重要因素——相似主题的判定和主题漂移问题,提出一种基于自适应重心向量的主题检测方法。该方法将命名实体信息应用到特征表示上,将命名实体向量和关键词向量相结合表示主题的重心向量,以有效区分相似主题。... 针对影响主题检测性能的2个重要因素——相似主题的判定和主题漂移问题,提出一种基于自适应重心向量的主题检测方法。该方法将命名实体信息应用到特征表示上,将命名实体向量和关键词向量相结合表示主题的重心向量,以有效区分相似主题。采用增量聚类检测主题,在增量聚类过程中不断修正主题重心,以解决主题漂移的问题。实验结果与性能比较表明,该方法能有效提高主题检测的性能。 展开更多
关键词 主题检测 主题漂移 命名实体 主题重心向量
下载PDF
基于上下文词向量和主题模型的实体消歧方法 被引量:12
5
作者 王瑞 李弼程 杜文倩 《中文信息学报》 CSCD 北大核心 2019年第11期46-56,共11页
传统词向量训练模型仅考虑词共现而未考虑词序,语义表达能力弱。此外,现有实体消歧方法没有考虑实体的局部特征。综合实体的全局特征和局部特征,该文提出一种基于上下文词向量和主题模型的实体消歧方法。首先,在传统词向量模型上增加上... 传统词向量训练模型仅考虑词共现而未考虑词序,语义表达能力弱。此外,现有实体消歧方法没有考虑实体的局部特征。综合实体的全局特征和局部特征,该文提出一种基于上下文词向量和主题模型的实体消歧方法。首先,在传统词向量模型上增加上下文方向向量,用于表征语序,并利用该模型与主题模型训练主题词向量;其次,分别计算实体上下文相似度、基于实体上下文主题的类别主题相似度以及基于主题词向量的实体主题相似度;最后,融合三种相似度,选择相似度最高的实体作为最终消歧实体。实验结果表明,相比于现有的主流消歧方法,新方法是有效的。 展开更多
关键词 上下文词向量 实体消歧 知识库 主题向量 主题模型
下载PDF
基于主题词向量聚类的话题内新事件检测 被引量:5
6
作者 郭磊 李弼程 赵军磊 《中文信息学报》 CSCD 北大核心 2019年第6期64-71,79,共9页
目前关于话题内新事件检测的研究较少,传统的新事件检测方法多采用基于主题模型的方法,无法兼顾主题信息和语义信息,效果不够理想。针对该问题,该文提出一种基于主题词向量聚类的话题内新事件检测方法。该方法首先使用主题词嵌入(TWE)... 目前关于话题内新事件检测的研究较少,传统的新事件检测方法多采用基于主题模型的方法,无法兼顾主题信息和语义信息,效果不够理想。针对该问题,该文提出一种基于主题词向量聚类的话题内新事件检测方法。该方法首先使用主题词嵌入(TWE)模型对经过预处理的语料进行训练,获取主题词向量;其次,通过对主题词向量进行K-means聚类来获取话题分布;再次,按照话题内新事件检测流程,将新事件检测问题转化为新子话题发现问题;最后,利用获取到的话题分布,对按时间顺序的文档进行检测。实验结果表明,该方法能够兼顾主题信息和语义信息,有效提高话题内新事件检测的性能。 展开更多
关键词 话题内新事件检测 主题向量 K-MEANS聚类
下载PDF
基于HDP的主题词向量构造——以柬语为例
7
作者 李超 严馨 +3 位作者 谢俊 徐广义 周枫 莫源源 《计算机工程与科学》 CSCD 北大核心 2020年第6期1111-1119,共9页
针对单一词向量中存在的一词多义和一义多词的问题,以柬语为例提出了一种基于HDP主题模型的主题词向量的构造方法。在单一词向量基础上融入了主题信息,首先通过HDP主题模型得到单词主题标签,然后将其视为伪单词与单词一起输入Skip-Gram... 针对单一词向量中存在的一词多义和一义多词的问题,以柬语为例提出了一种基于HDP主题模型的主题词向量的构造方法。在单一词向量基础上融入了主题信息,首先通过HDP主题模型得到单词主题标签,然后将其视为伪单词与单词一起输入Skip-Gram模型,同时训练出主题向量和词向量,最后将文本主题信息的主题向量与单词训练后得到的词向量进行级联,获得文本中每个词的主题词向量。与未融入主题信息的词向量模型相比,该方法在单词相似度和文本分类方面均取得了更好的效果,获取的主题词向量具有更多的语义信息。 展开更多
关键词 HDP主题模型 主题向量 Skip-Gram模型
下载PDF
基于主题分析的用户评论聚类方法 被引量:4
8
作者 张会兵 钟昊 胡晓丽 《计算机科学》 CSCD 北大核心 2019年第8期50-55,共6页
在社会化商务中对用户评论进行合理的聚类分析有利于商家提供精准服务或推荐信息,文中提出了一种基于主题分析的用户评论聚类方法。根据主题词在用户评论中的互信息强度以及主题词之间的相似度计算主题词权重,并依此构建用户评论主题向... 在社会化商务中对用户评论进行合理的聚类分析有利于商家提供精准服务或推荐信息,文中提出了一种基于主题分析的用户评论聚类方法。根据主题词在用户评论中的互信息强度以及主题词之间的相似度计算主题词权重,并依此构建用户评论主题向量。在此基础上,提出了一种基于用户评论相似度自动选择canopy聚类算法初始阈值的自适应canopy+kmeans聚类算法,对主题向量进行聚类分析。在亚马逊的评论数据上进行测试,结果表明:该方法充分描述了用户评论中不同主题词对用户观点的突出程度不同,并改善了K-means聚类算法易陷入局部最优的缺点,与传统的LDA+K-means算法相比,取得了更好的效果。 展开更多
关键词 用户评论 主题分析 主题向量 自适应聚类
下载PDF
应用主题爬虫的电力网络舆情数据采集 被引量:6
9
作者 奚增辉 王卫斌 +1 位作者 陆嘉铭 瞿海妮 《西安工程大学学报》 CAS 2022年第2期72-78,共7页
传统电力网络舆情数据采集方法存在召回率低、计算准确率不高以及耗时长等问题,为此,利用主题爬虫技术对数据采集方法进行改进。首先,采用主题爬虫技术搭建数据采集框架,以框架为基础,构建网络舆情的主题向量;其次,定义网络舆情主题及... 传统电力网络舆情数据采集方法存在召回率低、计算准确率不高以及耗时长等问题,为此,利用主题爬虫技术对数据采集方法进行改进。首先,采用主题爬虫技术搭建数据采集框架,以框架为基础,构建网络舆情的主题向量;其次,定义网络舆情主题及关键字,利用相似度模型计算关键字向量与电力网页的相似度,并添加到网络爬虫队列中;最后,采用最佳优先搜索策略,将最高相似度网页设定为第一优先级,下载并存储网络舆情相关数据,完成数据爬取,实现数据采集。实验结果表明,本中方法平均召回率高达92%,网页相似性计算准确率高于90%,且数据采集耗时均值为36 min,均优于对比方法。 展开更多
关键词 网络爬虫 电力网络 网络舆情 主题向量 数据采集 主题索引
下载PDF
基于用户偏好的垂直搜索算法 被引量:5
10
作者 张磊 陈俊亮 +2 位作者 孟祥武 沈筱彦 郭杰 《电子科技大学学报》 EI CAS CSCD 北大核心 2010年第1期91-96,共6页
提出并研究、实现了基于用户偏好的垂直搜索算法(PVSA)。以领域特征为基本出发点,PVSA借助领域主题偏好向量、领域元数据权重因子、检索名词差异化、行业词典库更新等4项策略,有效地挖掘、表征用户的领域个性化偏好,以此为基础构建基于... 提出并研究、实现了基于用户偏好的垂直搜索算法(PVSA)。以领域特征为基本出发点,PVSA借助领域主题偏好向量、领域元数据权重因子、检索名词差异化、行业词典库更新等4项策略,有效地挖掘、表征用户的领域个性化偏好,以此为基础构建基于用户偏好的垂直搜索算法。实验结果表明了PVSA算法的有效性和可行性。 展开更多
关键词 词库 差异化 领域主题偏好向量 元数据权重因子 用户偏好
下载PDF
网页去重方法研究 被引量:7
11
作者 樊勇 郑家恒 《计算机工程与应用》 CSCD 北大核心 2009年第12期141-143,183,共4页
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于语义的去重方法。该方法通过句子在文本中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量进行语义相似度... 搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于语义的去重方法。该方法通过句子在文本中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量进行语义相似度计算,把重复的网页去除。实验证明,该方法对全文重复和部分重复的网页都能进行较准确的检测。 展开更多
关键词 组块 主题向量 网页去重
下载PDF
一个基于双向近邻技术的多层文档聚类算法 被引量:3
12
作者 宋江春 沈钧毅 《情报学报》 CSSCI 北大核心 2006年第4期488-492,共5页
提出了一个新的基于双向近邻技术的多层文档聚类算法.使用新的文档特征抽取方法构造了文档的主题和关键字特征向量.首先在主题特征向量空间中,改进了传统的最近邻技术,使最近邻概念由单向变为双向.利用改进后的方法对文档进行初始聚类,... 提出了一个新的基于双向近邻技术的多层文档聚类算法.使用新的文档特征抽取方法构造了文档的主题和关键字特征向量.首先在主题特征向量空间中,改进了传统的最近邻技术,使最近邻概念由单向变为双向.利用改进后的方法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类.由于使用了两层聚类方法,使算法的效率和精度都大大提高.最后对算法的有效性、可伸缩性和时间复杂度进行了研究. 展开更多
关键词 文档聚类 最近邻技术 双向最近邻 文档主题特征向量 主题关键字特征向量
下载PDF
一个基于关联规则的多层文档聚类算法 被引量:4
13
作者 宋江春 沈钧毅 宋擒豹 《计算机应用》 CSCD 北大核心 2005年第7期1570-1572,共3页
提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间... 提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高;使用新的文档特征抽取方法还解决了由于文档关键字过多而导致文档特征向量的维数过高的问题。 展开更多
关键词 文档挖掘 文档聚类 关联规则 文档主题特征向量 文档关键字特征向量
下载PDF
基于模糊隶属度的个性化网页推荐系统
14
作者 张培颖 《计算机系统应用》 2008年第11期11-13,共3页
个性化信息服务越来越成为信息检索领域中研究的热点。针对用户模型的构造问题,文章利用用户浏览过的网页历史记录自动进行文本结构分析,获取网页信息的逻辑表示,将段落作为识别用户兴趣的基本要素,利用段落间的聚类分析和对用户兴趣的... 个性化信息服务越来越成为信息检索领域中研究的热点。针对用户模型的构造问题,文章利用用户浏览过的网页历史记录自动进行文本结构分析,获取网页信息的逻辑表示,将段落作为识别用户兴趣的基本要素,利用段落间的聚类分析和对用户兴趣的表达能力,获取最终的用户兴趣特征向量。提出了一种基于主题描述的二级层次用户模型,并给出了用户模型的动态调整算法,构建了一个基于模糊隶属度的个性化网页推荐系统。模拟实验表明,该用户模型和个性化推荐算法能够有效地提高检索结果的准确性,并且具有良好的适应性。 展开更多
关键词 模糊隶属度 用户模型 主题特征向量 聚类分析
下载PDF
一种基于网络表示学习的生活模式挖掘方法
15
作者 蔡郑 贾利娟 孙扬清 《电脑知识与技术》 2020年第31期81-85,共5页
近几年,随着移动终端设备的普及以及移动社交网络的发展,大量的时空信息数据得以被采集并上传到网络云端,使得获取时空信息变得相对简单。随着相关数据的累积,越来越多的学者开始投入到相关的研究之中。该文通过网络表示学习的方法对时... 近几年,随着移动终端设备的普及以及移动社交网络的发展,大量的时空信息数据得以被采集并上传到网络云端,使得获取时空信息变得相对简单。随着相关数据的累积,越来越多的学者开始投入到相关的研究之中。该文通过网络表示学习的方法对时空信息进行了预处理,再结合自然语言处理将用户一定时间范围内的活动通过主题向量来表示,然后通过聚类和频繁模式发掘等方法发掘出用户的生活模式。实验结果验证了本文方法的有效性。 展开更多
关键词 时空信息 语义 网络表示 主题向量 生活模式
下载PDF
面向交通管理领域的分类索引算法 被引量:2
16
作者 李云鹏 熊桂喜 《计算机工程》 CAS CSCD 北大核心 2009年第20期276-277,280,共3页
通过计算数据集与样本集在主题特征向量上的相似度对数据集进行信息筛选与分类处理,以便有效地组织和分析交通管理领域内的数据资源,使查询结果分布在最相关的数据集中。利用Hadoop分布式应用程序框架使各工作节点协同完成索引的构建。... 通过计算数据集与样本集在主题特征向量上的相似度对数据集进行信息筛选与分类处理,以便有效地组织和分析交通管理领域内的数据资源,使查询结果分布在最相关的数据集中。利用Hadoop分布式应用程序框架使各工作节点协同完成索引的构建。根据用户查询的类别,只在最相关主题索引库中进行查找,以提高检索效率。 展开更多
关键词 主题特征向量 分类索引 交通管理
下载PDF
基于联合主题特征的网络新闻文本蕴含环境污染事件检测 被引量:5
17
作者 黄宗财 仇培元 +1 位作者 陆锋 吴升 《地球信息科学学报》 CSCD 北大核心 2019年第10期1510-1517,共8页
网络新闻文本在环境污染事件感知方面具有重要的应用价值。然而,由于环境污染事件的"多米诺效应",网络新闻文本往往存在对多类型污染事件的混合描述,现有事件检测方法容易导致文本分类错误。本文提出一种基于联合主题特征的... 网络新闻文本在环境污染事件感知方面具有重要的应用价值。然而,由于环境污染事件的"多米诺效应",网络新闻文本往往存在对多类型污染事件的混合描述,现有事件检测方法容易导致文本分类错误。本文提出一种基于联合主题特征的网络新闻文本蕴含环境污染事件检测方法,通过兼顾环境网络新闻文本的全局特征和主题分布特征来改善检测分类效果。该方法采用词频-逆文档频率向量对文档进行全局特征表示,并结合文档的主题分布特征向量,构建联合主题特征向量作为监督分类模型的输入,实现环境污染事件检测。实验结果表明,使用联合主题特征的支持向量机方法进行事件类别检测平均F1值相较于全局特征提高15%,相较于主题特征提高36%。本文提出的网络新闻文本蕴含环境污染事件检测方法可支持污染事件类型检测和影响信息抽取,有助于环境污染事件的时空统计与变化趋势预测。 展开更多
关键词 网络新闻文本 事件检测 环境污染事件 联合主题特征向量 词频-逆文档频率向量 支持向量
原文传递
基于多元相似度融合的中文命名实体消歧方法
18
作者 石水倩 金晶 +2 位作者 沈耕宇 王宝佳 任妮 《数据分析与知识发现》 EI CSSCI CSCD 北大核心 2024年第2期56-64,共9页
【目的】解决文本中多个不同含义的同名实体在映射到知识库时产生的歧义问题,提高实体消歧的准确率。【方法】提出一种多元相似度融合方法,考虑实体上下文的语义相似度、实体属性的背景相似度和主题词的主题相似度,对实体进行刻画。【... 【目的】解决文本中多个不同含义的同名实体在映射到知识库时产生的歧义问题,提高实体消歧的准确率。【方法】提出一种多元相似度融合方法,考虑实体上下文的语义相似度、实体属性的背景相似度和主题词的主题相似度,对实体进行刻画。【结果】在维基百科农业方向数据集上的实验结果表明,本文所提方法准确率为89.7%,优于传统方法。【局限】方法仅在特定领域适用。【结论】本文所提多元相似度融合方法较传统方法和主流消歧方法具有更高的实体消歧准确率,能够解决特定领域的实体消歧问题,未来可将其应用于更广泛的实体消歧场景中。 展开更多
关键词 实体消歧 相似度 上下文词向量 实体属性 主题向量
原文传递
基于多特征多分类器集成的专利自动分类研究 被引量:10
19
作者 贾杉杉 刘畅 +2 位作者 孙连英 刘小安 彭涛 《数据分析与知识发现》 CSSCI CSCD 2017年第8期76-84,共9页
【目的】为了准确地给专利申请书分配IPC分类号,本文提出一种基于多特征多分类器集成的专利自动分类方法。【方法】使用从专利申请书中提取的全词典TFIDF特征、信息增益词典TFIDF特征、段落向量特征、主题模型向量特征,分别训练朴素贝... 【目的】为了准确地给专利申请书分配IPC分类号,本文提出一种基于多特征多分类器集成的专利自动分类方法。【方法】使用从专利申请书中提取的全词典TFIDF特征、信息增益词典TFIDF特征、段落向量特征、主题模型向量特征,分别训练朴素贝叶斯、支持向量机、AdaBoost分类器,以此构建特征–类别矩阵,并结合F1权重矩阵集成,获得最终IPC预测分类号。【结果】对2014年–2016年"发动机或泵"领域的10个小类进行分类,使用Top Prediction、All Categories和Two Guesses三种评估方法得到准确率分别为:78.9%、80.1%、91.2%。【局限】训练仅仅使用了2014年–2016年共三年的专利数据,数据规模有限。【结论】在"发动机或泵"领域,本文方法能够有效地提高专利文本分类的准确率。 展开更多
关键词 专利分类 段落向量 主题向量 分类器集成
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部