期刊文献+
共找到169篇文章
< 1 2 9 >
每页显示 20 50 100
基于Paragraph Vector模型的科研热点发现方法
1
作者 郭佳 罗森林 陈倩柔 《电子设计工程》 2018年第20期105-109,共5页
科研热点对科学研究具有指导意义,目前的科研热点发现主要依赖文本聚类技术,针对文本表示存在的特征语义表达能力不强、无法揭示词语之间潜在联系的问题,提出了一种基于Paragraph Vector模型的科研热点发现方法。该方法对文本集使用Para... 科研热点对科学研究具有指导意义,目前的科研热点发现主要依赖文本聚类技术,针对文本表示存在的特征语义表达能力不强、无法揭示词语之间潜在联系的问题,提出了一种基于Paragraph Vector模型的科研热点发现方法。该方法对文本集使用Paragraph Vector模型构建文本语义向量表示,并根据语义向量的相似度计算结果进行聚类分析得到主题集,最后基于主题文本引用特征选择前N个主题作为科研热点。实验结果表明,科研热点发现的聚类评价ARI值为0.452、H值为0.532、C值为0.538、V值为0.535,说明Paragraph Vector的低维空间表示法可通过挖掘词之间的关联属性优化向量语义表示,并能缓解维数灾难问题进而提高了话题发现的准确度。 展开更多
关键词 热点发现 文本聚类 自然语言处理 PARAGRAPH vector
下载PDF
基于主题词向量中心点的K-means文本聚类算法
2
作者 季铎 刘云钊 +1 位作者 彭如香 孔华锋 《计算机应用与软件》 北大核心 2024年第10期282-286,318,共6页
K-means由于其时间复杂度低运行速度快一直是最为流行的聚类算法之一,但是该算法在进行聚类时需要预先给出聚类个数和初始类中心点,其选取得合适与否会直接影响最终聚类效果。该文对初始类中心和迭代类中心的选取进行大量研究,根据决策... K-means由于其时间复杂度低运行速度快一直是最为流行的聚类算法之一,但是该算法在进行聚类时需要预先给出聚类个数和初始类中心点,其选取得合适与否会直接影响最终聚类效果。该文对初始类中心和迭代类中心的选取进行大量研究,根据决策图进行初始类中心的选择,利用每个类簇的主题词向量替代均值作为迭代类中心。实验表明,该文的初始点选取方法能够准确地选取初始点,且利用主题词向量作为迭代类中心能够很好地避免噪声点和噪声特征的影响,很大程度上地提高了K-means算法的性能。 展开更多
关键词 K-MEANS 初始点 决策图 迭代类中心 主题词向量
下载PDF
基于VSM与HITS融合的扩展主题型爬虫
3
作者 陶飞飞 徐佳 +1 位作者 徐松阳 唐明伟 《计算机仿真》 2024年第10期222-226,共5页
目前主流开源爬虫框架在分析页面与主题领域关联性上,常采用基于关键词的量化和向量空间模型算法相融合,但融合疏忽了界面语义与特定主题间的关联,导致爬取内容与主题产生偏差。为了给金融等领域的舆情分析提供准确的数据支撑,提出一种... 目前主流开源爬虫框架在分析页面与主题领域关联性上,常采用基于关键词的量化和向量空间模型算法相融合,但融合疏忽了界面语义与特定主题间的关联,导致爬取内容与主题产生偏差。为了给金融等领域的舆情分析提供准确的数据支撑,提出一种面向领域扩展主题库的爬虫及系统,通过扩展主题特征库,融合向量空间模型(Vector Space Model,VSM)与超链接主题搜索算法(Hyperlink-Induced Topic Search,HITS),优化了主题页面相关度计算,并针对股票舆情信息爬取进行仿真。结果表明,上述扩展主题型爬虫在爬取准确率和效率等方面有较好地提升,能够有效地完成领域主题信息的爬取任务。 展开更多
关键词 扩展主题爬虫 向量空间模型 超链接主题搜索 股票舆情信息
下载PDF
一种有效的专题信息集中和检索策略 被引量:4
4
作者 王宇新 刘海峰 +1 位作者 郭禾 陈鑫 《计算机应用研究》 CSCD 北大核心 2010年第6期2106-2108,共3页
Internet上专题资源网页汇聚和检索是垂直搜索引擎中的核心问题,HITS算法是早期解决这个问题的经典算法,很多文献对它进行了改进,但无论索引的主题相关率还是引擎的查准率都有提高的余地。提出一种基于锚文本和标题信息过滤并结合网页... Internet上专题资源网页汇聚和检索是垂直搜索引擎中的核心问题,HITS算法是早期解决这个问题的经典算法,很多文献对它进行了改进,但无论索引的主题相关率还是引擎的查准率都有提高的余地。提出一种基于锚文本和标题信息过滤并结合网页内容相关度判断的HITS专题检索策略,利用专题训练集判断主题相关度,很好地解决了只依靠查询字符串判断的弊端。实验表明,此策略能很好地提高专题信息汇聚精确度和检索的准确率,并且减少了非相关URL的下载量。 展开更多
关键词 HITS算法 锚文本 网页标题 专题相关度 向量模型 专题训练集
下载PDF
基于用户偏好的垂直搜索算法 被引量:5
5
作者 张磊 陈俊亮 +2 位作者 孟祥武 沈筱彦 郭杰 《电子科技大学学报》 EI CAS CSCD 北大核心 2010年第1期91-96,共6页
提出并研究、实现了基于用户偏好的垂直搜索算法(PVSA)。以领域特征为基本出发点,PVSA借助领域主题偏好向量、领域元数据权重因子、检索名词差异化、行业词典库更新等4项策略,有效地挖掘、表征用户的领域个性化偏好,以此为基础构建基于... 提出并研究、实现了基于用户偏好的垂直搜索算法(PVSA)。以领域特征为基本出发点,PVSA借助领域主题偏好向量、领域元数据权重因子、检索名词差异化、行业词典库更新等4项策略,有效地挖掘、表征用户的领域个性化偏好,以此为基础构建基于用户偏好的垂直搜索算法。实验结果表明了PVSA算法的有效性和可行性。 展开更多
关键词 词库 差异化 领域主题偏好向量 元数据权重因子 用户偏好
下载PDF
基于Internet的农业信息垂直搜索引擎的设计 被引量:6
6
作者 赵洋 滕桂法 +1 位作者 张玉新 何冬梅 《河北农业大学学报》 CAS CSCD 北大核心 2009年第6期125-128,共4页
农业信息化建设的飞速发展,使得互联网上农业信息迅速增长,但由于使用通用搜索引擎检索出的信息庞杂无序,农业主题信息的获取仍十分困难。因此,搜索引擎有向专业化、领域化方向发展的趋势。本文设立了一种基于特征词匹配算法的垂直搜索... 农业信息化建设的飞速发展,使得互联网上农业信息迅速增长,但由于使用通用搜索引擎检索出的信息庞杂无序,农业主题信息的获取仍十分困难。因此,搜索引擎有向专业化、领域化方向发展的趋势。本文设立了一种基于特征词匹配算法的垂直搜索引擎设计方案,该方案通过建立农业信息特征词词典,采用向量空间模型来对网页主题进行识别,从而提高信息检索的准确率。并采用基于超级链接分析的方法,使主题相关的URL优先得到访问,提高了搜索引擎的效率。 展开更多
关键词 垂直搜索引擎 主题识别 向量空间模型 特征词
下载PDF
一种突发性热点话题在线发现与跟踪方法 被引量:23
7
作者 薛峰 周亚东 +3 位作者 高峰 刘霁 赵俊舟 党琪 《西安交通大学学报》 EI CAS CSCD 北大核心 2011年第12期64-69,116,共7页
针对在线发现与跟踪动态突发性文本流中的热点话题问题,在突发性热点词发现与度量方法的基础上提出了一种动态文本模型———动态突发性向量空间模型,用于有效描述文本的动态属性,并且结合文本聚类方法,提出了突发性热点话题的在线发现... 针对在线发现与跟踪动态突发性文本流中的热点话题问题,在突发性热点词发现与度量方法的基础上提出了一种动态文本模型———动态突发性向量空间模型,用于有效描述文本的动态属性,并且结合文本聚类方法,提出了突发性热点话题的在线发现与跟踪方法.该方法可有效解决传统的基于静态向量空间模型的热点话题发现与跟踪方法仅可分析静态文本的缺陷,并具有以下特点:在特征选择阶段动态地生成热点词特征库,利用模型统一文本和话题的表示,在文本表示时给予突发性热点词更大的权重.基于实际网络文本流数据的实验表明,该方法对突发性热点话题发现的精确率与召回率分别达到92.75%和80.34%,显著优于传统的基于静态向量空间模型方法的实验结果,并可有效跟踪突发性热点话题,弥补了传统静态方法不能有效跟踪热点话题的不足. 展开更多
关键词 突发性热点话题 话题发现与跟踪 向量空间模型
下载PDF
基于概念统计和语义层次分析的英文自动文摘研究 被引量:9
8
作者 季姮 罗振声 +1 位作者 万敏 高小云 《中文信息学报》 CSCD 北大核心 2003年第2期14-20,共7页
传统的自动文摘方法基于词语统计抽取文摘句 ,未进行文本的语义分析 ,导致文摘精度不高。为了克服传统方法的缺点 ,本文提出了一种基于主题概念的自动文摘方法 ,以概念统计和层次分析为基础设计并实现了一个英文自动文摘系统。系统利用W... 传统的自动文摘方法基于词语统计抽取文摘句 ,未进行文本的语义分析 ,导致文摘精度不高。为了克服传统方法的缺点 ,本文提出了一种基于主题概念的自动文摘方法 ,以概念统计和层次分析为基础设计并实现了一个英文自动文摘系统。系统利用WordNet以概念统计代替传统的词频统计 ,基于主题概念构建向量空间模型 ,计算句子重要度。并且根据主题概念在概念层次树上的分布进行文本结构分析划分意义块 ,以意义块为单元抽取文摘 ,初步解决了多主题文章的文摘结构不平衡问题。本文主要介绍了概念层次树的构造 ,主题概念的抽取步骤 ,基于主题概念的句子重要度的计算和意义块的划分算法。测试表明 ,通过概念统计和语义层次分析的方法 ,我们设计了更理想的向量空间模型 ,系统生成的文摘精度较高 。 展开更多
关键词 计算机应用 中文信息处理 概念统计 主题概念 向量空间模型 句子重要度 意义块划分
下载PDF
基于概念统计的英文自动文摘研究 被引量:9
9
作者 万敏 罗振声 +1 位作者 季姮 高小云 《计算机工程与应用》 CSCD 北大核心 2002年第24期7-9,16,共4页
文章提出了一种基于概念统计和语义层次分析的自动文摘方法,并以此实现了一个英文自动文摘系统。系统利用WordNet对英文文章进行词语分析,用概念统计的方法选取文章的主题概念,以此构建向量空间模型;并根据主题概念在概念层次树上的分... 文章提出了一种基于概念统计和语义层次分析的自动文摘方法,并以此实现了一个英文自动文摘系统。系统利用WordNet对英文文章进行词语分析,用概念统计的方法选取文章的主题概念,以此构建向量空间模型;并根据主题概念在概念层次树上的分布划分意义块,以意义块为单位抽取文摘,初步解决多主题文章的文摘结构不平衡问题。该文主要介绍概念层次树的构造,主题概念的抽取步骤,句子重要度的计算和意义块的划分算法。测试表明该文提到的方法比传统的基于词频统计的方法有更高的召回率与精确率。 展开更多
关键词 概念统计 英文自动文摘 主题概念 向量空间模型 句子重要度 计算机
下载PDF
一种基于LDA主题模型的话题发现方法 被引量:22
10
作者 郭蓝天 李扬 +2 位作者 慕德俊 杨涛 李哲 《西北工业大学学报》 EI CAS CSCD 北大核心 2016年第4期698-702,共5页
话题发现是提取热点话题并掌握其演化规律的关键技术之一。针对社交网络中海量短文本信息具有高维性导致主题模型难以处理以及主题分布不均导致主题不明确的问题,提出一种基于LDA(latent dirichlet allocation)主题模型的CBOW-LDA主题... 话题发现是提取热点话题并掌握其演化规律的关键技术之一。针对社交网络中海量短文本信息具有高维性导致主题模型难以处理以及主题分布不均导致主题不明确的问题,提出一种基于LDA(latent dirichlet allocation)主题模型的CBOW-LDA主题建模方法,通过引入基于CBOW(continuous bag-of-word)模型的词向量化方法对目标语料进行相似词的聚类,能够有效降低LDA模型输入文本的维度,并且使主题更明确。通过在真实数据集上计算分析,与现有基于词频权重的词向量化LDA方法相比,在相同主题词数情况下困惑度可降低约3%。 展开更多
关键词 词向量 LDA模型 话题发现 困惑度
下载PDF
基于万有引力改进的TextRank关键词提取算法 被引量:6
11
作者 孙福权 张静静 +2 位作者 刘冰玉 姜玉山 多允慧 《计算机应用与软件》 北大核心 2020年第7期216-220,295,共6页
为了提高文本关键词提取的准确性,提出基于万有引力改进的TextRank关键词提取算法GtextRank。利用万有引力模型对词语在文档中的主题影响力、词语间距离和词语间共现频率进行有效融合,构建新的TextRank转移概率实现关键词的提取。实验... 为了提高文本关键词提取的准确性,提出基于万有引力改进的TextRank关键词提取算法GtextRank。利用万有引力模型对词语在文档中的主题影响力、词语间距离和词语间共现频率进行有效融合,构建新的TextRank转移概率实现关键词的提取。实验结果表明,与传统关键词提取方法相比,该算法具有显著的优越性,能够完成对关键词的相对正确的提取;同时考虑了文本中词语的语义关系和主题影响度,可以提高关键词的提取精度。 展开更多
关键词 关键词 主题影响度 词向量 TextRank 万有引力
下载PDF
面向中文新闻话题检测的多向量文本聚类方法 被引量:6
12
作者 李欣雨 袁方 +1 位作者 刘宇 李琮 《郑州大学学报(理学版)》 CAS 北大核心 2016年第2期47-52,共6页
基于多向量模型,给出一种将话题主题信息与话题文本信息相结合的多向量话题表示方式,使用较低的维度来准确表示一个话题.针对传统TFIDF方法在文本分类问题中对特征项在各个类中分布情况考虑不充分的问题,给出了一种TFIDF改进方法.在TDT... 基于多向量模型,给出一种将话题主题信息与话题文本信息相结合的多向量话题表示方式,使用较低的维度来准确表示一个话题.针对传统TFIDF方法在文本分类问题中对特征项在各个类中分布情况考虑不充分的问题,给出了一种TFIDF改进方法.在TDT4的中文语料上,与传统向量空间模型进行了对比实验.实验结果表明,给出的话题表示方法和TFIDF改进算法能够在较低的维度上,使聚类的准确率得到较大提升. 展开更多
关键词 话题检测 多向量模型 TDT4 改进TFIDF算法
下载PDF
命名实体的网络话题K-means动态检测方法 被引量:4
13
作者 刘素芹 柴松 《智能系统学报》 2010年第2期122-126,共5页
针对传统的网络话题检测方法在文本特征表示方面的不足及K-means聚类算法面临的问题,提出了一种基于命名实体的网络话题K-means动态检测方法.该方法对传统话题检测的特征表示方法进行了改进,用命名实体和文本特征词相结合表示文本特征,... 针对传统的网络话题检测方法在文本特征表示方面的不足及K-means聚类算法面临的问题,提出了一种基于命名实体的网络话题K-means动态检测方法.该方法对传统话题检测的特征表示方法进行了改进,用命名实体和文本特征词相结合表示文本特征,用命名实体对文本表示的贡献大小表示命名实体的权重;另外,利用自适应技术对K-means聚类算法中的K值进行自收敛,对K-means聚类算法进行了优化,利用K值的动态选取来实现网络话题的动态检测.实验结果表明,该方法较好地区分了相似话题,有效提高了话题检测的性能. 展开更多
关键词 命名实体 网络话题 动态检测 K—means聚类 自相似度 话题向量
下载PDF
网页去重方法研究 被引量:7
14
作者 樊勇 郑家恒 《计算机工程与应用》 CSCD 北大核心 2009年第12期141-143,183,共4页
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于语义的去重方法。该方法通过句子在文本中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量进行语义相似度... 搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于语义的去重方法。该方法通过句子在文本中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量进行语义相似度计算,把重复的网页去除。实验证明,该方法对全文重复和部分重复的网页都能进行较准确的检测。 展开更多
关键词 组块 主题句向量 网页去重
下载PDF
话题跟踪方法的研究 被引量:3
15
作者 夏春艳 崔广才 李树平 《计算机工程与应用》 CSCD 2012年第15期129-132,共4页
话题跟踪旨在实现对新闻媒体信息流中已知话题的动态跟踪。在现有的向量空间模型分类算法的基础上,提出一种基于话题更新的话题跟踪算法,通过实验对其进行评价。
关键词 话题检测 话题跟踪 向量空间模型 K最近邻居
下载PDF
融合LDA主题模型和支持向量机的商品个性化推荐方法 被引量:8
16
作者 穆晓霞 董星辉 +1 位作者 柴旭清 李钧涛 《郑州大学学报(理学版)》 北大核心 2022年第3期34-39,共6页
针对网络商品评论数据不能有效引导买方做出合理选择的问题,提出一种融合LDA主题模型和支持向量机的商品个性化推荐方法。首先爬取不同类型商品的用户评论数据并对其进行预处理;其次建立基于LDA的主题模型并对其特点进行量化;最后利用... 针对网络商品评论数据不能有效引导买方做出合理选择的问题,提出一种融合LDA主题模型和支持向量机的商品个性化推荐方法。首先爬取不同类型商品的用户评论数据并对其进行预处理;其次建立基于LDA的主题模型并对其特点进行量化;最后利用支持向量机实现商品个性化推荐。以智能手机商品为例进行实验分析,结果表明,所提方法能获得98%以上的分类精度。 展开更多
关键词 LDA主题模型 支持向量机 粒子群优化 个性化推荐
下载PDF
一个基于关联规则的多层文档聚类算法 被引量:4
17
作者 宋江春 沈钧毅 宋擒豹 《计算机应用》 CSCD 北大核心 2005年第7期1570-1572,共3页
提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间... 提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高;使用新的文档特征抽取方法还解决了由于文档关键字过多而导致文档特征向量的维数过高的问题。 展开更多
关键词 文档挖掘 文档聚类 关联规则 文档主题特征向量 文档关键字特征向量
下载PDF
中文文献的层次分类方法 被引量:22
18
作者 战学刚 林鸿飞 姚天顺 《中文信息学报》 CSCD 北大核心 1999年第6期20-25,共6页
现有的分类系统通常忽略类别体系的层次结构,在对文献进行分类时,往往很难区分类别相近的文献属于哪一类。本文基于向量空间模型,提出根据类别体系的层次结构,自顶向下,逐层分类的方法。其目的是提高分类精度;并根据概念词典,将... 现有的分类系统通常忽略类别体系的层次结构,在对文献进行分类时,往往很难区分类别相近的文献属于哪一类。本文基于向量空间模型,提出根据类别体系的层次结构,自顶向下,逐层分类的方法。其目的是提高分类精度;并根据概念词典,将同义词或下位概念映射到单一的概念词上,由这些概念词构成一个规模很小的特征集,以缩小特征向量空间的维数,从而减少分类系统的计算量。此外,通过对类别层次体系的分析,压缩特征向量。 展开更多
关键词 文献分类 向量空间模型 层次分类 中文文献
下载PDF
基于改进向量空间模型的话题识别与跟踪 被引量:23
19
作者 宋丹 王卫东 陈英 《计算机技术与发展》 2006年第9期62-64,67,共4页
话题识别与跟踪旨在发展一系列基于事件的信息组织技术,通过监测以实现对新闻媒体信息流中新话题的自动识别和已知话题的动态跟踪。文中提供一种利用改进的向量空间模型进行识别和跟踪的方法。没有使用传统向量空间模型中单个向量,而是... 话题识别与跟踪旨在发展一系列基于事件的信息组织技术,通过监测以实现对新闻媒体信息流中新话题的自动识别和已知话题的动态跟踪。文中提供一种利用改进的向量空间模型进行识别和跟踪的方法。没有使用传统向量空间模型中单个向量,而是按照语义将特征词划分为4个组(人物、时间、地点、内容)并形成4个向量空间。每个空间进行独立的权重计算和相似度计算。实验证明这些方法是有效的。 展开更多
关键词 话题识别与跟踪 向量空间模型 时间表达
下载PDF
微博突发话题检测方法研究 被引量:13
20
作者 邱云飞 程亮 《计算机工程》 CAS CSCD 2012年第9期288-290,共3页
话题检测与跟踪模型不能很好地处理随意性强、用语不规范的微博短信息。为此,提出一种基于动态滑动窗口的微博突发话题检测方法。利用窗口提取具有潜在突发性的信息,采用结合语义的归一化词频-反文档频率函数计算特征权重,构建结合语义... 话题检测与跟踪模型不能很好地处理随意性强、用语不规范的微博短信息。为此,提出一种基于动态滑动窗口的微博突发话题检测方法。利用窗口提取具有潜在突发性的信息,采用结合语义的归一化词频-反文档频率函数计算特征权重,构建结合语义的空间向量模型,使用Single-Pass聚类算法思想对其加以改进,生成最终聚类。实验结果表明,该算法能获得较准确的突发话题检测结果。 展开更多
关键词 微博 突发话题 滑动窗口 语义相似度 空间向量模型 话题检测与跟踪
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部