期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于HTML文档结构的向量空间模型的改进 被引量:10
1
作者 胡健 陆一鸣 马范援 《情报学报》 CSSCI 北大核心 2005年第4期433-437,共5页
根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能.实验结果表明,PFTF模型... 根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能.实验结果表明,PFTF模型对于这两个方面都有提高. 展开更多
关键词 HTML文档结构 信息检索 向量空间模型文本TREC 向量空间模型 HTML文档 文档结构 向量模型 分布特征 检索性能 标签
下载PDF
基于音素解码的语种识别系统联合自适应算法研究 被引量:3
2
作者 邓妍 张卫强 刘加 《自动化学报》 EI CSCD 北大核心 2012年第4期652-658,共7页
针对真实环境下的语种识别,信道类型和通话内容等非语种方面因素的不同都会造成测试和训练条件的不匹配,从而影响系统的识别性能.本文以音素识别器后接向量空间模型(Phone recognizer followed by vectorspace model,PRVSM)为语种识别系... 针对真实环境下的语种识别,信道类型和通话内容等非语种方面因素的不同都会造成测试和训练条件的不匹配,从而影响系统的识别性能.本文以音素识别器后接向量空间模型(Phone recognizer followed by vectorspace model,PRVSM)为语种识别系统,引入联合自适应算法来解决系统中测试和训练条件的失配问题.研究了三种自适应方法用于系统的不同阶段:1)基于受约束的最大似然线性回归(Constr ained maximum likelihood linear regression,CMLLR)的声学模型自适应;2)基于全局N元文法的音位特征向量自适应;3)VSM模型中的支持向量机(Support vector machines,SVM)自适应.在综合采用多种自适应技术后,PRVSM系统的性能有了较大的提高,在NIST LRE 2009测试库上对于30s、10s和3s的测试段,基于不同音素识别器的PRVSM系统的等错误率(Equal errorrate,EER)分别相对降低了18%~23%、12%~20%以及5%~9%. 展开更多
关键词 语种识别 音素识别器后接向量空间模型 联合自适应 受约束的最大似然线性回归 支持向量机自适应
下载PDF
基于SVM一对多得分规整的语种识别方法
3
作者 王宪亮 袁庆升 +4 位作者 包秀国 张健 万玉龙 周若华 颜永红 《网络新媒体技术》 2015年第6期27-30,47,共5页
提出一种支持向量机(SVM)一对多得分规整的语种识别方法。通过对SVM得分进行规整,提高了各语种得分间的区分性,同时对分类效果较差的SVM分类器更鲁棒。仿真实验基于音素层特征的并行音素识别器后接向量空间模型(PPRVSM)的语种识别系统... 提出一种支持向量机(SVM)一对多得分规整的语种识别方法。通过对SVM得分进行规整,提高了各语种得分间的区分性,同时对分类效果较差的SVM分类器更鲁棒。仿真实验基于音素层特征的并行音素识别器后接向量空间模型(PPRVSM)的语种识别系统上进行,在美国国家标准技术署(NIST)2011年语种识别评测(LRE)30s数据集上的实验表明,提出的规整方法在语种识别性能评价指标EER和min DCF上相对提升2.6%-10.9%。 展开更多
关键词 支持向量 得分规整 并行音素识别器后接向量空间模型
下载PDF
基于鉴别性向量空间模型的语种识别 被引量:1
4
作者 刘巍巍 张卫强 刘加 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第6期796-799,共4页
传统语种识别中训练数据库的规模庞大,对于语种分类有鉴别性的信息大量重叠,且训练数据的不同信道条件、不同来源都会对训练和测试有一定干扰。针对这些问题,提出一种鉴别性向量空间模型(D-VSMs)建模方法。D-VSMs能够自动过滤训练集中... 传统语种识别中训练数据库的规模庞大,对于语种分类有鉴别性的信息大量重叠,且训练数据的不同信道条件、不同来源都会对训练和测试有一定干扰。针对这些问题,提出一种鉴别性向量空间模型(D-VSMs)建模方法。D-VSMs能够自动过滤训练集中信息重叠的数据,使得每一个支持向量机的训练数据都有针对性,从而用较少的训练数据能取得较好的分类效果。在美国国家标准技术局(NIST)2009年语种识别测试中,D-VSMs只用了原训练数据的25%,计算量是传统并行音素识别器后接向量空间模型(PPRVSM)的10%,等错误率在30s、10s和3s的测试条件下分别比传统PPRVSM下降了12.75%、15.89%以及7.33%。 展开更多
关键词 语种识别 鉴别性向量空间模型(D-VSMs) 并行音素识别器后接向量空间模型(PPRVSM)
原文传递
改进的Web链接主题提取算法 被引量:1
5
作者 王卫玲 刘培玉 刘克非 《计算机工程与设计》 CSCD 北大核心 2007年第2期294-296,共3页
HITS算法是影响相当广泛的链接分析算法。但是,深入的研究表明,它很容易产生主题漂移。而HITS算法产生主题漂移的很大一部分原因在于页面被投影到错误的潜在语义基上。提出一种基于权值调整的超链主题提取算法(weightedadjustments base... HITS算法是影响相当广泛的链接分析算法。但是,深入的研究表明,它很容易产生主题漂移。而HITS算法产生主题漂移的很大一部分原因在于页面被投影到错误的潜在语义基上。提出一种基于权值调整的超链主题提取算法(weightedadjustments based hyperlinks topic distillation),先在获得根集的过程中,用改进的权值进行相似度计算,得到相对更为准确的个性化根集,再利用HITS算法计算Web页面的权威值和中心值。实验结果表明,基于权值调整的超链主题提取算法可以很好地改善HITS算法所导致的主题漂移问题,更适合于Web查询的需要。 展开更多
关键词 分析 主题提取 向量空间模型 权值调整 资源发现
下载PDF
基于链接结构和内容相似度的聚焦爬虫系统 被引量:3
6
作者 倪贤贵 蔡明 《计算机工程与设计》 CSCD 北大核心 2008年第7期1709-1710,1763,共3页
介绍了基于链接结构和内容相似度的主题Web Crawler系统结构,重点介绍了其中的联合网页链接结构和内容相似度来计算网页相关度算法。该算法计算种子网页集到抓取网页的链接数目和抓取网页到种子网页集的链接数目,及Web内容与主题的内容... 介绍了基于链接结构和内容相似度的主题Web Crawler系统结构,重点介绍了其中的联合网页链接结构和内容相似度来计算网页相关度算法。该算法计算种子网页集到抓取网页的链接数目和抓取网页到种子网页集的链接数目,及Web内容与主题的内容相似度,综合计算该网页的相关度权值,从中选择权威网页或hub网页作为种子网页,从而提高主题爬虫系统的爬行效率和抓取网页的查准率。 展开更多
关键词 聚焦爬虫 结构 内容相似度 向量空间模型 查准率
下载PDF
基于网页结构与链接关系的中文文本分类方法 被引量:3
7
作者 郭晓 蒋宗礼 《现代电子技术》 2010年第22期54-56,63,共4页
提出一种通过综合考虑网页的HTML结构信息以及网页间的链接关系,修改网页文本在向量空间模型表示中的权值,对网页进行分类的方法。考虑到页面里处在不同HTML标记下的内容具有不同的语义含义,某些特殊标记下的内容具有较重要的意义,对网... 提出一种通过综合考虑网页的HTML结构信息以及网页间的链接关系,修改网页文本在向量空间模型表示中的权值,对网页进行分类的方法。考虑到页面里处在不同HTML标记下的内容具有不同的语义含义,某些特殊标记下的内容具有较重要的意义,对网页的分类起较大的作用,因此对不同标记下的内容赋以不同的权值,可以提高分类效果。考虑到页面正文中链接指向的页面内容与原网页相关度较高,通过综合考虑这些页面的内容,可以有效加强类别关键词的权值,减少噪声,提高分类效果。经过实验证明这一方法提高了分类结果的F1值。 展开更多
关键词 中文文本分类 HTML结构 关系 向量空间模型
下载PDF
Web本体搜索中链接评价方法的设计与实现
8
作者 周文彬 《现代计算机》 2006年第2期27-30,共4页
基于对本体搜索的分析,本文从多个方面对聚焦搜索的链接评价方法进行改进,同时介绍了新方法实现中的多个关键步骤。
关键词 本体搜索 聚焦搜索 评价 向量空间模型 评价方法 WEB
下载PDF
一种基于主题相关度的网页排序算法 被引量:3
9
作者 吴炜 梁昆 +2 位作者 李瑞轩 辜希武 卢正鼎 《微电子学与计算机》 CSCD 北大核心 2008年第9期221-224,共4页
针对现有基于链接结构的PageRank算法的不足,提出了基于网页主题相关度的改进PageRank算法.通过分析网页内容,提取出网页中的链接及其对应的锚文本,建立网页链接库,利用向量空间模型(VSM)计算链接锚文本和网页内容的相关度,在此基础上... 针对现有基于链接结构的PageRank算法的不足,提出了基于网页主题相关度的改进PageRank算法.通过分析网页内容,提取出网页中的链接及其对应的锚文本,建立网页链接库,利用向量空间模型(VSM)计算链接锚文本和网页内容的相关度,在此基础上实现离线计算改进后的PageRank算法.理论分析和仿真实验表明,改进的PageRank算法使用户能方便地找到所需网页,提高了网页查询效率. 展开更多
关键词 网页排序 主题相关度 分析 向量空间模型
下载PDF
融合VSM技术的PageRank算法研究与应用 被引量:4
10
作者 李卫东 陆玲 《计算机与现代化》 2011年第7期96-98,101,104,共5页
为解决PageRank算法存在的"主题漂移"问题,本文提出一种融合VSM(向量空间模型)技术的改进方法。首先根据网页的链接结构计算PageRank值,然后建立网页的内容特征向量空间,计算主题内容相似度,最后将这两个值按一定的权重系数... 为解决PageRank算法存在的"主题漂移"问题,本文提出一种融合VSM(向量空间模型)技术的改进方法。首先根据网页的链接结构计算PageRank值,然后建立网页的内容特征向量空间,计算主题内容相似度,最后将这两个值按一定的权重系数进行融合计算,产生新的PageRank值。经过对比实验证明,改进后的PageRank算法减少了无关网页的数量,为搜索引擎提供了更好的排序结果。 展开更多
关键词 PAGERANK算法 分析 向量空间模型 搜索引擎
下载PDF
带参数的搜索引擎 被引量:1
11
作者 戴先宇 王明文 +1 位作者 吴水秀 张石林 《江西师范大学学报(自然科学版)》 CAS 2002年第4期344-348,共5页
随着Internet上的信息量爆炸式地增长,当前的搜索引擎面临着许多巨大的挑战.该文针对现有搜索引擎中存在的问题提出了带参数的搜索引擎,并给出了参数策略和基于扩展的向量空间模型的识别器的设计.
关键词 机器人 识别器 搜索引擎 向量空间模型 参数策略 数据库 信息查询
下载PDF
基于语义树与VSM的主题爬取策略研究 被引量:1
12
作者 张金 倪晓军 《计算机技术与发展》 2017年第11期66-70,共5页
主题爬虫主要用于解决用户的定制化搜索需求,即在日益增长的网络数据中快速、有效、准确地选取用户关注的主题内容进行爬取。提高爬取特定信息的准确性,需要对网页的内容相关度进行主题相关判断,而主题爬虫关注的核心问题就是相关度计算... 主题爬虫主要用于解决用户的定制化搜索需求,即在日益增长的网络数据中快速、有效、准确地选取用户关注的主题内容进行爬取。提高爬取特定信息的准确性,需要对网页的内容相关度进行主题相关判断,而主题爬虫关注的核心问题就是相关度计算,但现有的改进算法大多采用人工智能和机器学习等技术,不仅引起算法复杂度的提高,而且提升效果有限。为此,提出了一种基于语义树与VSM的主题爬取策略,将语义相似度的计算加入到内容相关度计算与链接排序中,并通过对策略中算法细节的改进优化相关度的主题判别。实验结果表明,使用基于语义树与VSM爬取策略的主题爬虫可将爬行路线一直保持在相关度较高的网页链接中,对网页链接进行了相关与不相关的有效分类,显著地提高了爬取的准确率。 展开更多
关键词 主题爬虫 语义树 向量空间模型 内容相关度 排序
下载PDF
英语链接动词构式语义变化研究--以seem to V和appear to V为例 被引量:1
13
作者 孟庆楠 罗卫华 《外语教学与研究》 CSSCI 北大核心 2022年第4期521-533,638,639,共15页
本研究以“seem to V”和“appear to V”这两个近义链接动词构式为例,借助COCA、COHA语料库及R软件,通过基于类符的语义向量空间模型、聚类分析和对应分析三种可视化手段,对二者在美式英语中的语义变化情况进行定量研究。结果表明:这... 本研究以“seem to V”和“appear to V”这两个近义链接动词构式为例,借助COCA、COHA语料库及R软件,通过基于类符的语义向量空间模型、聚类分析和对应分析三种可视化手段,对二者在美式英语中的语义变化情况进行定量研究。结果表明:这两个构式中搭配词的语义倾向在1900年后均呈现出明显的变化,从而使节点词具有明确的语义分工——seem to多与“认知–施事类”动词连用,表示语言使用者对客观发生事件的主观情感态度,而appear to则主要表现为写实的用法,用于描述可直接感知的物质世界中发生的事件或是客观实体的性质和状态,并逐渐倾向于与静态动词连用。 展开更多
关键词 英语链动词构式 语义向量空间模型 聚类分析 对应分析
原文传递
主题搜索引擎网络爬虫搜索策略的研究与实现 被引量:1
14
作者 陶荣 《信息与电脑(理论版)》 2014年第3期43-44,共2页
文章首先对主题爬虫的结构进行了简单的分析,网络爬虫的搜索策略主要是通过针对传统网络爬虫无目的性抓取网页来设计的。网络爬虫根据一定的相似度计算公式,按照一定的算法步骤来实现抓取。在设计主题爬虫时,要根据互联网网页量大,更新... 文章首先对主题爬虫的结构进行了简单的分析,网络爬虫的搜索策略主要是通过针对传统网络爬虫无目的性抓取网页来设计的。网络爬虫根据一定的相似度计算公式,按照一定的算法步骤来实现抓取。在设计主题爬虫时,要根据互联网网页量大,更新快的特点,设计稳定的系统,制定相关的主题,采取有效的措施提高主题爬虫的抓取效率。 展开更多
关键词 网络爬虫 搜索策略 网页信息 相似度计算 算法步骤 搜索系统 搜索信息 向量空间模型 地址 人为
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部