期刊文献+
共找到89篇文章
< 1 2 5 >
每页显示 20 50 100
Document Clustering Based on Constructing Density Tree
1
作者 戴维迪 王文俊 +2 位作者 侯越先 王英 张璐 《Transactions of Tianjin University》 EI CAS 2008年第1期21-26,共6页
This paper focuses on document clustering by clustering algorithm based on a DEnsityTree (CABDET) to improve the accuracy of clustering. The CABDET method constructs a density-based treestructure for every potential c... This paper focuses on document clustering by clustering algorithm based on a DEnsityTree (CABDET) to improve the accuracy of clustering. The CABDET method constructs a density-based treestructure for every potential cluster by dynamically adjusting the radius of neighborhood according to local density. It avoids density-based spatial clustering of applications with noise (DBSCAN) ′s global density parameters and reduces input parameters to one. The results of experiment on real document show that CABDET achieves better accuracy of clustering than DBSCAN method. The CABDET algorithm obtains the max F-measure value 0.347 with the root node's radius of neighborhood 0.80, which is higher than 0.332 of DBSCAN with the radius of neighborhood 0.65 and the minimum number of objects 6. 展开更多
关键词 document handling clustering tree structure vector space model
下载PDF
Automatic Arabic Document Classification via kNN
2
作者 HANI M. O. Iwidat 《Computer Aided Drafting,Design and Manufacturing》 2008年第2期65-73,共9页
Many algorithms have been implemented for the problem of document categorization. The majority work in this area was achieved for English text, while a very few approaches have been introduced for the Arabic text. The... Many algorithms have been implemented for the problem of document categorization. The majority work in this area was achieved for English text, while a very few approaches have been introduced for the Arabic text. The nature of Arabic text is different from that of the English text and the preprocessing of the Arabic text is more challenging. This is due to Arabic language is a highly inflectional and derivational language that makes document mining a hard and complex task. In this paper, we present an Automatic Arabic documents classification system based on kNN algorithm. Also, we develop an approach to solve keywords extraction and reduction problems by using Document Frequency (DF) threshold method. The results indicate that the ability of the kNN to deal with Arabic text outperforms the other existing systems. The proposed system reached 0.95 micro-recall scores with 850 Arabic texts in 6 different categories. 展开更多
关键词 Arabic documents classification KNN vector model keywords extraction
下载PDF
Immune Algorithm For Document Query Optimization
3
作者 WangZiqiang FengBoqin 《工程科学(英文版)》 2005年第1期89-93,共5页
To efficiently retrieve relevant document from the rapid proliferation of large information collections, a novel immune algorithm for document query optimization is proposed. The essential ideal of the immune algorith... To efficiently retrieve relevant document from the rapid proliferation of large information collections, a novel immune algorithm for document query optimization is proposed. The essential ideal of the immune algorithm is that the crossover and mutation of operator are constructed according to its own characteristics of information retrieval. Immune operator is adopted to avoid degeneracy. Relevant documents retrieved are merged to a single document list according to rank formula. Experimental results show that the novel immune algorithm can lead to substantial improvements of relevant document retrieval effectiveness. 展开更多
关键词 免疫算法 信息检索 文件查询优化 失量空间模型
下载PDF
矢量空间数据文档存储模型研究
4
作者 付艳丽 邵飞 王海斌 《电脑与信息技术》 2024年第3期78-81,共4页
针对海量空间数据量PB级数据存储的问题,分析No SQL数据库中分布式文件存储数据库在海量数据的存储和访问上的优势,分析基于分布式文件存储的数据库MongoDB的存储格式,研究矢量空间数据文档存储模型。针对矢量空间数据的点、线、多边形... 针对海量空间数据量PB级数据存储的问题,分析No SQL数据库中分布式文件存储数据库在海量数据的存储和访问上的优势,分析基于分布式文件存储的数据库MongoDB的存储格式,研究矢量空间数据文档存储模型。针对矢量空间数据的点、线、多边形等几何形态,设计基于文档存储的矢量空间数据存储模型,实现了矢量空间数据在文档存储数据库MongoDB中的存储。针对矢量空间数据在文件存储数据库中的应用效率问题,提出未来工作将围绕文件存储数据库中矢量空间数据拓扑查询及查询效率展开。 展开更多
关键词 矢量空间数据 文档存储模型 NOSQL MONGODB
下载PDF
基于SVG的空间信息描述与可视化表达 被引量:32
5
作者 李清泉 谢智颖 +1 位作者 左小清 王冲 《测绘学报》 EI CSCD 北大核心 2005年第1期58-63,共6页
SVG是移动互联时代随时随地获得各种丰富图形信息的有效方法,在LBS系统中,它也可以是空间信息描述与表达的有效方法。本文首先研究了空间信息与SVG标记间的映射关系,其次研究了SVG表示空间信息的生成方法,然后基于SVG的树状结构,在分析... SVG是移动互联时代随时随地获得各种丰富图形信息的有效方法,在LBS系统中,它也可以是空间信息描述与表达的有效方法。本文首先研究了空间信息与SVG标记间的映射关系,其次研究了SVG表示空间信息的生成方法,然后基于SVG的树状结构,在分析XML各种解析模式与图形元素渲染过程的基础上,提出了采用"pull"模式和DVR视图相结合的SVG解析与渲染方法,最后以复杂地物和考虑层控制策略时多层数据的SVG渲染结果,说明  收稿日期:2003 08 11;修回日期:2004 09 09基金项目:国家高科技研究发展计划资助项目(2001AA136031);国家自然科学基金资助项目(40271093,40401051);武汉市科技计划资助项目(20021002044)作者简介:李清泉(1965 ),男,安徽天长人,博士,教授,博导。主要从事空间数据模型、空间信息服务、激光测量技术、无线通信等方面的理论与技术研究。95第1期             李清泉等:基于SVG的空间信息描述与可视化表达采用SVG这种开放的图形格式描述与表达空间信息是可行的,并且在空间信息移动服务中可以解决客户端多样性问题,有利于空间信息服务的普及与推广。 展开更多
关键词 SVG 渲染 空间信息服务 图形元素 图形格式 可视化 XML 地物 LBS 描述
下载PDF
中文文本分类中基于词性的特征提取方法研究 被引量:26
6
作者 胡燕 吴虎子 钟珞 《武汉理工大学学报》 CAS CSCD 北大核心 2007年第4期132-135,共4页
在介绍常用的文本分类中特征词提取方法的基础上,提出了一种全新的,适用于中文文本分类的特征提取方法———基于词性的特征提取方法,实验结果显示,这种基于词性的特征提取方法在提高特征提取效率和降低特征向量维数方面都有显著改善。
关键词 中文文本分类 向量空间模型 特征提取
下载PDF
基于向量空间模型和专利文献特征的相似专利确定方法 被引量:12
7
作者 陈芨熙 顾新建 +1 位作者 陈国海 魏江 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2009年第10期1848-1852,1869,共6页
为了确定专利文献的相似性,帮助企业进行专利申请、保护和利用,提出基于向量空间模型(VSM)和专利文献特征的相似专利确定方法.依据专利文献的信息特征构建专利模型树,定义了专利模型树和专利模型树的节点.通过分析专利模型树的节点属性... 为了确定专利文献的相似性,帮助企业进行专利申请、保护和利用,提出基于向量空间模型(VSM)和专利文献特征的相似专利确定方法.依据专利文献的信息特征构建专利模型树,定义了专利模型树和专利模型树的节点.通过分析专利模型树的节点属性值,采用基于向量空间模型的文本分类技术,以专利名称和专利摘要的加权相似度作为专利文献分类的依据,对专利文献进行分类,然后在类内根据专利文献特征的相似性确定相似专利,并根据企业的实际应用需求,分析专利文献要素权重确定的几种方法.应用示例验证了该方法能够有效地进行专利分类和相似专利检索. 展开更多
关键词 专利文献 专利检索 文本分类 向量空间模型
下载PDF
中文文献的层次分类方法 被引量:22
8
作者 战学刚 林鸿飞 姚天顺 《中文信息学报》 CSCD 北大核心 1999年第6期20-25,共6页
现有的分类系统通常忽略类别体系的层次结构,在对文献进行分类时,往往很难区分类别相近的文献属于哪一类。本文基于向量空间模型,提出根据类别体系的层次结构,自顶向下,逐层分类的方法。其目的是提高分类精度;并根据概念词典,将... 现有的分类系统通常忽略类别体系的层次结构,在对文献进行分类时,往往很难区分类别相近的文献属于哪一类。本文基于向量空间模型,提出根据类别体系的层次结构,自顶向下,逐层分类的方法。其目的是提高分类精度;并根据概念词典,将同义词或下位概念映射到单一的概念词上,由这些概念词构成一个规模很小的特征集,以缩小特征向量空间的维数,从而减少分类系统的计算量。此外,通过对类别层次体系的分析,压缩特征向量。 展开更多
关键词 文献分类 向量空间模型 层次分类 中文文献
下载PDF
基于三维文档向量的自适应话题追踪器模型 被引量:11
9
作者 张辉 周敬民 +1 位作者 王亮 赵莉萍 《中文信息学报》 CSCD 北大核心 2010年第5期70-76,共7页
话题追踪(TT)是研究自动追踪事件动态发展过程的一种信息智能获取技术,是话题检测与追踪(TDT)技术的一个子任务,其目标在于自动发现新闻报道信息流中与某一已知话题有关的新报道。该文通过分析传统文档向量空间模型的不足,结合新闻报道... 话题追踪(TT)是研究自动追踪事件动态发展过程的一种信息智能获取技术,是话题检测与追踪(TDT)技术的一个子任务,其目标在于自动发现新闻报道信息流中与某一已知话题有关的新报道。该文通过分析传统文档向量空间模型的不足,结合新闻报道的特征,提出了一种三维文档向量模型,在此基础上建立了一种符合新闻报道特征的话题模型。该话题模型在追踪过程中能够根据事件的动态发展进行自我学习和自我修正。结合话题模型,该文还设计了一种自适应的KNN新闻话题追踪器,从而形成了一种完整的中文话题追踪器模型。实验数据表明该方法在描述新闻话题、避免话题漂移方面具有一定优势,在中文话题追踪领域取得了较好效果。 展开更多
关键词 话题追踪 话题模型 三维文档向量模型 自适应KNN追踪器
下载PDF
文本分类系统关键技术 被引量:7
10
作者 谢科 张辉 +1 位作者 陈鹏 庞斌 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第2期123-126,共4页
从自然语言的角度考虑词性选择,同时从统计学角度考虑删除文档频率过低的特征词,从而避免产生维数灾难,通过考查类别本身特征和类别之间的关系来提取类别特征向量,采用传统夹角余弦公式考查文本与类别的相似度,实现一种过程简单,易于理... 从自然语言的角度考虑词性选择,同时从统计学角度考虑删除文档频率过低的特征词,从而避免产生维数灾难,通过考查类别本身特征和类别之间的关系来提取类别特征向量,采用传统夹角余弦公式考查文本与类别的相似度,实现一种过程简单,易于理解且分类效果不错的文本分类系统。 展开更多
关键词 文本分类 夹角余弦 向量空间模型 特征
下载PDF
一种用于文本聚类的改进k-means算法 被引量:34
11
作者 索红光 王玉伟 《山东大学学报(理学版)》 CAS CSCD 北大核心 2008年第1期60-64,共5页
k-means是目前常用的文本聚类算法,针对其最终搜索的局部极值与全局最优解偏差较大的缺点,采用一种基于局部搜索优化的思想来改进算法,并推导出目标函数的变化公式。根据目标函数值的改变对聚类结果作再次划分后,继续k-means迭代,拓展... k-means是目前常用的文本聚类算法,针对其最终搜索的局部极值与全局最优解偏差较大的缺点,采用一种基于局部搜索优化的思想来改进算法,并推导出目标函数的变化公式。根据目标函数值的改变对聚类结果作再次划分后,继续k-means迭代,拓展其搜索范围。理论分析和实验结果表明修改后的算法能有效地提高聚类的质量,且计算复杂度仍与数据集文本总数呈线性变化。 展开更多
关键词 文本聚类 K-MEANS 向量空间模型 局部迭代
下载PDF
基于TFIDF文本特征加权方法的改进研究 被引量:37
12
作者 张保富 施化吉 马素琴 《计算机应用与软件》 CSCD 2011年第2期17-20,共4页
针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献... 针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献的特征项被赋予较大权值的缺陷,能更有效计算文本特征项的权重。实验结果表明该方法提高了文本分类的精确度和召回率,是一种比较有效的文本特征加权方法。 展开更多
关键词 TFIDF 文本分类 特征加权 向量空间模型
下载PDF
基于词频统计的个性化信息过滤技术 被引量:12
13
作者 张国印 陈先 皮鹏 《哈尔滨工程大学学报》 EI CAS CSCD 2003年第1期63-67,共5页
对Internet信息进行过滤,筛选出与用户兴趣最相符的文档,是智能搜索引擎要解决的一个重要问题.本文在介绍搜索引擎基本原理的基础上,提出了一种文档学习和用户个性词典构建的实现方法,其中包括内码转换、分词、摘词处理、用户个性词典... 对Internet信息进行过滤,筛选出与用户兴趣最相符的文档,是智能搜索引擎要解决的一个重要问题.本文在介绍搜索引擎基本原理的基础上,提出了一种文档学习和用户个性词典构建的实现方法,其中包括内码转换、分词、摘词处理、用户个性词典的构建及词条权值调整等环节.然后提出了一种基于词频统计的个性化文档过滤算法,该算法对传统的向量空间模型法做了改进,使之能够更好地计算文档与用户个性词典之间的相关度,根据用户的兴趣爱好对文档进行相关度的过滤、排序,并给出了实验数据.实验结果表明该方法较好地解决了智能搜索引擎中Internet信息过滤、排序的问题. 展开更多
关键词 搜索引擎 文档过滤 向量空间模型法 词频统计 个性词典
下载PDF
基于BP神经网络的文档聚类研究 被引量:7
14
作者 田萱 刘希玉 孟强 《计算机科学》 CSCD 北大核心 2002年第8期93-95,共3页
1,引言 近年来,随着互联网的迅速发展,基于Web的数据挖掘技术受到越来越多的关注,经常用在文本挖掘和信息检索等多个领域的聚类(Clustering)技术也成为人们研究的热点.对一组实际或抽象的元素进行处理,把相似的元素归为同类的过程称之... 1,引言 近年来,随着互联网的迅速发展,基于Web的数据挖掘技术受到越来越多的关注,经常用在文本挖掘和信息检索等多个领域的聚类(Clustering)技术也成为人们研究的热点.对一组实际或抽象的元素进行处理,把相似的元素归为同类的过程称之为聚类[1].对文本信息,如科技文献、Web文档等的聚类,称之为文档聚类(Document Clustering).最初,文档聚类常用于提高信息检索系统的查准率和查全率(recall),或用来寻找与一篇文档最为相似的文档[2].现在,人们利用文档聚类来获得一组满足用户要求的文档集合并按用户需求对其进行排序.另外在Internet上,文本聚类也可用来自动产生文档的层次聚类,从而实现对Web文档的分类. 展开更多
关键词 Internet BP神经网络 文档聚类 数据挖掘 信息检索系统 查准率 查全率
下载PDF
一种基于关键特征的搜索引擎结果聚类算法 被引量:4
15
作者 张辉 谢科 +1 位作者 庞斌 吴辉 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2007年第6期739-742,共4页
为了解决用户在搜索引擎结果列表中寻找所需信息困难的问题,帮助用户快速有效地定位有价值的Web文档,与向量空间模型方法不同,采用基于关键特征的聚类算法(KFC).首先从搜索引擎返回结果的关键词里选择重要的词作为关键特征,然后通过分... 为了解决用户在搜索引擎结果列表中寻找所需信息困难的问题,帮助用户快速有效地定位有价值的Web文档,与向量空间模型方法不同,采用基于关键特征的聚类算法(KFC).首先从搜索引擎返回结果的关键词里选择重要的词作为关键特征,然后通过分析特征间的关系对特征聚类,最后基于特征聚类结果实现文档的聚类.通过对实验结果的测试表明了算法的有效性. 展开更多
关键词 搜索引擎 算法 特征提取 文档聚类 向量空间模型VSM KFC算法
下载PDF
VSM模型在文档结构识别中的应用 被引量:10
16
作者 宋昊苏 李宁 张伟 《北京信息科技大学学报(自然科学版)》 2011年第6期66-69,75,共5页
借鉴向量空间模型(VSM),将文档的单元结构映射到特征向量,并对其进行归一化和加权处理,再计算标准文档结构分类特征向量和待查文档单元结构特征向量的相似度,实现对文档结构的识别。测试结果表明,该方法实现了文档格式的向量表示,易于计... 借鉴向量空间模型(VSM),将文档的单元结构映射到特征向量,并对其进行归一化和加权处理,再计算标准文档结构分类特征向量和待查文档单元结构特征向量的相似度,实现对文档结构的识别。测试结果表明,该方法实现了文档格式的向量表示,易于计算,具有较好的扩展性,可在此基础上实现其他特定结构文档格式的自动检查或文档理解。 展开更多
关键词 文档结构识别 向量空间模型 文档格式校验 文档理解
下载PDF
SVG和Ajax技术在电网分析与辅助决策支持系统中的应用 被引量:18
17
作者 郭挺 谢敏 +1 位作者 刘明波 林辉 《电力系统保护与控制》 EI CSCD 北大核心 2012年第4期83-89,共7页
电网分析与辅助决策系统的各个子系统与实时数据平台之间需要进行复杂而频繁的数据交互。基于oracle的实时数据平台中的数据存储位置和组织形式复杂且不具有直观性。良好的图形界面将大大提高电网分析与辅助决策系统的易用性和用户友好... 电网分析与辅助决策系统的各个子系统与实时数据平台之间需要进行复杂而频繁的数据交互。基于oracle的实时数据平台中的数据存储位置和组织形式复杂且不具有直观性。良好的图形界面将大大提高电网分析与辅助决策系统的易用性和用户友好性。在简要介绍电力图形系统研究现状的基础上,探讨了电力系统中广泛应用的可缩放矢量图形(Scalable Vector Graphics,SVG)技术;通过基于文档对象模型(Document Object Model,DOM)的脚本编程实现了SVG图形与用户的良好交互;通过建立Ajax(Asynchronous JavaScript and XML)引擎,实现了电气模型图形信息与实时数据的关联动态刷新。该方案在电网分析与辅助决策支持系统的应用中取得了良好的效果。 展开更多
关键词 电网分析与辅助决策系统 图形系统 SVG DOM AJAX
下载PDF
基于HTML文档结构的向量空间模型的改进 被引量:10
18
作者 胡健 陆一鸣 马范援 《情报学报》 CSSCI 北大核心 2005年第4期433-437,共5页
根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能.实验结果表明,PFTF模型... 根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能.实验结果表明,PFTF模型对于这两个方面都有提高. 展开更多
关键词 HTML文档结构 信息检索 向量空间模型链接文本TREC 向量空间模型 HTML文档 文档结构 向量模型 分布特征 检索性能 标签
下载PDF
可缩放矢量图形技术在电力系统故障诊断软件包中的应用 被引量:7
19
作者 董泰福 文福拴 廖志伟 《华北电力大学学报(自然科学版)》 CAS 北大核心 2007年第4期38-42,共5页
图形是电力系统在线故障诊断软件的重要组成部分。设计良好的图形可以增强电力系统故障诊断软件包的易用性和互操作性。在分析现代电力系统高级应用软件图形功能发展方向的基础上,介绍了具有广泛应用前景的可缩放矢量图形(SVG)技术和文... 图形是电力系统在线故障诊断软件的重要组成部分。设计良好的图形可以增强电力系统故障诊断软件包的易用性和互操作性。在分析现代电力系统高级应用软件图形功能发展方向的基础上,介绍了具有广泛应用前景的可缩放矢量图形(SVG)技术和文档对象模型(DOM)技术,探讨了SVG和DOM技术在电力系统软件图形化中的具体应用,并在所开发的电力系统故障诊断软件包中进行了实现,取得了很好的效果。 展开更多
关键词 可缩放矢量图形 文档对象模型 电力系统故障诊断系统 互操作
下载PDF
基于核方法的XML文档自动分类 被引量:14
20
作者 杨建武 《计算机学报》 EI CSCD 北大核心 2011年第2期353-359,共7页
支持向量机(SVM)方法通过核函数进行空间映射并构造最优分类超平面解决分类器的构造问题,该方法在文本自动分类应用中具有明显优势.XML文档是文本内容信息与结构信息的综合体,作为一种新的数据形式,成为当前的研究热点.文中以结构链接... 支持向量机(SVM)方法通过核函数进行空间映射并构造最优分类超平面解决分类器的构造问题,该方法在文本自动分类应用中具有明显优势.XML文档是文本内容信息与结构信息的综合体,作为一种新的数据形式,成为当前的研究热点.文中以结构链接向量模型为基础,研究了基于支持向量机的XML文档自动分类方法,提出了适合XML文档分类的核函数及其参数的学习方法,从而将XML文档的结构分析与内容分析有机地结合起来.在INEX数据集上的测试结果表明,该方法的分类准确性明显高于INEX评测中所公布各方法的评测结果. 展开更多
关键词 XML文档 文档分类 核函数 支持向量机 文档模型
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部