期刊文献+
共找到164篇文章
< 1 2 9 >
每页显示 20 50 100
矢量空间数据文档存储模型研究
1
作者 付艳丽 邵飞 王海斌 《电脑与信息技术》 2024年第3期78-81,共4页
针对海量空间数据量PB级数据存储的问题,分析No SQL数据库中分布式文件存储数据库在海量数据的存储和访问上的优势,分析基于分布式文件存储的数据库MongoDB的存储格式,研究矢量空间数据文档存储模型。针对矢量空间数据的点、线、多边形... 针对海量空间数据量PB级数据存储的问题,分析No SQL数据库中分布式文件存储数据库在海量数据的存储和访问上的优势,分析基于分布式文件存储的数据库MongoDB的存储格式,研究矢量空间数据文档存储模型。针对矢量空间数据的点、线、多边形等几何形态,设计基于文档存储的矢量空间数据存储模型,实现了矢量空间数据在文档存储数据库MongoDB中的存储。针对矢量空间数据在文件存储数据库中的应用效率问题,提出未来工作将围绕文件存储数据库中矢量空间数据拓扑查询及查询效率展开。 展开更多
关键词 矢量空间数据 文档存储模型 NOSQL MONGODB
下载PDF
Automatic Arabic Document Classification via kNN
2
作者 HANI M. O. Iwidat 《Computer Aided Drafting,Design and Manufacturing》 2008年第2期65-73,共9页
Many algorithms have been implemented for the problem of document categorization. The majority work in this area was achieved for English text, while a very few approaches have been introduced for the Arabic text. The... Many algorithms have been implemented for the problem of document categorization. The majority work in this area was achieved for English text, while a very few approaches have been introduced for the Arabic text. The nature of Arabic text is different from that of the English text and the preprocessing of the Arabic text is more challenging. This is due to Arabic language is a highly inflectional and derivational language that makes document mining a hard and complex task. In this paper, we present an Automatic Arabic documents classification system based on kNN algorithm. Also, we develop an approach to solve keywords extraction and reduction problems by using Document Frequency (DF) threshold method. The results indicate that the ability of the kNN to deal with Arabic text outperforms the other existing systems. The proposed system reached 0.95 micro-recall scores with 850 Arabic texts in 6 different categories. 展开更多
关键词 Arabic documents classification KNN vector model keywords extraction
下载PDF
Immune Algorithm For Document Query Optimization
3
作者 WangZiqiang FengBoqin 《工程科学(英文版)》 2005年第1期89-93,共5页
To efficiently retrieve relevant document from the rapid proliferation of large information collections, a novel immune algorithm for document query optimization is proposed. The essential ideal of the immune algorith... To efficiently retrieve relevant document from the rapid proliferation of large information collections, a novel immune algorithm for document query optimization is proposed. The essential ideal of the immune algorithm is that the crossover and mutation of operator are constructed according to its own characteristics of information retrieval. Immune operator is adopted to avoid degeneracy. Relevant documents retrieved are merged to a single document list according to rank formula. Experimental results show that the novel immune algorithm can lead to substantial improvements of relevant document retrieval effectiveness. 展开更多
关键词 免疫算法 信息检索 文件查询优化 失量空间模型
下载PDF
基于AlBert-Tiny-DPCNN的案件事实倾向性类别预测
4
作者 施君可 《智能计算机与应用》 2023年第4期91-96,共6页
近年来,随着智慧司法的推进,中国裁判文书作为重要的研究对象,衍生了诸多任务,但针对裁判文书的研究大多基于刑事案件,缺乏对民事案件领域下的研究。本文结合预训练词向量、文本分类模型等技术,对民间借贷这一细分领域下的案件事实标签... 近年来,随着智慧司法的推进,中国裁判文书作为重要的研究对象,衍生了诸多任务,但针对裁判文书的研究大多基于刑事案件,缺乏对民事案件领域下的研究。本文结合预训练词向量、文本分类模型等技术,对民间借贷这一细分领域下的案件事实标签预测进行研究,为现有的案件事实提供同类别的有参考价值的裁判文书,减少相关工作者在大量数据中寻找所耗费的时间。本文提出了基于Albert-Tiny-DPCNN的分类模型,该模型采用注意力机制与标签平滑归一化技术来提高模型的精度,并在实验数据集上验证了模型的有效性。 展开更多
关键词 深度学习 裁判文书 文本分类 预训练词向量
下载PDF
基于三维文档向量的自适应话题追踪器模型 被引量:11
5
作者 张辉 周敬民 +1 位作者 王亮 赵莉萍 《中文信息学报》 CSCD 北大核心 2010年第5期70-76,共7页
话题追踪(TT)是研究自动追踪事件动态发展过程的一种信息智能获取技术,是话题检测与追踪(TDT)技术的一个子任务,其目标在于自动发现新闻报道信息流中与某一已知话题有关的新报道。该文通过分析传统文档向量空间模型的不足,结合新闻报道... 话题追踪(TT)是研究自动追踪事件动态发展过程的一种信息智能获取技术,是话题检测与追踪(TDT)技术的一个子任务,其目标在于自动发现新闻报道信息流中与某一已知话题有关的新报道。该文通过分析传统文档向量空间模型的不足,结合新闻报道的特征,提出了一种三维文档向量模型,在此基础上建立了一种符合新闻报道特征的话题模型。该话题模型在追踪过程中能够根据事件的动态发展进行自我学习和自我修正。结合话题模型,该文还设计了一种自适应的KNN新闻话题追踪器,从而形成了一种完整的中文话题追踪器模型。实验数据表明该方法在描述新闻话题、避免话题漂移方面具有一定优势,在中文话题追踪领域取得了较好效果。 展开更多
关键词 话题追踪 话题模型 三维文档向量模型 自适应KNN追踪器
下载PDF
一种基于N-Gram技术的中文文献自动分类方法 被引量:18
6
作者 何浩 杨海棠 《情报学报》 CSSCI 北大核心 2002年第4期421-427,共7页
本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n... 本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n gram映射为哈希码 ,对文献的分析实际上以哈希码频次为基础运行。采用KMA算法 ,我们对一个中文数据库进行了自动分类的实验研究 ,在比较实验结果的基础上 ,我们对KMA算法初始参数的选择进行了初步探讨。 展开更多
关键词 N-GRAM 汉字切分 哈密码 文献向量 KMA 自动分类 文献分类
下载PDF
中文文本分类中基于词性的特征提取方法研究 被引量:26
7
作者 胡燕 吴虎子 钟珞 《武汉理工大学学报》 CAS CSCD 北大核心 2007年第4期132-135,共4页
在介绍常用的文本分类中特征词提取方法的基础上,提出了一种全新的,适用于中文文本分类的特征提取方法———基于词性的特征提取方法,实验结果显示,这种基于词性的特征提取方法在提高特征提取效率和降低特征向量维数方面都有显著改善。
关键词 中文文本分类 向量空间模型 特征提取
下载PDF
中文文献的层次分类方法 被引量:22
8
作者 战学刚 林鸿飞 姚天顺 《中文信息学报》 CSCD 北大核心 1999年第6期20-25,共6页
现有的分类系统通常忽略类别体系的层次结构,在对文献进行分类时,往往很难区分类别相近的文献属于哪一类。本文基于向量空间模型,提出根据类别体系的层次结构,自顶向下,逐层分类的方法。其目的是提高分类精度;并根据概念词典,将... 现有的分类系统通常忽略类别体系的层次结构,在对文献进行分类时,往往很难区分类别相近的文献属于哪一类。本文基于向量空间模型,提出根据类别体系的层次结构,自顶向下,逐层分类的方法。其目的是提高分类精度;并根据概念词典,将同义词或下位概念映射到单一的概念词上,由这些概念词构成一个规模很小的特征集,以缩小特征向量空间的维数,从而减少分类系统的计算量。此外,通过对类别层次体系的分析,压缩特征向量。 展开更多
关键词 文献分类 向量空间模型 层次分类 中文文献
下载PDF
基于元数据与领域概念树的文本相似度计算 被引量:7
9
作者 张佩云 陈恩红 +2 位作者 谢荣见 宫秀文 黄波 《系统工程与电子技术》 EI CSCD 北大核心 2014年第3期591-597,共7页
随着网络与信息技术的快速发展,导致网络上产生了大量的电子文本,而文本间的相似度计算是文本处理的一种重要手段。对于大规模的文本集,通常采用向量空间模型(vector space model,VSM)进行文本表示,但是该方法面临着文本向量维度较高及... 随着网络与信息技术的快速发展,导致网络上产生了大量的电子文本,而文本间的相似度计算是文本处理的一种重要手段。对于大规模的文本集,通常采用向量空间模型(vector space model,VSM)进行文本表示,但是该方法面临着文本向量维度较高及文本语义相似度难以度量的问题。提出一种改进的文本相似度计算方法,从大量的特征空间中选择出具有代表性的元数据特征向量元素,以降低向量空间的维度;构建领域概念树并设计基于领域概念树的文本相似度算法,对领域概念中广泛存在的同义词进行处理,以提高文本之间语义相似度度量的性能。实验结果表明:通过降维和概念相似度计算可提高文本相似度计算的性能。 展开更多
关键词 文本元数据 领域概念树 元数据特征向量 文本相似度
下载PDF
基于SVG的空间信息描述与可视化表达 被引量:32
10
作者 李清泉 谢智颖 +1 位作者 左小清 王冲 《测绘学报》 EI CSCD 北大核心 2005年第1期58-63,共6页
SVG是移动互联时代随时随地获得各种丰富图形信息的有效方法,在LBS系统中,它也可以是空间信息描述与表达的有效方法。本文首先研究了空间信息与SVG标记间的映射关系,其次研究了SVG表示空间信息的生成方法,然后基于SVG的树状结构,在分析... SVG是移动互联时代随时随地获得各种丰富图形信息的有效方法,在LBS系统中,它也可以是空间信息描述与表达的有效方法。本文首先研究了空间信息与SVG标记间的映射关系,其次研究了SVG表示空间信息的生成方法,然后基于SVG的树状结构,在分析XML各种解析模式与图形元素渲染过程的基础上,提出了采用"pull"模式和DVR视图相结合的SVG解析与渲染方法,最后以复杂地物和考虑层控制策略时多层数据的SVG渲染结果,说明  收稿日期:2003 08 11;修回日期:2004 09 09基金项目:国家高科技研究发展计划资助项目(2001AA136031);国家自然科学基金资助项目(40271093,40401051);武汉市科技计划资助项目(20021002044)作者简介:李清泉(1965 ),男,安徽天长人,博士,教授,博导。主要从事空间数据模型、空间信息服务、激光测量技术、无线通信等方面的理论与技术研究。95第1期             李清泉等:基于SVG的空间信息描述与可视化表达采用SVG这种开放的图形格式描述与表达空间信息是可行的,并且在空间信息移动服务中可以解决客户端多样性问题,有利于空间信息服务的普及与推广。 展开更多
关键词 SVG 渲染 空间信息服务 图形元素 图形格式 可视化 XML 地物 LBS 描述
下载PDF
基于词频统计的个性化信息过滤技术 被引量:12
11
作者 张国印 陈先 皮鹏 《哈尔滨工程大学学报》 EI CAS CSCD 2003年第1期63-67,共5页
对Internet信息进行过滤,筛选出与用户兴趣最相符的文档,是智能搜索引擎要解决的一个重要问题.本文在介绍搜索引擎基本原理的基础上,提出了一种文档学习和用户个性词典构建的实现方法,其中包括内码转换、分词、摘词处理、用户个性词典... 对Internet信息进行过滤,筛选出与用户兴趣最相符的文档,是智能搜索引擎要解决的一个重要问题.本文在介绍搜索引擎基本原理的基础上,提出了一种文档学习和用户个性词典构建的实现方法,其中包括内码转换、分词、摘词处理、用户个性词典的构建及词条权值调整等环节.然后提出了一种基于词频统计的个性化文档过滤算法,该算法对传统的向量空间模型法做了改进,使之能够更好地计算文档与用户个性词典之间的相关度,根据用户的兴趣爱好对文档进行相关度的过滤、排序,并给出了实验数据.实验结果表明该方法较好地解决了智能搜索引擎中Internet信息过滤、排序的问题. 展开更多
关键词 搜索引擎 文档过滤 向量空间模型法 词频统计 个性词典
下载PDF
奇异值分解算法优化 被引量:21
12
作者 王佰玲 田志宏 张永铮 《电子学报》 EI CAS CSCD 北大核心 2010年第10期2234-2239,共6页
奇异值分解算法在信号处理、图像处理、信息安全等领域均有重要应用.针对该算法存在的性能问题,提出了基于gamma:1驱动的数据重用模型,提高计算负载平衡性,降低数据通信量;给出基于多处理器的并行分解模型,数值试验均表明算法具有较高... 奇异值分解算法在信号处理、图像处理、信息安全等领域均有重要应用.针对该算法存在的性能问题,提出了基于gamma:1驱动的数据重用模型,提高计算负载平衡性,降低数据通信量;给出基于多处理器的并行分解模型,数值试验均表明算法具有较高的并行加速比和效率. 展开更多
关键词 数据挖掘 文本聚类 奇异值分解 矩阵计算
下载PDF
一个基于关联规则的多层文档聚类算法 被引量:4
13
作者 宋江春 沈钧毅 宋擒豹 《计算机应用》 CSCD 北大核心 2005年第7期1570-1572,共3页
提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间... 提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高;使用新的文档特征抽取方法还解决了由于文档关键字过多而导致文档特征向量的维数过高的问题。 展开更多
关键词 文档挖掘 文档聚类 关联规则 文档主题特征向量 文档关键字特征向量
下载PDF
基于BP神经网络的文档聚类研究 被引量:7
14
作者 田萱 刘希玉 孟强 《计算机科学》 CSCD 北大核心 2002年第8期93-95,共3页
1,引言 近年来,随着互联网的迅速发展,基于Web的数据挖掘技术受到越来越多的关注,经常用在文本挖掘和信息检索等多个领域的聚类(Clustering)技术也成为人们研究的热点.对一组实际或抽象的元素进行处理,把相似的元素归为同类的过程称之... 1,引言 近年来,随着互联网的迅速发展,基于Web的数据挖掘技术受到越来越多的关注,经常用在文本挖掘和信息检索等多个领域的聚类(Clustering)技术也成为人们研究的热点.对一组实际或抽象的元素进行处理,把相似的元素归为同类的过程称之为聚类[1].对文本信息,如科技文献、Web文档等的聚类,称之为文档聚类(Document Clustering).最初,文档聚类常用于提高信息检索系统的查准率和查全率(recall),或用来寻找与一篇文档最为相似的文档[2].现在,人们利用文档聚类来获得一组满足用户要求的文档集合并按用户需求对其进行排序.另外在Internet上,文本聚类也可用来自动产生文档的层次聚类,从而实现对Web文档的分类. 展开更多
关键词 Internet BP神经网络 文档聚类 数据挖掘 信息检索系统 查准率 查全率
下载PDF
一种基于关键特征的搜索引擎结果聚类算法 被引量:4
15
作者 张辉 谢科 +1 位作者 庞斌 吴辉 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2007年第6期739-742,共4页
为了解决用户在搜索引擎结果列表中寻找所需信息困难的问题,帮助用户快速有效地定位有价值的Web文档,与向量空间模型方法不同,采用基于关键特征的聚类算法(KFC).首先从搜索引擎返回结果的关键词里选择重要的词作为关键特征,然后通过分... 为了解决用户在搜索引擎结果列表中寻找所需信息困难的问题,帮助用户快速有效地定位有价值的Web文档,与向量空间模型方法不同,采用基于关键特征的聚类算法(KFC).首先从搜索引擎返回结果的关键词里选择重要的词作为关键特征,然后通过分析特征间的关系对特征聚类,最后基于特征聚类结果实现文档的聚类.通过对实验结果的测试表明了算法的有效性. 展开更多
关键词 搜索引擎 算法 特征提取 文档聚类 向量空间模型VSM KFC算法
下载PDF
基于聚类分析策略的用户偏好挖掘 被引量:8
16
作者 刘远超 王晓龙 +1 位作者 刘秉权 钟彬彬 《计算机应用研究》 CSCD 北大核心 2005年第12期21-23,共3页
利用训练文档集准确高效地挖掘隐藏的用户文本偏好和概念向量是文本信息过滤和多文档自动文摘等自然语言处理应用的关键技术之一。针对训练文本集中往往存在多个主题类别的问题,提出一种基于聚类分析策略的文本偏好挖掘方法。其基本思... 利用训练文档集准确高效地挖掘隐藏的用户文本偏好和概念向量是文本信息过滤和多文档自动文摘等自然语言处理应用的关键技术之一。针对训练文本集中往往存在多个主题类别的问题,提出一种基于聚类分析策略的文本偏好挖掘方法。其基本思路是对训练文档集进行聚类处理,然后对同主题文档进行共性分析,并经过特征权值调整和特征约简,获得表示用户不同主题偏好的概念向量。实验结果表明该方法具有对用户的文本偏好刻画更加精确,对相关阈值变化不敏感等优点,可以与Rocchio等算法结合来进行用户兴趣建模。 展开更多
关键词 偏好挖掘:文档聚类 概念向量 Rocchio算法
下载PDF
基于隐性语义标引的知识匹配模型及算法分析 被引量:2
17
作者 赵涛 袁兰静 曾金平 《中国地质大学学报(社会科学版)》 2006年第3期54-56,共3页
本文从企业知识共享角度出发,提出通过编写用户简档来映射企业中员工的知识,运用隐性语义标引技术建立了知识文档匹配模型,探讨了知识匹配模型的算法实现,从而使得用户简档准确定位企业的知识源,实现企业知识共享的目的。
关键词 知识共享 隐性语义标引 知识文档向量 企业知识共享
下载PDF
基于Ontology和EM方法的网页分类研究 被引量:1
18
作者 丁艳 曹倩 +1 位作者 王超 潘金贵 《计算机科学》 CSCD 北大核心 2003年第11期112-115,共4页
1.引言 当前,Internet上广泛流行的各种搜索引擎,为人们寻找资源提供了便利,而且还辅以各种用于提高精确度的技术,但普遍缺乏导引能力,即不能帮助用户确定所需信息所在的领域,使得获得的结果经常是风马牛不相及.所以,目前迫切需要的就... 1.引言 当前,Internet上广泛流行的各种搜索引擎,为人们寻找资源提供了便利,而且还辅以各种用于提高精确度的技术,但普遍缺乏导引能力,即不能帮助用户确定所需信息所在的领域,使得获得的结果经常是风马牛不相及.所以,目前迫切需要的就是开发一种智能化、个性化的搜索工具,使其能够满足不同用户对不同领域的信息进行发现和积累的要求. 展开更多
关键词 网页分类 TFIDF EM 研究 方法
下载PDF
基于LDA2Vec联合训练的热点主题识别方法 被引量:3
19
作者 薛涛 郭莹 胡伟华 《西安工程大学学报》 CAS 2021年第4期95-101,共7页
针对传统的主题模型算法没有充分利用词间语义关系和上下文语境而导致主题语义一致性、可解释性差的问题,给出一种基于LDA2Vec主题模型联合训练的热点主题识别方法——NS-LDA2Vec方法。该方法通过扩展Skip-gram模型,将初始化后的文档向... 针对传统的主题模型算法没有充分利用词间语义关系和上下文语境而导致主题语义一致性、可解释性差的问题,给出一种基于LDA2Vec主题模型联合训练的热点主题识别方法——NS-LDA2Vec方法。该方法通过扩展Skip-gram模型,将初始化后的文档向量和枢轴词向量联合训练,以获得上下文向量,然后利用该向量来预测中枢词的上下文单词,从而将主题信息嵌入到词表示和文档表示中,使得预测过程中负采样损失和Dirichlet似然项总和最小化,产生可解释性更好的文本表示。结果表明:所提方法取得的F1值最高可达到0.898,在热点主题分类任务上,相比传统的LDA主题模型,主题相关度提升了约9%,能够有效提升主题识别任务的效果。 展开更多
关键词 LDA2Vec 文档向量 词向量 主题模型 热点主题识别
下载PDF
文本分类系统关键技术 被引量:7
20
作者 谢科 张辉 +1 位作者 陈鹏 庞斌 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第2期123-126,共4页
从自然语言的角度考虑词性选择,同时从统计学角度考虑删除文档频率过低的特征词,从而避免产生维数灾难,通过考查类别本身特征和类别之间的关系来提取类别特征向量,采用传统夹角余弦公式考查文本与类别的相似度,实现一种过程简单,易于理... 从自然语言的角度考虑词性选择,同时从统计学角度考虑删除文档频率过低的特征词,从而避免产生维数灾难,通过考查类别本身特征和类别之间的关系来提取类别特征向量,采用传统夹角余弦公式考查文本与类别的相似度,实现一种过程简单,易于理解且分类效果不错的文本分类系统。 展开更多
关键词 文本分类 夹角余弦 向量空间模型 特征
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部