期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
基于主题文档的分析方法及其应用(英文)
1
作者 徐建民 《河北大学学报(自然科学版)》 CAS 2002年第4期377-380,共4页
需求分析是软件开发的最重要阶段之一 .由于人们对软件的要求越来越高和软件系统所面临的问题域和系统责任越来越复杂 ,分析所面临的问题也越来越突出 .本文给出了一个适用于信息系统开发的分析方法———基于主题文档的分析方法 ,并给... 需求分析是软件开发的最重要阶段之一 .由于人们对软件的要求越来越高和软件系统所面临的问题域和系统责任越来越复杂 ,分析所面临的问题也越来越突出 .本文给出了一个适用于信息系统开发的分析方法———基于主题文档的分析方法 ,并给出了一个应用实例 . 展开更多
关键词 分析方法 信息系统 需求分析 主题文档 软件开发
下载PDF
基于关键词对逆文档频率的主题新颖度度量方法 被引量:45
2
作者 杨建林 钱玲飞 《情报理论与实践》 CSSCI 北大核心 2013年第3期99-102,共4页
文章吸收词频原则、逆文档频率原则以及共词分析的思想,提出解决文档主题新颖度量化问题的4个原则,在此基础上定义带时间戳关键词逆文档频率、带时间戳关键词对逆文档频率、文档新颖度等3个概念,给出文档新颖度的计算公式,并对该公式的... 文章吸收词频原则、逆文档频率原则以及共词分析的思想,提出解决文档主题新颖度量化问题的4个原则,在此基础上定义带时间戳关键词逆文档频率、带时间戳关键词对逆文档频率、文档新颖度等3个概念,给出文档新颖度的计算公式,并对该公式的实用性与合理性进行实证研究。实验结果表明:文中提出的文档主题新颖度量化方法是科学的、合理的、可操作的,但是,不规范的标引词标引、关键词个数过少等现象对主题新颖度计量结果的准确性影响较大。 展开更多
关键词 文档主题新颖度 关键词 度量方法
下载PDF
主题标引规范工作文档的编制和应用——在《中分表》电子版环境下 被引量:2
3
作者 丁建勤 《国家图书馆学刊》 CSSCI 北大核心 2009年第4期70-74,共5页
基于主题规范控制现行模式的考虑,现阶段一般图书馆似乎应该优先考虑在《中分表》电子版和软件支持的现实环境下创建主题标引规范工作文档的可能模式。具体地说,编制工作可以在增加入口词、组代词、词表修订信息、增词和外文标识词等领... 基于主题规范控制现行模式的考虑,现阶段一般图书馆似乎应该优先考虑在《中分表》电子版和软件支持的现实环境下创建主题标引规范工作文档的可能模式。具体地说,编制工作可以在增加入口词、组代词、词表修订信息、增词和外文标识词等领域内展开,在实现手段上可以利用电子版提供的"用户评注"功能,从而为今后理想化的规范控制提供数据汇总积累。参考文献8。 展开更多
关键词 主题标引 标引规范 主题规范文档 主题规范控制 中分表
下载PDF
关于主题规范文档建设机制的若干思考--以LCSH为例
4
作者 蔡丹 《山东图书馆学刊》 2022年第1期37-43,60,共8页
《美国国会主题标题表》(LCSH)是由美国国会图书馆(LC)制定并负责维护的一套英语主题标引系统,历经一个多世纪的发展,以强大的生命力适应时代的发展变迁,成为世界图书馆主要采用的主题标引与检索工具。LCSH标题数量庞大,结构严谨,应用... 《美国国会主题标题表》(LCSH)是由美国国会图书馆(LC)制定并负责维护的一套英语主题标引系统,历经一个多世纪的发展,以强大的生命力适应时代的发展变迁,成为世界图书馆主要采用的主题标引与检索工具。LCSH标题数量庞大,结构严谨,应用规则严格,随着主题规范合作项目SACO的开展,以LC为首的越来越多的图书馆参与到LCSH的建设中,并形成了一套相对成熟的建设机制。本文以LCSH长期以来形成的建设机制为切入点,对主题规范文档建设中遇到的包括文档更新、书目更新、名称主题词的归属、建设基础等若干关键问题进行深入思考,并对我国当前主题规范控制工作实践如何借鉴国外有益经验提出思路。 展开更多
关键词 主题规范文档 建设机制 LCSH SACO
下载PDF
文档主题词表的构建
5
作者 陆畹青 邱勇 《微型电脑应用》 1998年第4期95-95,82,共2页
关键词 文档主题词表 主题词表 构件
下载PDF
基于RDF语义标注的领域文档主题描述方法研究
6
作者 沙丽华 《电子技术与软件工程》 2015年第13期196-197,共2页
为了更准确、直观的表达Web文档的主题,本文提出了一种基于RDF语义标注的领域文档主题描述方法。该方法为RDF文件中的每个领域词汇定义一个权重值,利用领域本体中定义的词汇之间的相互影响关系更新每个词汇的权重,并依此扩充描述文档主... 为了更准确、直观的表达Web文档的主题,本文提出了一种基于RDF语义标注的领域文档主题描述方法。该方法为RDF文件中的每个领域词汇定义一个权重值,利用领域本体中定义的词汇之间的相互影响关系更新每个词汇的权重,并依此扩充描述文档主题的词汇集,最终依据按权值排序的词汇集来表达文档主题。实验结果表明,该方法能够较好的描述领域文档的主题。 展开更多
关键词 文档主题 领域本体 词汇权重
下载PDF
改进的LDA文档主题模型的实现 被引量:1
7
作者 张腾岳 《延安大学学报(自然科学版)》 2019年第4期33-37,共5页
LDA模型是一种重要的文档主题生成模型,在描述经典算法思想的基础上,提出一种改进的算法,详细描述了改进算法的实现步骤以及实现过程中需要注意的问题。改进算法使用TF-IDF值代替经典算法词语矢量矩阵中的词频,使用gensim工具包进行仿... LDA模型是一种重要的文档主题生成模型,在描述经典算法思想的基础上,提出一种改进的算法,详细描述了改进算法的实现步骤以及实现过程中需要注意的问题。改进算法使用TF-IDF值代替经典算法词语矢量矩阵中的词频,使用gensim工具包进行仿真实现,从迭代次数、主题数目的不同对模型效果的影响进行研究,得到模型最优的参数组合,改进的算法在性能上由于经典算法,具有一定的应用价值。 展开更多
关键词 文档主题模型 TF-IDF 模型评价 迭代次数 主题数目
下载PDF
主题词法和自然语言法探测文献主题新颖性对比分析 被引量:5
8
作者 许丹 徐爽 +2 位作者 陈斯斯 杨颖 郭继军 《中华医学图书情报杂志》 CAS 2019年第1期19-26,共8页
目的:对比分析主题词法和自然语言法计算结果的一致性和差异性,探讨两种方法的优缺点以及与F1000推荐文献的关系。方法:定义医学主题词词对法的文档主题新颖度概念,给出计算公式进行计算并进行对比分析。结果:主题词法计算了该文献集40... 目的:对比分析主题词法和自然语言法计算结果的一致性和差异性,探讨两种方法的优缺点以及与F1000推荐文献的关系。方法:定义医学主题词词对法的文档主题新颖度概念,给出计算公式进行计算并进行对比分析。结果:主题词法计算了该文献集401篇文献中已标引的346篇文献的文档主题新颖度,平均新颖度值为0.8423;自然语言法计算了该文献集全部401篇文献的文档主题新颖度,平均新颖度值为0.8713。74.28%的文献经两种方法计算得到的新颖度差值在0.1以下。结论:主题词法和自然语言法可从文本层面计算文档主题新颖度,两者各有优势。自然语言法在计算范围和最新发表的文献方面要略优于主题词法,主题词法在揭示文章主旨含义和准确度方面,优于自然语言法。根据相关性比较,主题词法和自然语言法在计算文档主题新颖度方面一定程度上具有相对等效的价值。新颖度值越高,主题词法和自然语言法计算出的文档新颖度值分区越一致。主题词法文档主题新颖度与F1000得分弱相关,说明主题词法新颖度准确性更接近专家同行评议。 展开更多
关键词 文献主题新颖性探测 文档主题新颖度 主题词法 自然语言法 F1000 对比分析
下载PDF
一个基于关联规则的多层文档聚类算法 被引量:4
9
作者 宋江春 沈钧毅 宋擒豹 《计算机应用》 CSCD 北大核心 2005年第7期1570-1572,共3页
提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间... 提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高;使用新的文档特征抽取方法还解决了由于文档关键字过多而导致文档特征向量的维数过高的问题。 展开更多
关键词 文档挖掘 文档聚类 关联规则 文档主题特征向量 文档关键字特征向量
下载PDF
一个基于双向近邻技术的多层文档聚类算法 被引量:3
10
作者 宋江春 沈钧毅 《情报学报》 CSSCI 北大核心 2006年第4期488-492,共5页
提出了一个新的基于双向近邻技术的多层文档聚类算法.使用新的文档特征抽取方法构造了文档的主题和关键字特征向量.首先在主题特征向量空间中,改进了传统的最近邻技术,使最近邻概念由单向变为双向.利用改进后的方法对文档进行初始聚类,... 提出了一个新的基于双向近邻技术的多层文档聚类算法.使用新的文档特征抽取方法构造了文档的主题和关键字特征向量.首先在主题特征向量空间中,改进了传统的最近邻技术,使最近邻概念由单向变为双向.利用改进后的方法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类.由于使用了两层聚类方法,使算法的效率和精度都大大提高.最后对算法的有效性、可伸缩性和时间复杂度进行了研究. 展开更多
关键词 文档聚类 最近邻技术 双向最近邻 文档主题特征向量 主题关键字特征向量
下载PDF
信息检索中一种基于词语—主题词相关度的语言模型 被引量:3
11
作者 田萱 杜小勇 李海华 《中文信息学报》 CSCD 北大核心 2007年第6期43-51,共9页
本文提出一种基于词语-主题词相关关系的语言模型TSA-LM(Term-Subject Association Based Language Model),它的基本思想是把一篇文档分成两个文档块,一部分是由领域主题词表中的主题词构成的主题词文档块,另一部分是由非主题词构成的... 本文提出一种基于词语-主题词相关关系的语言模型TSA-LM(Term-Subject Association Based Language Model),它的基本思想是把一篇文档分成两个文档块,一部分是由领域主题词表中的主题词构成的主题词文档块,另一部分是由非主题词构成的非主题词文档块,分别计算两个文档块和查询的似然程度。对非主题词文档块,假设词语间独立无关,沿用经典的语言模型计算;对主题词文档块,把查询词语和主题词相关关系引入语言模型中来估计该文档块和查询的似然程度。词语-主题词相关关系采用词语-主题词相关度来衡量。词语-主题词相关度的计算除了来源于对文档中词语-主题词共现性的观察外,还来源于宏观上对词语-文档-主题词归属关系的观察。公开数据集上的检索实验结果表明,基于词语-主题词相关关系的语言模型可以有效提高检索效果。 展开更多
关键词 计算机应用 中文信息处理 语言模型 主题 词语-主题词相关关系 词语 文档-主题词归属关系 词语 主题词共现关系
下载PDF
中文主题规范控制工作实践与展望
12
作者 丁建勤 《图书馆建设》 CSSCI 北大核心 2010年第8期45-48,共4页
上海图书馆中文主题规范控制经历了印本词表控制、印本词表结合机读主题规范库和《中国分类主题词表》电子版结合机读主题规范库3种模式的演变,其无论在词汇控制还是在引用次序方面都具有一定的特点。建议在现有基础上,根据需要和可能,... 上海图书馆中文主题规范控制经历了印本词表控制、印本词表结合机读主题规范库和《中国分类主题词表》电子版结合机读主题规范库3种模式的演变,其无论在词汇控制还是在引用次序方面都具有一定的特点。建议在现有基础上,根据需要和可能,积极探索《中国分类主题词表》Web版环境下的主题规范控制新模式,强化主题词的修订和更新,协调名称规范和名称主题规范的关系,加强主题规范数据的编制和积累,努力实现中文主题规范控制的共知共建共享。 展开更多
关键词 中文主题规范控制 主题规范控制文档 《中国分类主题词表》 上海图书馆
下载PDF
基于主题异构图嵌入的Token粒度实体解析方法
13
作者 初慧琳 申德荣 +2 位作者 窦文周 聂铁铮 寇月 《小型微型计算机系统》 CSCD 北大核心 2023年第7期1398-1404,共7页
实体解析是数据集成、数据挖掘等技术中不可或缺的步骤,其具体任务是查找引用自同一真实世界的实体的数据记录.现有的方法多数是通过计算实体记录的属性相似度来评估是否为同一实体,由于该方法需要预先对齐记录属性,无法适应属性中toke... 实体解析是数据集成、数据挖掘等技术中不可或缺的步骤,其具体任务是查找引用自同一真实世界的实体的数据记录.现有的方法多数是通过计算实体记录的属性相似度来评估是否为同一实体,由于该方法需要预先对齐记录属性,无法适应属性中token误放的情形,也不能有效利用跨属性中tokens的语义和结构信息,影响实体识别准确性.本文提出了一种采用主题异构图嵌入的token粒度的实体解析方法(THGE-ER).在token、属性和记录基础上,利用LDA模型为实体记录添加一个主题层级,并构建了一个由token、属性、记录和主题4类节点组成的主题异构图;采用区分节点类型的异构图嵌入表示方法,并将节点间的语义和结构信息嵌入到token层级的嵌入向量中;进一步结合多层次注意力机制,完成最终的实体解析决策.经过大量的实验证明,本文提出的方法表现出了良好的性能. 展开更多
关键词 实体解析 LDA文档主题模型 异构图 多层注意力机制
下载PDF
基于文本摘要的无监督关键词抽取方法
14
作者 尤泽顺 周喜 +2 位作者 董瑞 张洋宁 杨奉毅 《计算机工程与设计》 北大核心 2024年第9期2779-2784,共6页
为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基... 为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基于嵌入的方法选择关键词时忽略候选词之间的关联,针对该问题,在SDERank的改进版SDERank+中,PageRank算法被用于提取候选词之间的共现权重作为相似度分数的修正。实验结果表明,在4个广泛使用的数据集上SDERank和SDERank+比之前最好的模型MDERank的F1分数平均高出2.2%和3.29%。 展开更多
关键词 自动关键词抽取 文本摘要 文档建模 文档主题分析 语义处理 权重优化 向量相似性
下载PDF
信息抽取技术在地方社科院网站建设中的应用
15
作者 党蕾 《科技资讯》 2015年第13期11-11,共1页
信息时代,特别是大数据时代的到来,引发了文献和信息量剧增,地方社科院在新环境新形势下大力推进哲学社会科学繁荣与发展面临着更多机遇和挑战。针对地方社科院的发展,各研究所的科研人员需要的学科研究领域的资料信息却无从查找,只有... 信息时代,特别是大数据时代的到来,引发了文献和信息量剧增,地方社科院在新环境新形势下大力推进哲学社会科学繁荣与发展面临着更多机遇和挑战。针对地方社科院的发展,各研究所的科研人员需要的学科研究领域的资料信息却无从查找,只有在社科类方向和一些专业研究机构网站中搜索与自身研究相关的信息内容,但这一工作量无疑是巨大的,由此可见,信息抽取技术的合理应用能够有效的解决研究人员资料储备不足的问题,只有丰富充沛的信息量,才能使得专业课题研究、学科领域研究在良好的前提下取得事半功倍的效果。 展开更多
关键词 信息抽取 地方社科院 主题文档
下载PDF
一种基于政策文本计算的政策内容分析方法实证研究——以互联网租赁自行车为例 被引量:26
16
作者 张涛 蔡庆平 马海群 《信息资源管理学报》 CSSCI 2019年第1期66-76,共11页
政策文本计算是信息科学、政策科学与计算科学交叉融合的产物,通过对政策文件及政策评论内容进行计算分析,使政策制定研究过程更加科学有效。文章首先利用关键词抽取法对政策文件进行框架提取;其次利用主题分析法对政策评论数据进行聚... 政策文本计算是信息科学、政策科学与计算科学交叉融合的产物,通过对政策文件及政策评论内容进行计算分析,使政策制定研究过程更加科学有效。文章首先利用关键词抽取法对政策文件进行框架提取;其次利用主题分析法对政策评论数据进行聚类分析;再次利用共现分析法对政策文件及政策评论共现强度数据计算;最后依据计算所得数据对政策内容进行综合分析,进而形成一种新的政策内容分析方法并以互联网租赁自行车为例证实了该方法的有效性,此方法的提出也为未来政策分析研究提供了新思路。 展开更多
关键词 政策文本计算 政策内容分析 互联网租赁自行车 文档主题生成模型(LDA) 内容分析方法
下载PDF
基于双语LDA的跨语言文本相似度计算方法研究 被引量:7
17
作者 程蔚 线岩团 +2 位作者 周兰江 余正涛 王红斌 《计算机工程与科学》 CSCD 北大核心 2017年第5期978-983,共6页
基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双语文档映射到同一个主题向量空间,结合主题分布使用余弦相... 基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双语文档映射到同一个主题向量空间,结合主题分布使用余弦相似度方法计算新语料集双语文档的相似度,使用从类别间和类别内的主题分布离散度的角度改进的主题频率-逆文档频率方法计算特征主题权重。实验表明,改进后的权重计算对于基于双语LDA相似度算法的召回率有较大提高,算法对类别不受限且有较好的可靠性。 展开更多
关键词 双语LDA 跨语言文本相似度 余弦相似度 主题频率-逆文档频率
下载PDF
西文编目输出系统
18
作者 杨华 金洲 +1 位作者 武明 苗莹 《现代图书情报技术》 1983年第4期32-36,共5页
关键词 标目 附加款目 西文编目 排序键 目录卡片 输出系统 工作区 MARC记录 主题文档 书卡
下载PDF
基于语义的中文文本关键词提取算法 被引量:48
19
作者 王立霞 淮晓永 《计算机工程》 CAS CSCD 2012年第1期1-4,共4页
为克服传统关键词提取算法局限于字面匹配、缺乏语义理解的缺点,提出一种基于语义的中文文本关键词提取(SKE)算法。将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。实验结果表明,与基... 为克服传统关键词提取算法局限于字面匹配、缺乏语义理解的缺点,提出一种基于语义的中文文本关键词提取(SKE)算法。将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。实验结果表明,与基于统计特征的关键词提取算法相比,SKE算法提取的关键词能体现文档的主题,更符合人们的感知逻辑,且算法性能较优。 展开更多
关键词 提取算法相比 SKE算法提取的关键词能体现文档主题 更符合人们的感知逻辑 且算法性能较优.关键词:关键词提取 语义相似度 词语语义相似度网络 居间度 中文文本
下载PDF
中铁十一局集团施工协同指挥系统的设计
20
作者 欧振祥 《石家庄铁道学院学报》 2004年第B05期118-121,共4页
介绍了《中铁十一局集团施工协同指挥系统》的功能和特点,并以公司总体业务流程为例进行了系统分析,讨论了系统基于企业管理主题文档及系统安全性的设计。
关键词 建筑施工企业 B/S结构 面向对象 管理主题文档 安全性
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部