期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于XENServer的数字图书馆云服务平台实现研究 被引量:17
1
作者 赵华茗 李春旺 周强 《电信科学》 北大核心 2010年第S1期33-38,共6页
云计算促进了信息服务的规模化、集约化和专业化发展,具有很广泛的应用前景。本文以国家科学图书馆云服务平台为例,介绍基于虚拟技术的数字图书馆云服务平台的设计与实现,详细论述云计算如何在数字图书馆建设中实现计算资源的集约化和... 云计算促进了信息服务的规模化、集约化和专业化发展,具有很广泛的应用前景。本文以国家科学图书馆云服务平台为例,介绍基于虚拟技术的数字图书馆云服务平台的设计与实现,详细论述云计算如何在数字图书馆建设中实现计算资源的集约化和信息服务的专业化,提出了数字图书馆云服务平台的整体构架,给出了云服务平台基础构架的搭建解决方案和关键接口的实现方式。 展开更多
关键词 云服务平台 虚拟技术 XENServer 数字图书馆
下载PDF
大型网站的架构研究及解决方案 被引量:3
2
作者 周强 谢靖 赵华茗 《计算机科学》 CSCD 北大核心 2017年第S1期587-590,共4页
随着互联网业务的发展,网站规模越来越大,各种技术被提出以用于提升网站的性能、可用性、伸缩性、扩展性、安全性。在分析影响性能、可用性、伸缩性、扩展性和安全性等架构因素的基础上,提出了一套网站架构解决方案,并为图书馆集成发现... 随着互联网业务的发展,网站规模越来越大,各种技术被提出以用于提升网站的性能、可用性、伸缩性、扩展性、安全性。在分析影响性能、可用性、伸缩性、扩展性和安全性等架构因素的基础上,提出了一套网站架构解决方案,并为图书馆集成发现系统的管理运维探索总结成功经验。 展开更多
关键词 性能 可用性 伸缩性 扩展性 安全
下载PDF
中国地质科学院机构科技论文收录情况统计 被引量:2
3
作者 史静 赵华茗 +1 位作者 李万伦 刘素芳 《地质力学学报》 CSCD 2003年第2期191-192,共2页
关键词 中国地质科学院 科技论文 收录 GeoRef检索系统 统计 文献计量学
下载PDF
云计算及其应用的开源实现研究 被引量:17
4
作者 赵华茗 李春旺 +1 位作者 李宇 周强 《现代图书情报技术》 CSSCI 北大核心 2009年第9期1-6,共6页
对比分析当前有代表性的云计算参与企业所采用的云计算实现方案和技术特点,总结云计算是一种能够提供动态资源池、虚拟化和高可用性的计算平台,包含两个方面的含义:底层的基础设施平台和构建在这个平台之上的应用程序。通过集成整合Euca... 对比分析当前有代表性的云计算参与企业所采用的云计算实现方案和技术特点,总结云计算是一种能够提供动态资源池、虚拟化和高可用性的计算平台,包含两个方面的含义:底层的基础设施平台和构建在这个平台之上的应用程序。通过集成整合Eucalyptus开源云计算平台系统和Liferay开源内容管理系统,剖析具有特定应用的云计算平台构建过程,并着重介绍在基于虚拟技术的云计算平台中,使用Xen虚拟技术制作基于Linux系统的可定制服务的实例映像文件,使用AM I工具运行制作的实例(虚拟服务器)和部署应用服务等技术要点,使读者能够明确掌握云计算平台的搭建过程及云计算实例应用的快速部署与迁移。 展开更多
关键词 云计算 虚拟技术 映像 开源
原文传递
基于均值漂移算法的文本聚类数目优化研究 被引量:11
5
作者 赵华茗 余丽 周强 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第9期27-35,共9页
【目的】探索最佳文本聚类数目的优化方法,为提升文本聚类算法的有效性和质量提供参考。【方法】结合TF-IDF和Word2Vec算法,提取TopN关键词向量作为语料库文本特征表达;结合均值漂移算法、聚类有效性指标(Silhouette)和均方误差(MSE)指... 【目的】探索最佳文本聚类数目的优化方法,为提升文本聚类算法的有效性和质量提供参考。【方法】结合TF-IDF和Word2Vec算法,提取TopN关键词向量作为语料库文本特征表达;结合均值漂移算法、聚类有效性指标(Silhouette)和均方误差(MSE)指标,确定最佳文本聚类数目。【结果】Top 4 500关键词向量规模能较好呈现文本特征;基于均值漂移算法确定的最佳文本聚类数与人工研判优化的聚类数相符。【局限】选取的实验数据集合不够充足,缺少在其他领域的应用对比。【结论】本文方法可以在无监督方式下高质量完成文本聚类个数的确定。 展开更多
关键词 均值漂移 文本聚类 聚类数 聚类有效性
原文传递
依存句法特征的科研命名实体识别算法 被引量:6
6
作者 赵华茗 钱力 余丽 《图书情报工作》 CSSCI 北大核心 2020年第11期108-115,共8页
[目的/意义]探索科研命名实体及其关系的识别与抽取,提升其在长句等复杂情况下的识别效果,为进一步的应用提供参考与借鉴。[方法/过程]以依存句法特征分析为基础,提出一种科研命名实体关系抽取方法,过程包括:①使用Standford Tagger工... [目的/意义]探索科研命名实体及其关系的识别与抽取,提升其在长句等复杂情况下的识别效果,为进一步的应用提供参考与借鉴。[方法/过程]以依存句法特征分析为基础,提出一种科研命名实体关系抽取方法,过程包括:①使用Standford Tagger工具对目标文本进行词性标注;②基于标注结果,围绕核心谓词和SAO结构,将目标文本分割为结构规范的语义片段;③通过依存句法分析,找出与核心谓词语义相关的主语和宾语,构成(实体,关系,实体)三元组。[结果/结论]与Ollie、Reverb等主流算法进行的对比测试表明,该方法可以有效提升科研命名实体识别的准确性。 展开更多
关键词 依存句法分析 科研命名实体 实体识别 关系抽取
原文传递
国内外开放学术资源整合研究现状述评与比较 被引量:7
7
作者 赵华茗 钱力 谢靖 《图书情报工作》 CSSCI 北大核心 2017年第6期122-133,共12页
[目的 /意义]为开展开放学术资源整合服务建设提供参考与借鉴。[方法 /过程]分别对国内外开放学术资源整合方面的研究现状进行了梳理和总结,认为国内的研究成果主要集中在开放学术资源整合构建的理论、技术方法与工具、资源再利用和版... [目的 /意义]为开展开放学术资源整合服务建设提供参考与借鉴。[方法 /过程]分别对国内外开放学术资源整合方面的研究现状进行了梳理和总结,认为国内的研究成果主要集中在开放学术资源整合构建的理论、技术方法与工具、资源再利用和版权政策研究等方面,国外则对开放学术资源整合的概念认识、框架和结构、开放学术资源整合中运用的技术方法以及在不同领域的应用等方面进行了深入的研究。[结果/结论]通过对国内外研究成果的比较分析,得出国内外开放学术资源整合研究的共同点在于研究关注点、研究方法以及实践应用的研究,区别在于研究主体、研究视角和研究深度。 展开更多
关键词 开放获取 学术资源 资源整合
原文传递
基于虚拟机的高可用信息服务平台建设 被引量:15
8
作者 赵华茗 《现代图书情报技术》 CSSCI 北大核心 2009年第12期18-24,共7页
从信息服务平台可用性角度出发,介绍虚拟机的概念和特点,对比分析典型虚拟机案例,并针对实际应用,详述基于虚拟机的高可用信息服务平台的具体实施过程。在访问密集型应用中,通过在虚拟机之间搭建负载均衡环境分担网络负载,实现虚拟服务... 从信息服务平台可用性角度出发,介绍虚拟机的概念和特点,对比分析典型虚拟机案例,并针对实际应用,详述基于虚拟机的高可用信息服务平台的具体实施过程。在访问密集型应用中,通过在虚拟机之间搭建负载均衡环境分担网络负载,实现虚拟服务平台的高可用性;在访问量较少的轻型应用中,通过资源监控、实时迁移、快照等技术来实现虚拟服务平台的高可用性。 展开更多
关键词 虚拟机 高可用 信息服务 实时迁移 快照
原文传递
搭建基于云计算的开源海量数据挖掘平台 被引量:11
9
作者 赵华茗 《现代图书情报技术》 CSSCI 北大核心 2010年第10期76-81,共6页
通过分析亚马逊弹性MapReduce(EMR)平台构架,针对信息情报机构内部数据处理的迫切需求,提出通过开源技术Xen和Hadoop平台构建基于云计算的动态可伸缩的海量数据处理平台并给出实施方案、海量文本数据处理案例和开源EMR平台的优势分析。... 通过分析亚马逊弹性MapReduce(EMR)平台构架,针对信息情报机构内部数据处理的迫切需求,提出通过开源技术Xen和Hadoop平台构建基于云计算的动态可伸缩的海量数据处理平台并给出实施方案、海量文本数据处理案例和开源EMR平台的优势分析。实施方案主要分为三部分:搭建动态虚拟的云计算环境、安装制作Hadoop虚拟服务器模板、配置运行Cloudera和Cloudera Desktop。通过开源EMR架构的应用,可以有效解决服务器蔓延问题,提高网络计算资源的利用效率和分布式数据挖掘服务的快速布署能力及灵活性。 展开更多
关键词 云计算 海量数据挖掘 虚拟技术 分布式计算 XEN Cloudera HadooD
原文传递
分布式环境下的文档相似度研究与实现 被引量:6
10
作者 赵华茗 《现代图书情报技术》 CSSCI 北大核心 2011年第7期14-20,共7页
针对传统的相似度计算方法在海量信息处理过程中暴露出的数据处理规模限制和性能不足等方面的瓶颈问题,以非结构化文档为研究对象,提出一种基于Hadoop分布式环境,结合Hive数据处理平台和PostgreSQL关系型数据库的文档相似度计算方法,并... 针对传统的相似度计算方法在海量信息处理过程中暴露出的数据处理规模限制和性能不足等方面的瓶颈问题,以非结构化文档为研究对象,提出一种基于Hadoop分布式环境,结合Hive数据处理平台和PostgreSQL关系型数据库的文档相似度计算方法,并给出关键技术思路、具体实现步骤和实证研究,通过研究证明Hive SQL语言可有效简化分布式数据处理的复杂性,但实时性有待改进。 展开更多
关键词 HADOOP Hive 相似度 非结构化
原文传递
分布式环境下的文本聚类研究与实现 被引量:3
11
作者 赵华茗 《现代图书情报技术》 CSSCI 2015年第1期82-88,共7页
【目的】通过开源工具,构建一种分布式环境下的文本聚类与分类应用平台。【方法】以海量文本的词收敛性为基础,通过词聚类指导文本聚类和分类。过程包括:使用开源分词器等工具进行训练集的文本预处理,结合Mahout数据挖掘平台对处理后的... 【目的】通过开源工具,构建一种分布式环境下的文本聚类与分类应用平台。【方法】以海量文本的词收敛性为基础,通过词聚类指导文本聚类和分类。过程包括:使用开源分词器等工具进行训练集的文本预处理,结合Mahout数据挖掘平台对处理后的词集进行聚类分析,最后通过相似度算法计算测试文本与词类簇的相似度并分类。【结果】分布式环境下的基于词聚类的文本聚类分类计算方法,可有效解决海量文本的词聚类瓶颈问题。经测试,当训练文本集增加到100,迭代收敛阈值为0.01时,词聚类结果较理想。【局限】测试数据规模有限,仅限于新闻数据,基于其他领域的词聚类效果需要进一步测试、优化、调整。【结论】详细描述基于词聚类的文本聚类分类算法的开发环境构架和关键步骤,有助于研究者对相关开源工具使用及分布式并行环境部署的深入理解。 展开更多
关键词 分布式环境 聚类 文本聚类 HADOOP Mahout
原文传递
基于深度学习的文本中细粒度知识元抽取方法研究 被引量:36
12
作者 余丽 钱力 +1 位作者 付常雷 赵华茗 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第1期38-45,共8页
【目的】改进Bootstrapping方法,建立深度学习模型从文本中抽取多类型细粒度的知识元。【方法】利用搜索引擎和Elsevier关键词构建知识元词库;基于Bootstrapping技术自动构建大规模的标注语料库,利用知识元评分模型和模式评分模型控制... 【目的】改进Bootstrapping方法,建立深度学习模型从文本中抽取多类型细粒度的知识元。【方法】利用搜索引擎和Elsevier关键词构建知识元词库;基于Bootstrapping技术自动构建大规模的标注语料库,利用知识元评分模型和模式评分模型控制标注的质量;基于已标注多类型知识元的语料库训练LSTM-CRF模型,从文本中抽取新的知识元。【结果】基于17 756篇ACL论文摘要抽取"研究范畴"、"研究方法"、"实验数据"、"评价指标及取值"这4种知识元,其人工评价平均正确率为91%。【局限】模型参数的预设与调整需要人工参与,未对不同领域文本进行适用性验证。【结论】引入知识元与模式的评分模型,能够有效缓解"语义漂移"问题;基于深度学习模型抽取知识元实现快速且正确率高,为情报大数据智能分析提供了一种高效可靠的数据获取手段。 展开更多
关键词 知识元抽取 命名实体识别 深度学习 BOOTSTRAPPING LSTM-CRF
原文传递
基于深度学习的创新主题智能挖掘算法研究 被引量:5
13
作者 付常雷 钱力 +2 位作者 张华平 赵华茗 谢靖 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第1期46-54,共9页
【目的】从海量的文本数据中挖掘创新主题。【方法】以学术知识图谱数据为基础,根据知识点的"热度"、"新颖度"、"权威度"三维指标,筛选出权重较高的作为创新种子,然后根据知识图谱的路径对创新种子进行... 【目的】从海量的文本数据中挖掘创新主题。【方法】以学术知识图谱数据为基础,根据知识点的"热度"、"新颖度"、"权威度"三维指标,筛选出权重较高的作为创新种子,然后根据知识图谱的路径对创新种子进行知识关联计算,计算结果输入一个用大量科技论文数据训练而成的深度学习模型,从而生成创新主题;采用的模型为由双向LSTM层组成的Sequence to Sequence模型。【结果】以人工智能领域内中文科技论文作为实验数据,实验结果表明,模型的挖掘结果经过专家人为判断验证,创新效果平均值为6.52。【局限】目前知识图谱的知识丰富度和关联性有限、用于训练模型的训练集质量和体量还有待于进一步提升。【结论】本文模型实现了从文本数据中挖掘出创新主题,但创新主题识别模型的整体水平仍然需要进一步完善优化。 展开更多
关键词 创新主题 深度学习 Seq2Seq 智能挖掘
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部