期刊文献+
共找到551篇文章
< 1 2 28 >
每页显示 20 50 100
Text-to-SQL文本信息处理技术研究综述 被引量:1
1
作者 彭钰寒 乔少杰 +5 位作者 薛骐 李江敏 谢添丞 徐康镭 冉黎琼 曾少北 《无线电工程》 2024年第5期1053-1062,共10页
信号与信息处理的需求日益增加,离不开数据处理技术,数据处理需要数据库的支持,然而没有经过训练的使用者会因为不熟悉数据库操作产生诸多问题。文本转结构化查询语言(Text to Structured Query Language,Text-to-SQL)的出现,使用户无... 信号与信息处理的需求日益增加,离不开数据处理技术,数据处理需要数据库的支持,然而没有经过训练的使用者会因为不熟悉数据库操作产生诸多问题。文本转结构化查询语言(Text to Structured Query Language,Text-to-SQL)的出现,使用户无需掌握结构化查询语言(Structured Query Language,SQL)也能够熟练操作数据库。介绍Text-to-SQL的研究背景及面临的挑战;介绍Text-to-SQL关键技术、基准数据集、模型演变及最新研究进展,关键技术包括Transformer等主流技术,用于模型训练的基准数据集包括WikiSQL和Spider;介绍Text-to-SQL不同阶段模型的特点,详细阐述Text-to-SQL最新研究成果的工作原理,包括模型构建、解析器设计及数据集生成;总结Text-to-SQL未来的发展方向及研究重点。 展开更多
关键词 文本转结构化查询语言 解析器 文本信息处理 数据库 深度学习
下载PDF
On Multi-Thread Crawler Optimization for Scalable Text Searching
2
作者 Guang Sun Huanxin Xiang Shuanghu Li 《Journal on Big Data》 2019年第2期89-106,共18页
Web crawlers are an important part of modern search engines.With the development of the times,data has exploded and humans have entered a“big data era”.For example,Wikipedia carries the knowledge from all over the w... Web crawlers are an important part of modern search engines.With the development of the times,data has exploded and humans have entered a“big data era”.For example,Wikipedia carries the knowledge from all over the world,records the realtime news that occurs every day,and provides users with a good database of data,but because of the large amount of data,it puts a lot of pressure on users to search.At present,single-threaded crawling data can no longer meet the requirements of text crawling.In order to improve the performance and program versatility of single-threaded crawlers,a high-speed multi-threaded web crawler is designed to crawl the network hyper-scale text database.Multi-threaded crawling uses multiple threads to process web pages in parallel,combining breadth-first and depth-first algorithms to control web crawling.The practice project is based on the Python language to achieve multi-threaded optimization network hyper-large-scale text database-Wikipedia book crawling method,the project is inspired by the article on the Wikipedia article in the Big Data Digest public number. 展开更多
关键词 MULTI-THREADING text database OPTIMIZATION breadth-first search depth-first search.
下载PDF
中华电子佛典的数据库建设与文字学应用——以《广弘明集》为例
3
作者 王茜 辛睿龙 《山西档案》 北大核心 2024年第6期117-120,共4页
由中华电子佛典协会主持的CBETA中华电子佛典数据库是目前流通最广、使用最多、贡献最大的佛教典籍全文数据库。以《大正新修大藏经》的数字化为中心,介绍中华电子佛典的数据库建设情况,进一步讨论中华电子佛典的文本分类依据,并阐述中... 由中华电子佛典协会主持的CBETA中华电子佛典数据库是目前流通最广、使用最多、贡献最大的佛教典籍全文数据库。以《大正新修大藏经》的数字化为中心,介绍中华电子佛典的数据库建设情况,进一步讨论中华电子佛典的文本分类依据,并阐述中华电子佛典的文本信息标注方式。以《广弘明集》为例,通过梳理和分析XML标记语言在中华电子佛典的一般呈现方式,揭示中华电子佛典提供的佛教文献文本信息,以验证中华电子佛典在文字学研究方面的重要参考利用价值。 展开更多
关键词 中华电子佛典 CBETA 《大正藏》 数据库 《广弘明集》
下载PDF
1997-2006年我国核心期刊研究的文献计量分析 被引量:8
4
作者 李强 吴淑金 +3 位作者 罗媚娟 黄艳华 袁宁 陈清 《中华医学图书情报杂志》 CAS 2008年第4期65-68,共4页
采用文献计量学方法,从论文分布、作者分布、发表论文的机构和地区分布、基金资助等方面对1997-2006年中国期刊全文数据库收录的有关核心期刊研究的论文进行了统计分析,对其研究现状和发展趋势进行探讨,指出了我国有关核心期刊研究的一... 采用文献计量学方法,从论文分布、作者分布、发表论文的机构和地区分布、基金资助等方面对1997-2006年中国期刊全文数据库收录的有关核心期刊研究的论文进行了统计分析,对其研究现状和发展趋势进行探讨,指出了我国有关核心期刊研究的一些不足,并提出了相应的对策。 展开更多
关键词 核心期刊 科研论文 文献计量学 中国期刊全文数据库
下载PDF
Oracle Text技术在复杂结构数据库中的应用 被引量:5
5
作者 蒙辉 陈燕 《计算机技术与发展》 2007年第4期38-40,44,共4页
全文检索技术是智能信息管理的关键技术之一,Oracle Text作为Oracle9i的一个组件,提供了强大的全文检索功能。但Oracle Text全文检索技术只是针对表结构相对固定的数据库,而对表结构以及表数量不断变化的数据库实现全文检索的能力是不... 全文检索技术是智能信息管理的关键技术之一,Oracle Text作为Oracle9i的一个组件,提供了强大的全文检索功能。但Oracle Text全文检索技术只是针对表结构相对固定的数据库,而对表结构以及表数量不断变化的数据库实现全文检索的能力是不足的。文中介绍了Oracle Text全文检索技术的方法和步骤,阐述了其在复杂结构数据库中的具体应用,最后程序实现了所设计的全文检索技术。 展开更多
关键词 ORACLE text 复杂结构数据库 全文检索
下载PDF
试论中文电子期刊数据库资源重复建设问题--以VIP、CNKI、万方三大全文数据库为例 被引量:25
6
作者 温芳芳 《新世纪图书馆》 CSSCI 2008年第2期69-71,共3页
论文以维普(VIP)、中国知网(CNKI)和万方三大全文期刊数据库为例,分析了数据库资源重复建设问题,并初步提出基于学科专业分别建库的特色化发展构想。
关键词 电子期刊 全文数据库 重复建设 特色化发展
下载PDF
基于可搜索加密技术的分布式数据库安全访问多级控制算法
7
作者 郎加云 丁晓梅 《吉林大学学报(信息科学版)》 CAS 2024年第3期531-536,共6页
为解决分布式数据库中明文传输容易被篡改的安全隐患,提出了一种基于可搜索加密技术的分布式数据库安全访问多级控制算法。该算法将授权用户按照安全级别分组,并采用TF-IDF(Tem Frequency-Inverse Document Frequency)算法计算明文关键... 为解决分布式数据库中明文传输容易被篡改的安全隐患,提出了一种基于可搜索加密技术的分布式数据库安全访问多级控制算法。该算法将授权用户按照安全级别分组,并采用TF-IDF(Tem Frequency-Inverse Document Frequency)算法计算明文关键词的权重,然后利用AES(Advanced Encryption Standard)算法和轮函数生成密文的密钥,使用矩阵函数和逆矩阵函数对明文进行加密,并将加密结果上传至主服务器。同时,采用Build Index算法生成密文的索引,根据用户安全级别相关属性信息审查用户是否具有访问密文的权限,审查通过后用户即可发出密文数量与关键词搜索请求,服务器将密文送回用户端并使用对称密钥方式解密,实现访问多级控制。实验结果表明,该方法在加密、解密过程中用时较短,且安全访问控制性能良好。 展开更多
关键词 可搜索加密技术 分布式数据库 安全访问控制 明文加密
下载PDF
e-考据与中国近代逻辑史疑难考辩 被引量:10
8
作者 晋荣东 《社会科学》 CSSCI 北大核心 2013年第4期113-120,共8页
受到"e-考据"研究设想的启发,通过检索和分析"晚清期刊全文数据库(1833—1910)"、"民国时期期刊全文数据库(1911—1949)"、"大成老旧刊全文数据库"、"大学数字图书馆国际合作计划"... 受到"e-考据"研究设想的启发,通过检索和分析"晚清期刊全文数据库(1833—1910)"、"民国时期期刊全文数据库(1911—1949)"、"大成老旧刊全文数据库"、"大学数字图书馆国际合作计划"等电子数据库提供的相关资源,对有关中国近代逻辑史的若干疑难问题进行了考辩,纠正了一些广为流行的不实之说,初步回答了"logic"一词的日制汉字译名"论理学"最早何时被引入汉语学术界,"名学"和"辨(辩)学"最早何时被用来指称中国古代逻辑,以及"名辩"一词何时出现、最早何时被引入中国古代逻辑研究等问题。 展开更多
关键词 e-考据 全文数据库 中国近代逻辑史
下载PDF
基于位置-文本关系的空间对象top-k查询与排序方法 被引量:2
9
作者 孟祥福 张霄雁 +2 位作者 赵路路 李盼 毕崇春 《智能系统学报》 CSCD 北大核心 2020年第2期235-242,共8页
针对普通的空间关键字查询通常会导致多查询结果的问题。本文提出了一种基于空间对象位置-文本相关度的top-k查询与排序方法,用于获取与给定空间关键字查询在文本上相关且位置上相近的典型空间对象。该方法分为离线处理和在线查询处理2... 针对普通的空间关键字查询通常会导致多查询结果的问题。本文提出了一种基于空间对象位置-文本相关度的top-k查询与排序方法,用于获取与给定空间关键字查询在文本上相关且位置上相近的典型空间对象。该方法分为离线处理和在线查询处理2个阶段。在离线阶段,根据空间对象之间的位置相近性和文本相似性,度量任意一对空间对象之间的位置-文本关系紧密度。在此基础上,提出了基于概率密度的代表性空间对象选取算法,根据空间对象之间的位置-文本关系为每个代表性空间对象构建相应的空间对象序列。在线查询处理阶段,对于一个给定的空间关键字查询,利用Cosine相似度评估方法计算查询条件与代表性空间对象之间的相关度,然后使用阈值算法(threshold algorithm,TA)在预先创建的空间对象序列上快速选出top-k个满足查询需求的典型空间对象。实验结果表明:提出的空间对象top-k查询与排序方法能够有效地满足用户查询需求,并且具有较高的准确性、典型性和执行效率。 展开更多
关键词 空间数据库 空间关键字查询 位置-文本关系 概率密度 代表性对象选取 top-k查询与排序
下载PDF
B-树/B+树的批量插入算法 被引量:11
10
作者 魏小亮 蔡弘 《中央民族大学学报(自然科学版)》 2001年第1期57-61,共5页
本文对传统的B -树 /B +树插入算法进行改进 ,提出了B -树 /B +树的批量插入的算法 ,在理论上估计了该算法的复杂度 ,并进行了比较实验 .实验结果表明 :本算法在对大批量的关键字建立索引时 ,大大提高了B -树 /B +树的插入效率 。
关键词 B+树 插入 算法 批量 索引 关键字 复杂度 比较实验 实验结果 更新
下载PDF
基于协同过滤的医院图书馆数据库文本分类优化技术
11
作者 从莉萍 沈剑文 王海生 《微型电脑应用》 2024年第2期146-148,153,共4页
传统医院图书馆数据库文本分类是对指定规模文本的分类,无法针对特定用户的浏览内容实施分类。为此,提出基于协同过滤的医院图书馆数据库文本分类优化方法。将用户浏览数据库文本的特征看做物品,构建半自动编码器的协同过滤模型优化用... 传统医院图书馆数据库文本分类是对指定规模文本的分类,无法针对特定用户的浏览内容实施分类。为此,提出基于协同过滤的医院图书馆数据库文本分类优化方法。将用户浏览数据库文本的特征看做物品,构建半自动编码器的协同过滤模型优化用户物品评分矩阵,使用平均评分修正因子、热门物品惩罚因子改进相似度计算。引入注意力机制构建CNN-SVM分类模型,将用户文本浏览特征作为输入,实现文本分类。测试表明,该方法构建评分矩阵的RMSE最低,推荐图书馆文本阅读特征的MAE值最小,在文本分类上F1值达到96.5%,有较好的文本分类效果。 展开更多
关键词 协同过滤 医院图书馆 数据库 半自动编码器 文本分类
下载PDF
基于MLVDS和USB3.0的大数据高并发传输控制系统设计
12
作者 王育军 《计算机测量与控制》 2024年第4期81-86,128,共7页
为解决网络主机大数据样本单位并发量有限的问题,有效控制大数据高并发传输数据参量,设计了基于多点低压差分信号(MLVDS)和USB3.0的大数据高并发传输控制系统;在Web服务器架构中,接入MLVDS驱动器与并行接收器设备,并联合相关应用元件,... 为解决网络主机大数据样本单位并发量有限的问题,有效控制大数据高并发传输数据参量,设计了基于多点低压差分信号(MLVDS)和USB3.0的大数据高并发传输控制系统;在Web服务器架构中,接入MLVDS驱动器与并行接收器设备,并联合相关应用元件,调度可移动网关的主控模块,完成大数据高并发传输控制系统的硬件结构设计;利用USB3.0控制芯片,完善接口电路组织的连接回路,完成基于USB3.0的控制电路搭建;设置MySQL数据库表单,借助TCP/IP协议,处理大数据并发文本,再联合相关大数据参量,定义INF传输控制指令,实现对传输控制行为的分析;结合相关硬件结构,完成基于MLVDS和USB3.0的大数据高并发传输控制系统的设计;实验结果表明,设计系统可提升大数据样本顺序和逆序并发量的均值水平,解决了大数据样本单位并发量有限的问题,有效控制大数据高并发传输数据参量。 展开更多
关键词 MLVDS驱动器 USB3.0芯片 大数据 高并发传输 传输控制系统 可移动网关 MYSQL数据库 TCP/IP协议 并发文本
下载PDF
全文数据库检索的图-阵列贴码技术 被引量:1
13
作者 马巍 《大连铁道学院学报》 1999年第1期85-88,共4页
分析、研究了全文数据库检索的贴码技术,提出一种新的图-阵列贴码技术,与其他贴码技术相比,该技术能够降低误检率并能处理提问中的自由间。
关键词 全文数据库 检索 贴码技术 误检率 图阵列贴码
下载PDF
杭州古代桥梁碑刻图文调查及数据库建设研究
14
作者 王学平 郑明玉 《建设科技》 2024年第4期62-64,共3页
本文以杭州古代桥梁碑刻图文为研究对象,通过对碑刻的年代、地域、材质、工艺等方面的考察,以及对其图文内容的解读,揭示杭州古代桥梁及碑刻的发展历程、建筑风格、历史文化价值、艺术鉴赏价值、科技价值。同时,本文还探讨了桥梁碑刻数... 本文以杭州古代桥梁碑刻图文为研究对象,通过对碑刻的年代、地域、材质、工艺等方面的考察,以及对其图文内容的解读,揭示杭州古代桥梁及碑刻的发展历程、建筑风格、历史文化价值、艺术鉴赏价值、科技价值。同时,本文还探讨了桥梁碑刻数据库建设的目标、方法和应用前景,为相关领域的研究者提供有益的参考,为历史文化保护和学术研究提供可靠的资料。 展开更多
关键词 杭州 古代桥梁 碑刻图文 数据库建设
下载PDF
MongoDB在期刊数据库日志管理应用的探析--以上海图书馆《全国报刊索引》全文库为例 被引量:1
15
作者 王静 《现代计算机》 2021年第31期88-91,共4页
随着读者访问民国全文数据库的快速增长和下载量的增大,后台的日志数据量和并发量也急剧增长,需要找到适宜的日志数据库系统来进行管理。本文通过对非关系性数据库MongoDB与关系型数据库MySQL在海量日志数据管理上的比较分析,最终选取Mo... 随着读者访问民国全文数据库的快速增长和下载量的增大,后台的日志数据量和并发量也急剧增长,需要找到适宜的日志数据库系统来进行管理。本文通过对非关系性数据库MongoDB与关系型数据库MySQL在海量日志数据管理上的比较分析,最终选取MongoDB数据库,在上海图书馆的《全国报刊索引》平台民国全文数据库建立了一套日志管理系统。该系统建立运行后,取得了良好的效果,极大的提高了平台日志数据管理效率和分析应用水平,为民国全文数据库的日志管理提供一种解决方案。 展开更多
关键词 民国全文数据库 海量日志处理 MONGODB MYSQL
下载PDF
图-阵列贴码技术及其在全文检索中的应用
16
作者 李琳 《情报科学》 CSSCI 2000年第12期1138-1140,共3页
本文对现有贴码技术进行了分析对比 ,在此基础上提出了一种新的贴码法——图 -阵列贴码法 ,该技术应用在英文全文数据库检索中能够降低误检率并可处理检索提问中的自由词。
关键词 贴码技术 MAS SIC 误检率 全文数据库
下载PDF
Crypt-JDBC模型:洋葱加密算法的优化改进 被引量:4
17
作者 陈鹤 田秀霞 +1 位作者 袁培森 金澈清 《计算机科学与探索》 CSCD 北大核心 2017年第8期1246-1257,共12页
CryptDB是一种典型的密文存储技术,它根据运算操作语义使用洋葱加密算法将SQL语句改写到不同的洋葱密文列,从而仅暴露数据的部分属性即可执行查询任务。针对洋葱加密算法的不足之处提出了一种名为Crypt-JDBC的改进模型:(1)鉴于洋葱层数... CryptDB是一种典型的密文存储技术,它根据运算操作语义使用洋葱加密算法将SQL语句改写到不同的洋葱密文列,从而仅暴露数据的部分属性即可执行查询任务。针对洋葱加密算法的不足之处提出了一种名为Crypt-JDBC的改进模型:(1)鉴于洋葱层数多,且相邻层功能差异大,新模型把洋葱列分为主列与辅助列,并压缩洋葱层的改进方法(主列使用双向算法可还原明文,辅助列使用单向算法提供属性,保证安全性);(2)鉴于等值连接算法复杂低效,新模型通过简化一个关键模块(差异性转换)来降低复杂度;(3)鉴于列名的明文、密文名称对应性弱,新模型重新设计了明密文列名称的对应关系,减少了上下文信息,加强了密钥整体性。实现了Crypt-JDBC模型,用JDBC替换中间件软件MySQL-Proxy。实验结果表明,该模型具有较高的执行效率。 展开更多
关键词 CryptDB 加密数据库 Crypt-JDBC模型 洋葱加密算法 密文数据库
下载PDF
基于用户元分析需求的网上期刊全文库查全问题研究——兼谈SCL-90调查主题论文的检索策略
18
作者 陈国明 《宁波教育学院学报》 2007年第3期43-46,52,共5页
在网上期刊全文库使用过程中,数据库的收录范围、分类和标引状况、检索功能会影响文献的查全率。为提高元分析质量,在SCL-90调查主题论文检索过程中,应整合国内三大中文期刊全文库资源,并根据各个全文库特点,采取相应策略,减少漏检的发生。
关键词 元分析 中文期刊全文数据库 检索策略 查全率 症状自评量表
下载PDF
书同文字与再造书契——论古籍数字化时代的字符统一与文本规范
19
作者 李飞跃 《北京师范大学学报(社会科学版)》 北大核心 2023年第5期127-141,共15页
随着古籍的电子化与数据库应用,曾经停废的大量汉字被激活。字体字形多样、字际关系复杂和编码系统不一,严重阻碍了古籍文本的编辑、保存、呈现、转换、检索及深度利用。文本的电子化、规范化及标准化是古籍数字化的起点,也是数字设施... 随着古籍的电子化与数据库应用,曾经停废的大量汉字被激活。字体字形多样、字际关系复杂和编码系统不一,严重阻碍了古籍文本的编辑、保存、呈现、转换、检索及深度利用。文本的电子化、规范化及标准化是古籍数字化的起点,也是数字设施建设和数字人文研究的基础。近代以来新旧字体、正俗字形与字符编码的三次系统性变更,决定了字符集与文本库建设只能以发布的各种国家标准为基础。纵观历史,汉字一直处在不断统一规范的进程中,汉文典籍的一致性让中华文明具有突出的统一性。创建统一字符集和标准文本库将是继秦朝“书同文字”之后的全新规范,也是汉字系统继从刻画到书写,又到数码形态的再次重置。“再造书契”有利于实现古籍数据的统一刻画、深度标引、交互整合和多功能开发,促进古籍文本结构化、知识体系化、平台智能化,推动古籍整理利用的转型升级。 展开更多
关键词 古籍数字化 字符集 文本库 书同文
下载PDF
基于文本挖掘技术的脑卒中文献计量分析:以PubMed数据库为例 被引量:2
20
作者 叶全伟 杨肖光 +2 位作者 叶丽萍 刘静 周萍 《中国卫生质量管理》 2023年第3期25-30,共6页
目的回溯并勾勒2010年-2020年全球脑卒中领域研究的主题演化历程与时空分布规律。方法从PubMed数据库中获取2010年-2020年脑卒中相关文献,利用R 4.1.2的pubmedR软件包批量抓取文献基本信息,通过quanteda软件包构建语料库,使用结构主体... 目的回溯并勾勒2010年-2020年全球脑卒中领域研究的主题演化历程与时空分布规律。方法从PubMed数据库中获取2010年-2020年脑卒中相关文献,利用R 4.1.2的pubmedR软件包批量抓取文献基本信息,通过quanteda软件包构建语料库,使用结构主体模型进行分析,并运用ggplot2软件包进行国家或地区合作网络分析。结果全球脑卒中研究2010年-2013年为快速增长期,增长率为11.94%~17.60%;2014年-2018年为增长平缓期,增长率为3%~4%左右;2019年-2020年再次快速增长,增长率为12.81%、17.96%。中国内地地区在2012年、2020年增长率分别为102.99%、43.85%,在全球两个阶段的高速增长期中均做出了较大贡献。基于文献摘要文本,共归纳出11个主题类别,其中“临床研究”与“卒中康复”占较大比重,合计热度值为46.66%。我国近年研究热点主要集中在“分子遗传病学”与“动物实验”。结论全球脑卒中研究热度持续增长,主题类别逐渐丰富。我国需进一步加强脑卒中前端预防和后端康复研究,优化防治策略。 展开更多
关键词 文本挖掘技术 文献计量分析 脑卒中 PubMed数据库
下载PDF
上一页 1 2 28 下一页 到第
使用帮助 返回顶部