期刊文献+
共找到250篇文章
< 1 2 13 >
每页显示 20 50 100
A method for improving the accuracy of automatic indexing of Chinese-English mixed documents
1
作者 Yan ZHAO Hui SHI 《Chinese Journal of Library and Information Science》 2012年第4期77-92,共16页
Purpose: The thrust of this paper is to present a method for improving the accuracy of automatic indexing of Chinese-English mixed documents.Design/methodology/approach: Based on the inherent characteristics of Chines... Purpose: The thrust of this paper is to present a method for improving the accuracy of automatic indexing of Chinese-English mixed documents.Design/methodology/approach: Based on the inherent characteristics of Chinese-English mixed texts and the cybernetics theory,we proposed an integrated control method for indexing documents. It consists of 'feed-forward control','in-progress control' and 'feed-back control',aiming at improving the accuracy of automatic indexing of Chinese-English mixed documents. An experiment was conducted to investigate the effect of our proposed method.Findings: This method distinguishes Chinese and English documents in grammatical structures and word formation rules. Through the implementation of this method in the three phases of automatic indexing for the Chinese-English mixed documents,the results were encouraging. The precision increased from 88.54% to 97.10% and recall improved from97.37% to 99.47%.Research limitations: The indexing method is relatively complicated and the whole indexing process requires substantial human intervention. Due to pattern matching based on a bruteforce(BF) approach,the indexing efficiency has been reduced to some extent.Practical implications: The research is of both theoretical significance and practical value in improving the accuracy of automatic indexing of multilingual documents(not confined to Chinese-English mixed documents). The proposed method will benefit not only the indexing of life science documents but also the indexing of documents in other subject areas.Originality/value: So far,few studies have been published about the method for increasing the accuracy of multilingual automatic indexing. This study will provide insights into the automatic indexing of multilingual documents,especially Chinese-English mixed documents. 展开更多
关键词 Chinese-English mixed documents String matching Accuracy of automatic indexing CYBERNETICS Dedicated hepatitis B virus(HBV) database
下载PDF
满足多层级和专精深信息需求的客家文献分类与标引
2
作者 刘菊霞 《嘉应学院学报》 2024年第2期19-23,共5页
文章阐述了科学编制并严格遵循客家文献的分编细则,深度标引和全方位揭示客家文献的必要性和基本途径:采用多种方式对客家文献进行分类,对所有的题名字段进行标引,详实著录附注项,深度标引规范主题词,全面添加专指性强的非控主题词,对... 文章阐述了科学编制并严格遵循客家文献的分编细则,深度标引和全方位揭示客家文献的必要性和基本途径:采用多种方式对客家文献进行分类,对所有的题名字段进行标引,详实著录附注项,深度标引规范主题词,全面添加专指性强的非控主题词,对地名主题进行规范控制。通过最大限度提高客家文献的“可辨识度”,提升查全率、查准率以及满足率与利用率,为客家地区的社会经济文化发展提供信息支撑。 展开更多
关键词 客家文献 地方文献 分编细则 分类标引 文献著录
下载PDF
政策文献量化研究中的PMC指数模型应用述评 被引量:3
3
作者 方思越 刘清 《现代情报》 CSSCI 北大核心 2024年第4期168-176,共9页
[目的/意义]PMC指数模型是政策文献量化研究的重要方法之一,相关研究成果丰富,需要系统总结,以促进该方法的进一步发展。[方法/过程]使用文献计量方法,分析国内应用PMC指数模型的现状,整理出PMC指数模型的一般流程,对流程中各步骤的实... [目的/意义]PMC指数模型是政策文献量化研究的重要方法之一,相关研究成果丰富,需要系统总结,以促进该方法的进一步发展。[方法/过程]使用文献计量方法,分析国内应用PMC指数模型的现状,整理出PMC指数模型的一般流程,对流程中各步骤的实践状况进行描述,并展开如何更合理使用该模型的讨论。[结果/结论]PMC指数模型应用于政策评价是一种狭义的评价,对其合理使用需要明确这一定位,构建科学的指标体系,保证应用过程中政策文本的前后一致性。 展开更多
关键词 政策文献量化 PMC指数模型 计量分析 综述
下载PDF
ALBERT预训练模型在医疗文书命名实体识别中的应用研究
4
作者 庞秋奔 李银 《信息与电脑》 2024年第6期152-156,共5页
中文电子病历命名实体识别主要是研究电子病历病程记录文书数据集,文章提出对医疗手术麻醉文书数据集进行命名实体识别的研究。利用轻量级来自Transformer的双向编码器表示(A Lite Bidirectional Encoder Representation from Transform... 中文电子病历命名实体识别主要是研究电子病历病程记录文书数据集,文章提出对医疗手术麻醉文书数据集进行命名实体识别的研究。利用轻量级来自Transformer的双向编码器表示(A Lite Bidirectional Encoder Representation from Transformers,ALBERT)预训练模型微调数据集和Tranfomers中的trainer训练器训练模型的方法,实现在医疗手术麻醉文书上识别手术麻醉事件命名实体与获取复杂麻醉医疗质量控制指标值。文章为医疗手术麻醉文书命名实体识别提供了可借鉴的思路,并且为计算复杂麻醉医疗质量控制指标值提供了一种新的解决方案。 展开更多
关键词 命名实体识别 轻量级来自Transformer的双向编码器表示(ALBERT)模型 TRANSFORMERS 麻醉医疗质量控制指标 医疗手术麻醉文书
下载PDF
联合度量指标损失和U-Net的文档图像二值化
5
作者 张晶 周稻祥 +1 位作者 吴永飞 冯姝 《计算机工程与设计》 北大核心 2024年第8期2400-2406,共7页
当前深度神经网络模型在图像分割时均采用交叉熵做训练损失函数,当损失值变小时评价指标不一定变得更优。为解决上述缺陷,提出一种基于度量指标损失的U-Net网络模型。由于错误接受率和错误拒绝率变小时度量指标F-Mea-sure会上升,因此构... 当前深度神经网络模型在图像分割时均采用交叉熵做训练损失函数,当损失值变小时评价指标不一定变得更优。为解决上述缺陷,提出一种基于度量指标损失的U-Net网络模型。由于错误接受率和错误拒绝率变小时度量指标F-Mea-sure会上升,因此构建半错误率损失函数。采用分治策略,将文档图像分割成固定大小的图像块,分别进行二值化。在文档图像竞赛数据集上进行大量对比实验,实验结果表明,该方法相比原始U-Net,在4个度量指标上均有提升,二值化结果图像的文字连通性更好、噪声更少。 展开更多
关键词 文档图像二值化 卷积神经网络 交叉熵 度量指标损失 打印图像 手写图像 深度学习
下载PDF
裁判文书“司法索引”功能定位的形态演化与改革展望
6
作者 王竹 谷松原 《厦门大学学报(哲学社会科学版)》 CSSCI 北大核心 2023年第2期142-153,共12页
在人民法院司法工作“车之两轮、鸟之双翼”的建设背景下,裁判文书显示出“司法索引”的功能定位,其改革孕育了裁判文书司法索引的萌芽形态。人民法院信息化建设的数字化、网络化和智能化进阶,实质上引发了人民法院裁判数据改革,裁判文... 在人民法院司法工作“车之两轮、鸟之双翼”的建设背景下,裁判文书显示出“司法索引”的功能定位,其改革孕育了裁判文书司法索引的萌芽形态。人民法院信息化建设的数字化、网络化和智能化进阶,实质上引发了人民法院裁判数据改革,裁判文书实现了从“被索引”到“索引化”的转变,司法索引功能定位形成;“要素索引”形态的出现,标志着裁判文书司法索引形态成熟。以知识为中心的人民法院信息化4.0版建设开启了裁判知识改革,裁判文书司法索引迎来从“要素索引”到“知识索引”的形态突破。为实现裁判文书司法索引形态的突破,需要进一步深化裁判文书改革,深推人民法院裁判数据改革,深耕人民法院裁判知识改革。 展开更多
关键词 裁判文书改革 司法索引 裁判数据改革 裁判知识改革
下载PDF
全文数据库建库原理与应用技术 被引量:28
7
作者 王兰成 蒋丹 刘庆辉 《情报学报》 CSSCI 北大核心 1999年第4期321-328,共8页
全文数据库是处理文献信息中知识与数据的有力工具,近年来得到迅猛发展。本文首先详细分析了全文数据库的特点,提出了建立全文数据库的各种数据结构,系统介绍全文数据库的开发步骤。然后论述全文数据库的标引和检索技术,提出一些新... 全文数据库是处理文献信息中知识与数据的有力工具,近年来得到迅猛发展。本文首先详细分析了全文数据库的特点,提出了建立全文数据库的各种数据结构,系统介绍全文数据库的开发步骤。然后论述全文数据库的标引和检索技术,提出一些新的处理技术。最后就全文数据库实际应用中的一些问题,提供了解决方案。 展开更多
关键词 全文数据库 软件开发 文献标引 全文检索
下载PDF
主题标引在文献检索中的作用及提高标引质量的对策 被引量:7
8
作者 孙风梅 曹高芳 李艳芝 《图书馆论坛》 CSSCI 北大核心 2004年第5期148-149,144,共3页
阐述了文献检索与主题标引的关系 ,从标引质量。
关键词 主题标引 文献检索 标引质量 标引深度
下载PDF
基于Lucene的全文检索系统的设计与实现 被引量:14
9
作者 王莉云 王华 +1 位作者 陈刚 姚乃明 《计算机工程与设计》 CSCD 北大核心 2007年第24期5959-5961,共3页
Lucene是一个全文索引引擎工具包,具有访问索引效率高、支持多用户访问、跨平台等优点。把Lucene的索引与全文检索数据库的索引进行比较来介绍Lucene的索引原理及其结构组成,并分析通用的检索系统的组成。最后提出了通用的基于Lucene的... Lucene是一个全文索引引擎工具包,具有访问索引效率高、支持多用户访问、跨平台等优点。把Lucene的索引与全文检索数据库的索引进行比较来介绍Lucene的索引原理及其结构组成,并分析通用的检索系统的组成。最后提出了通用的基于Lucene的全文检索系统的设计以及对实现的关键技术进行了探讨。 展开更多
关键词 检索 索引 文档
下载PDF
一种辅以强规则学习的双层文本分类模型 被引量:3
10
作者 刘金红 陆余良 周新栋 《计算机工程》 CAS CSCD 北大核心 2007年第8期165-167,共3页
随着基于机器学习的文本自动分类方法成为主流分类技术,基于机器学习的文本分类方法往往忽视了对规则分类方法的有效运用。该文将基于规则的分类思想和基于机器学习的分类方法有机地结合起来,把规则判别看作一个分量分类器,提出了一种... 随着基于机器学习的文本自动分类方法成为主流分类技术,基于机器学习的文本分类方法往往忽视了对规则分类方法的有效运用。该文将基于规则的分类思想和基于机器学习的分类方法有机地结合起来,把规则判别看作一个分量分类器,提出了一种辅以规则补充的双层文本分类模型和一种优化的分类规则学习算法。根据该方法设计并实现了一个基于规则和N-Gram统计分类相结合的双层分类器,进行了双层分类模型与单独的N-Gram分类模型的实验,结果表明辅以规则补充的双层分类器具有更好的分类性能。 展开更多
关键词 文本分类 文档索引 分类规则学习
下载PDF
基于Lucene的全文检索系统研究与开发 被引量:68
11
作者 郎小伟 王申康 《计算机工程》 CAS CSCD 北大核心 2006年第4期94-96,99,共4页
提出了一种基于Jakarta Lucene的全文检索系统模型。该模型相对于Google的站内检索,以及传统的数据库检索都有较为明显的优势。其关键字的拆分比对技术、信息检索的速度以及最终结果的排序都有独到之处。能够保证检索的前100条记录最符... 提出了一种基于Jakarta Lucene的全文检索系统模型。该模型相对于Google的站内检索,以及传统的数据库检索都有较为明显的优势。其关键字的拆分比对技术、信息检索的速度以及最终结果的排序都有独到之处。能够保证检索的前100条记录最符合检索者的需要。 展开更多
关键词 索引 记录 关键字
下载PDF
文献主题标引问题分析与解决方法 被引量:6
12
作者 杨建 王平南 张宇清 《现代情报》 北大核心 2005年第5期124-125,共2页
本文分析了文献主题标引工作中存在的主要问题,提出了几点提高文献主题标引质量的方法。
关键词 文献 主题标引 问题分析 解决方法
下载PDF
基于文档标引图模型的文本相似度策略 被引量:4
13
作者 高茂庭 王正欧 《计算机工程》 CAS CSCD 北大核心 2008年第7期19-22,共4页
文档标引图是一种基于短语的图结构文本特征表示模型,能更加全面、准确地表达文本特征信息,实现渐增的文本聚类和信息处理。该文基于文档标引图特征模型,提出文档相似度计算加法策略和乘法策略,采用变换函数对文档相似度值进行调整,增... 文档标引图是一种基于短语的图结构文本特征表示模型,能更加全面、准确地表达文本特征信息,实现渐增的文本聚类和信息处理。该文基于文档标引图特征模型,提出文档相似度计算加法策略和乘法策略,采用变换函数对文档相似度值进行调整,增强文档之间的可区分性,改进文本聚类和分类等处理的性能,实例证明了策略的有效性。 展开更多
关键词 文本聚类 文档标引图 文本相似度 文本特征模型
下载PDF
历史文献数据库建设中的信息著录和标引问题——《红色中华》、《新中华报》和《解放日报》数字化建设的体会 被引量:5
14
作者 王延凤 王思哲 +1 位作者 赵振峰 王新凤 《图书馆建设》 北大核心 2007年第5期75-77,共3页
在将《红色中华》、《新中华报》和《解放日报》数字化的过程中,我馆遇到了一些障碍。本文主要介绍了解决这些问题的途径和方法,以对一些重要历史文献的数字化起到一定的借鉴作用。
关键词 历史文献 数字化 信息著录 信息标引
下载PDF
中文Web文档全文检索系统的设计及实现 被引量:15
15
作者 曹元大 贺海军 涂哲明 《北京理工大学学报》 EI CAS CSCD 北大核心 2002年第1期68-71,共4页
为解决在检索某些词时发生漏检或错检 ,以及查全率和查准率不高的问题 ,研究字索引技术在中文 Web文档检索中的应用 .着重讨论字索引组织结构和检索方法 ,并引入了字节对齐的索引压缩方法 ,最后描述了一个中文 Web文档全文检索系统的结... 为解决在检索某些词时发生漏检或错检 ,以及查全率和查准率不高的问题 ,研究字索引技术在中文 Web文档检索中的应用 .着重讨论字索引组织结构和检索方法 ,并引入了字节对齐的索引压缩方法 ,最后描述了一个中文 Web文档全文检索系统的结构和实现 .测试表明 ,该系统在响应时间和查准率方面性能均比较好 。 展开更多
关键词 全文检索 WEB文档 字索引 压缩算法 索引库 中文检索系统 系统设计
下载PDF
基于科技知识组织体系的标引框架研究与应用 被引量:2
16
作者 刘春江 胡正银 +1 位作者 方曙 钱力 《图书馆理论与实践》 CSSCI 2018年第7期55-58,共4页
文章基于科技知识组织体系提供的丰富接口,提出了一个文献标引的框架,并针对标引框架中领域词表导出、术语规范、审核校验和语义关联等各个具体环节,确定了所需的接口功能和应用方法。以期通过本框架的研究与应用,能够辅助资源建设人员... 文章基于科技知识组织体系提供的丰富接口,提出了一个文献标引的框架,并针对标引框架中领域词表导出、术语规范、审核校验和语义关联等各个具体环节,确定了所需的接口功能和应用方法。以期通过本框架的研究与应用,能够辅助资源建设人员对海量文献信息进行资源标引工作,扩大科技知识组织体系的服务领域。 展开更多
关键词 文献标引 语义关联 知识组织
下载PDF
中文文献主题的自动标引 被引量:24
17
作者 王永成 顾晓明 王丽霞 《情报学报》 CSSCI 北大核心 1998年第3期219-225,共7页
本文介绍了上海交通大学电脑应用技术研究所开发的中文文献主题自动标引系统CSAIS2.1的主要思路。
关键词 自动标引 中文文献 主题词 文献标引
下载PDF
文献数据库的知识处理与科技项目查新——OAV法在查新检索中的应用探讨 被引量:4
18
作者 曹锦丹 刘鑫 《情报科学》 CSSCI 2000年第3期253-255,共3页
本文讨论文献数据库中的知识表达、标引问题 ,试图将知识工程中的 OAV三元组法引入科技项目查新咨询工作中以解决科研主题。
关键词 文献标引 查新 OAV三元组法 文献数据库
下载PDF
基于Lucene的中文全文检索系统的研究与设计 被引量:6
19
作者 索红光 孙鑫 《计算机工程与设计》 CSCD 北大核心 2008年第19期5083-5086,共4页
提出了一种基于Lucene的中文全文检索系统模型。通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。在检索结果的处理上,采用文本聚类的办法,使... 提出了一种基于Lucene的中文全文检索系统模型。通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。在检索结果的处理上,采用文本聚类的办法,使检索结果分类显示,提高了用户的查找的效率。实验数据表明,该系统在检索中文网页时,在效率、精度和结果处理等方面性能明显提高。 展开更多
关键词 全文检索 网页正文提取 中文分词模块 索引文档预处理 文本聚类
下载PDF
对几种倒排文件压缩技术的研究与分析 被引量:2
20
作者 王虎 王潜平 《计算机工程与应用》 CSCD 北大核心 2006年第7期169-173,共5页
要提高文件检索系统的性能,需要对倒排文件压缩技术进行研究与对比,以使文件检索系统在最大压缩比和最快的解压速度间寻找均衡,以到达最大的吞吐量。对Golomb,Eliasgamma,Eliasdelta,VariableByteEncoding和BinaryInterpolativeCoding... 要提高文件检索系统的性能,需要对倒排文件压缩技术进行研究与对比,以使文件检索系统在最大压缩比和最快的解压速度间寻找均衡,以到达最大的吞吐量。对Golomb,Eliasgamma,Eliasdelta,VariableByteEncoding和BinaryInterpolativeCoding五种压缩技术通过在Windows操作系统下对theTRECWallStreetJournalcollection文件系统进行存取与压缩,从CPU时钟周期角度来对比各个算法的压缩比、压缩与解压缩的时间和对文件的读取和查询所花费的时间,并对它们进行了一个综合的评测。 展开更多
关键词 倒排文件 索引 压缩 文本搜索
下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部