期刊文献+
共找到1,263篇文章
< 1 2 64 >
每页显示 20 50 100
Clustering Text Data Streams 被引量:7
1
作者 刘玉葆 蔡嘉荣 +1 位作者 印鉴 傅蔚慈 《Journal of Computer Science & Technology》 SCIE EI CSCD 2008年第1期112-128,共17页
Clustering text data streams is an important issue in data mining community and has a number of applications such as news group filtering, text crawling, document organization and topic detection and tracing etc. Howe... Clustering text data streams is an important issue in data mining community and has a number of applications such as news group filtering, text crawling, document organization and topic detection and tracing etc. However, most methods are similarity-based approaches and only use the TF,IDF scheme to represent the semantics of text data and often lead to poor clustering quality. Recently, researchers argue that semantic smoothing model is more efficient than the existing TF,IDF scheme for improving text clustering quality. However, the existing semantic smoothing model is not suitable for dynamic text data context. In this paper, we extend the semantic smoothing model into text data streams context firstly. Based on the extended model, we then present two online clustering algorithms OCTS and OCTSM for the clustering of massive text data streams. In both algorithms, we also present a new cluster statistics structure named cluster profile which can capture the semantics of text data streams dynamically and at the same time speed up the clustering process. Some efficient implementations for our algorithms are also given. Finally, we present a series of experimental results illustrating the effectiveness of our technique. 展开更多
关键词 CLUSTERING database applications data mining text data streams
原文传递
中文科技政策文本分类:增强的TextCNN视角 被引量:3
2
作者 李牧南 王良 赖华鹏 《科技管理研究》 北大核心 2023年第2期160-166,共7页
近年尽管针对中文本文分类的研究成果不少,但基于深度学习对中文政策等长文本进行自动分类的研究还不多见。为此,借鉴和拓展传统的数据增强方法,提出集成新时代人民日报分词语料库(NEPD)、简单数据增强(EDA)算法、word2vec和文本卷积神... 近年尽管针对中文本文分类的研究成果不少,但基于深度学习对中文政策等长文本进行自动分类的研究还不多见。为此,借鉴和拓展传统的数据增强方法,提出集成新时代人民日报分词语料库(NEPD)、简单数据增强(EDA)算法、word2vec和文本卷积神经网络(TextCNN)的NEWT新型计算框架;实证部分,基于中国地方政府发布的科技政策文本进行算法校验。实验结果显示,在取词长度分别为500、750和1000词的情况下,应用NEWT算法对中文科技政策文本进行分类的效果优于RCNN、Bi-LSTM和CapsNet等传统深度学习模型,F1值的平均提升比例超过13%;同时,NEWT在较短取词长度下能够实现全文输入的近似效果,可以部分改善传统深度学习模型在中文长文本自动分类任务中的计算效率。 展开更多
关键词 NEWT 深度学习 数据增强 卷积神经网络 政策文本分类 中文长文本
下载PDF
Identifying Scientific Project-generated Data Citation from Full-text Articles: An Investigation of TCGA Data Citation 被引量:4
3
作者 Jiao Li Si Zheng +2 位作者 Hongyu Kang Zhen Hou Qing Qian 《Journal of Data and Information Science》 2016年第2期32-44,共13页
Purpose: In the open science era, it is typical to share project-generated scientific data by depositing it in an open and accessible database. Moreover, scientific publications are preserved in a digital library arc... Purpose: In the open science era, it is typical to share project-generated scientific data by depositing it in an open and accessible database. Moreover, scientific publications are preserved in a digital library archive. It is challenging to identify the data usage that is mentioned in literature and associate it with its source. Here, we investigated the data usage of a government-funded cancer genomics project, The Cancer Genome Atlas(TCGA), via a full-text literature analysis.Design/methodology/approach: We focused on identifying articles using the TCGA dataset and constructing linkages between the articles and the specific TCGA dataset. First, we collected 5,372 TCGA-related articles from Pub Med Central(PMC). Second, we constructed a benchmark set with 25 full-text articles that truly used the TCGA data in their studies, and we summarized the key features of the benchmark set. Third, the key features were applied to the remaining PMC full-text articles that were collected from PMC.Findings: The amount of publications that use TCGA data has increased significantly since 2011, although the TCGA project was launched in 2005. Additionally, we found that the critical areas of focus in the studies that use the TCGA data were glioblastoma multiforme, lung cancer, and breast cancer; meanwhile, data from the RNA-sequencing(RNA-seq) platform is the most preferable for use.Research limitations: The current workflow to identify articles that truly used TCGA data is labor-intensive. An automatic method is expected to improve the performance.Practical implications: This study will help cancer genomics researchers determine the latest advancements in cancer molecular therapy, and it will promote data sharing and data-intensive scientific discovery.Originality/value: Few studies have been conducted to investigate data usage by governmentfunded projects/programs since their launch. In this preliminary study, we extracted articles that use TCGA data from PMC, and we created a link between the full-text articles and the source data. 展开更多
关键词 Scientific data Full-text literature Open access PubMed Central data citation
下载PDF
Automatic User Goals Identification Based on Anchor Text and Click-Through Data 被引量:5
4
作者 YUAN Xiaojie DOU Zhicheng ZHANG Lu LIU Fang 《Wuhan University Journal of Natural Sciences》 CAS 2008年第4期495-500,共6页
Understanding the underlying goal behind a user's Web query has been proved to be helpful to improve the quality of search. This paper focuses on the problem of automatic identification of query types according to th... Understanding the underlying goal behind a user's Web query has been proved to be helpful to improve the quality of search. This paper focuses on the problem of automatic identification of query types according to the goals. Four novel entropy-based features extracted from anchor data and click-through data are proposed, and a support vector machines (SVM) classifier is used to identify the user's goal based on these features. Experi- mental results show that the proposed entropy-based features are more effective than those reported in previous work. By combin- ing multiple features the goals for more than 97% of the queries studied can be correctly identified. Besides these, this paper reaches the following important conclusions: First, anchor-based features are more effective than click-through-based features; Second, the number of sites is more reliable than the number of links; Third, click-distribution- based features are more effective than session-based ones. 展开更多
关键词 query classification user goals anchor text click-through data information retrieval
下载PDF
A Complexity Analysis and Entropy for Different Data Compression Algorithms on Text Files
5
作者 Mohammad Hjouj Btoush Ziad E. Dawahdeh 《Journal of Computer and Communications》 2018年第1期301-315,共15页
In this paper, we analyze the complexity and entropy of different methods of data compression algorithms: LZW, Huffman, Fixed-length code (FLC), and Huffman after using Fixed-length code (HFLC). We test those algorith... In this paper, we analyze the complexity and entropy of different methods of data compression algorithms: LZW, Huffman, Fixed-length code (FLC), and Huffman after using Fixed-length code (HFLC). We test those algorithms on different files of different sizes and then conclude that: LZW is the best one in all compression scales that we tested especially on the large files, then Huffman, HFLC, and FLC, respectively. Data compression still is an important topic for research these days, and has many applications and uses needed. Therefore, we suggest continuing searching in this field and trying to combine two techniques in order to reach a best one, or use another source mapping (Hamming) like embedding a linear array into a Hypercube with other good techniques like Huffman and trying to reach good results. 展开更多
关键词 text FILES data Compression HUFFMAN Coding LZW Hamming ENTROPY COMPLEXITY
下载PDF
A feature representation method for biomedical scientific data based on composite text description
6
作者 SUN Wei 《Chinese Journal of Library and Information Science》 2009年第4期43-53,共11页
Feature representation is one of the key issues in data clustering. The existing feature representation of scientific data is not sufficient, which to some extent affects the result of scientific data clustering. Ther... Feature representation is one of the key issues in data clustering. The existing feature representation of scientific data is not sufficient, which to some extent affects the result of scientific data clustering. Therefore, the paper proposes a concept of composite text description(CTD) and a CTD-based feature representation method for biomedical scientific data. The method mainly uses different feature weight algorisms to represent candidate features based on two types of data sources respectively, combines and finally strengthens the two feature sets. Experiments show that comparing with traditional methods, the feature representation method is more effective than traditional methods and can significantly improve the performance of biomedcial data clustering. 展开更多
关键词 Composite text description Scientific data Feature representation Weight algorism
下载PDF
Fast Data Processing of a Polarimeter-Interferometer System on J-TEXT
7
作者 刘煜锴 高丽 +3 位作者 刘海庆 杨曜 高翔 J-TEXT Team 《Plasma Science and Technology》 SCIE EI CAS CSCD 2016年第12期1143-1147,共5页
A method of fast data processing has been developed to rapidly obtain evolution of the electron density profile for a multichannel polarimeter-interferometer system(POLARIS)on J-TEXT. Compared with the Abel inversio... A method of fast data processing has been developed to rapidly obtain evolution of the electron density profile for a multichannel polarimeter-interferometer system(POLARIS)on J-TEXT. Compared with the Abel inversion method, evolution of the density profile analyzed by this method can quickly offer important information. This method has the advantage of fast calculation speed with the order of ten milliseconds per normal shot and it is capable of processing up to 1 MHz sampled data, which is helpful for studying density sawtooth instability and the disruption between shots. In the duration of a flat-top plasma current of usual ohmic discharges on J-TEXT, shape factor u is ranged from 4 to 5. When the disruption of discharge happens, the density profile becomes peaked and the shape factor u typically decreases to 1. 展开更多
关键词 fast data processing polarimeter-interferometer J-text
下载PDF
基于MQTT协议的轻量化文本信息分发技术研究
8
作者 熊风光 陈霖 +3 位作者 韩慧妍 张元 庞敏 焦世超 《计算机技术与发展》 2024年第2期90-97,共8页
随着卫星通信网络的发展,基于卫星通信网络实现手机、平板电脑等移动通信设备之间的通信成为研究的热点。由于其采用无线电波进行信号传输,且需要经过多个中继站进行信号的转发和处理,导致存在网络延时大、丢包率高以及信道狭窄等问题... 随着卫星通信网络的发展,基于卫星通信网络实现手机、平板电脑等移动通信设备之间的通信成为研究的热点。由于其采用无线电波进行信号传输,且需要经过多个中继站进行信号的转发和处理,导致存在网络延时大、丢包率高以及信道狭窄等问题。针对文本信息在卫星通信网络下的分发过程存在效率低下、可靠性不高的问题,设计一种基于MQTT(Message Queuing Telemetry Transport)协议的轻量化文本信息分发技术。该技术使用MQTT协议作为消息传输协议,在文本信息分发前对MQTT协议进行主题设计、发布订阅机制设计、设备连接设计以及设备心跳设计,确保设备之间的连通性;在文本信息的分发过程中,设计数据校验加密算法、文本信息轻量化处理方法和离线消息存储机制,保证文本信息分发的安全性、可靠性。实验结果表明:相较于传统的基于JSON数据的文本信息分发技术,该技术在提高文本信息分发效率的同时,可确保信息分发的安全性、完整性和稳定性。 展开更多
关键词 MQTT协议 轻量化 文本信息分发 数据加密 离线消息存储
下载PDF
论刑法中的数据:概念、文本与实践
9
作者 赖早兴 《政治与法律》 北大核心 2024年第6期64-82,共19页
数字、数据和信息是信息社会的基本概念。在刑法中,数据的定义和范畴决定着刑法对数据保护的范围与力度。在传统意义上,数据与数字紧密相连,但计算机语言的出现使数据部分脱离数字;大量信息以数据方式呈现,但信息只是数据的表现形式之一... 数字、数据和信息是信息社会的基本概念。在刑法中,数据的定义和范畴决定着刑法对数据保护的范围与力度。在传统意义上,数据与数字紧密相连,但计算机语言的出现使数据部分脱离数字;大量信息以数据方式呈现,但信息只是数据的表现形式之一,数据还包括功能性的程序指令。刑法文本中有显性数据和隐性数据,隐性数据易于被忽视。在司法实践中出现了裁判者泛化数据概念、忽视数据价值、抹杀数据属性差异和同化数据信息等不合理现象。应当在刑法中明确数据概念的基础上,以数据的价值评价侵害数据行为的社会危害性,基于数据的国家秘密、财产、知识产权等属性认定侵害数据行为的性质,明确信息在部分罪名中的独立性,实现刑法对数据权益的保护和对侵害数据行为的打击。 展开更多
关键词 数字 数据 信息 刑法文本 司法实践
下载PDF
基于非平衡MD&A文本数据的财务欺诈识别 被引量:1
10
作者 程双双 谷晓燕 王兴芬 《管理现代化》 北大核心 2024年第1期121-127,共7页
财务欺诈不仅会导致会计信息失真,还会危害经济的健康发展。因此,找到一种高效的智能化欺诈识别方法具有重要的现实意义。本文基于2020—2022年美国上市公司提交到EDGAR数据库的年度报告,聚焦于报告中管理层讨论与分析部分的文本信息(Ma... 财务欺诈不仅会导致会计信息失真,还会危害经济的健康发展。因此,找到一种高效的智能化欺诈识别方法具有重要的现实意义。本文基于2020—2022年美国上市公司提交到EDGAR数据库的年度报告,聚焦于报告中管理层讨论与分析部分的文本信息(Management Discussion and Analysis,MD&A)并对其进行分析。考虑到现有数据中欺诈和非欺诈样本数据极度不平衡的特点,本文在分层注意力网络的基础上设计了一个更高效的财务欺诈识别模型,最终使得欺诈识别模型的F1分数和F2分数分别提高了4.1%和3.7%,所提出的算法框架能够有效提高非平衡MD&A文本数据集的分类正确率。研究结果为财务欺诈识别系统性能的提高以及其他领域长文本分类任务的预测提供了新的解决思路,并进一步验证了使用MD&A文本数据进行财务欺诈识别的有效性,为使用非平衡数据进行欺诈识别提供了直接的实证支持。 展开更多
关键词 财务欺诈识别 管理层讨论与分析 分层注意力网络 非平衡文本数据
下载PDF
基于CNN-LSTM的社交媒体大数据评论文本情感元自动识别方法
11
作者 刘丹 《微型电脑应用》 2024年第4期195-197,201,共4页
为了准确识别社交媒体评论文本情感,助力公众负面情绪引导,提出了基于CNN-LSTM的社交媒体大数据评论文本情感元自动识别方法。通过社交媒体大数据分类,并通过具有字典功能的Token将评论文本转换成数字列表。结合词嵌入技术得到向量列表... 为了准确识别社交媒体评论文本情感,助力公众负面情绪引导,提出了基于CNN-LSTM的社交媒体大数据评论文本情感元自动识别方法。通过社交媒体大数据分类,并通过具有字典功能的Token将评论文本转换成数字列表。结合词嵌入技术得到向量列表,完成社交媒体大数据向量转换的预处理。将预处理获取的向量列表输入CNN网络,得到评论文本情感元最终局部特征值。将该值传至LSTM,通过遗忘门、输入门、输出门调节,获取评论文本情感元特征表征结果,经Softmax分类器分类后,实现情感元自动识别。实验结果表明,该方法能有效完成实验数据预处理,用文字和标签的形式标记正面、负面情感元,并准确识别情感元,间接反映社会问题,应用性较强。 展开更多
关键词 社交媒体数据 评论文本 情感元 向量列表 CNN-LSTM 自动识别
下载PDF
基于知识集成流形的电力设备缺陷文本数据增强方法与应用研究
12
作者 王绪亮 顾媛丽 +3 位作者 张鸿儒 刘灵慧 刘洪顺 李清泉 《电网技术》 EI CSCD 北大核心 2024年第4期1690-1699,I0082,I0083,I0084,共13页
当前电网数字化转型升级,电力设备智能运维技术快速发展,在运维过程中积累了大量包含电网重要信息的电力设备缺陷文本。由于文本数据标签稀疏,以及描述语言的模糊性、差异性等问题,电力文本中的运维信息难以被有效挖掘。文章提出了一种... 当前电网数字化转型升级,电力设备智能运维技术快速发展,在运维过程中积累了大量包含电网重要信息的电力设备缺陷文本。由于文本数据标签稀疏,以及描述语言的模糊性、差异性等问题,电力文本中的运维信息难以被有效挖掘。文章提出了一种针对电力设备缺陷文本的数据增强方法。首先,使用缺陷文本数据集微调预训练模型ERNIE(enhanced representation through knowledge integration),应用多阶段知识掩码策略将电气领域专业知识集成到对缺陷文本的动态编码中;然后在流形假设的基础上基于降噪自动编码器架构设计破坏函数和重建函数,遵循基于信息价值的掩码单元选择策略构建破坏函数,基于微调过的ERNIE构建重建函数,在“破坏-重建”过程中获得位于原始数据流形范围内的增强样本;其次对增强数据集基于影响函数和多样性度量进行数据选择,过滤掉数据质量差和重复度高的增强样本;最后通过多层训练框架,将增强数据应用于各种缺陷文本挖掘任务。算例基于真实设备巡检、检修记录构建了电力设备缺陷文本等级分类任务。结果表明,所提出的算法对缺陷文本挖掘效果有较大提升,并且可以广泛灵活地应用在多种电力设备缺陷文本挖掘任务中。 展开更多
关键词 电力设备缺陷文本 数据增强 知识集成 数据筛选
下载PDF
融合非核心词EDA和SSMix的雷达故障文本分类方法
13
作者 谢雨希 杨江平 +1 位作者 孙知建 胡欣 《火力与指挥控制》 CSCD 北大核心 2024年第4期136-141,共6页
对雷达装备故障文本进行智能化分类,有助于提高雷达装备保障效率。针对雷达故障文本专业性强,样本量小且不平衡的问题,通过非核心词EDA进行类内数据增强,以实现在增加文本量的同时保持关键信息不变。针对非核心词EDA方法产生的新样本多... 对雷达装备故障文本进行智能化分类,有助于提高雷达装备保障效率。针对雷达故障文本专业性强,样本量小且不平衡的问题,通过非核心词EDA进行类内数据增强,以实现在增加文本量的同时保持关键信息不变。针对非核心词EDA方法产生的新样本多样性不够的问题,增加SSMix(saliency-based span mixup for text classification),进行类间数据增强,通过对输入文本非线性的交叉融合来提升文本的多样性。实验证明,与现有的经典基线分类方法和典型数据增强分类方法相比,该方法在准确率上有较大幅度的提升。 展开更多
关键词 雷达故障文本 非核心词EDA SSMix 文本数据增强 分类
下载PDF
图文数据的多级关系分析与挖掘方法
14
作者 郭瑞萍 王海荣 王栋 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期684-694,共11页
如何高效挖掘多模态数据间隐藏的语义关联是当前多模态知识抽取的重点任务之一,为更细粒度地挖掘图像与文本数据间关系,提出了一种多级关系分析与挖掘(MRAM)方法,引入BERT-Large模型,提取文本特征构建文本连接图,利用Faster-RCNN网络提... 如何高效挖掘多模态数据间隐藏的语义关联是当前多模态知识抽取的重点任务之一,为更细粒度地挖掘图像与文本数据间关系,提出了一种多级关系分析与挖掘(MRAM)方法,引入BERT-Large模型,提取文本特征构建文本连接图,利用Faster-RCNN网络提取图像特征来学习空间位置关系和语义关系并构建图像连接图,进而完成单模态内部语义关系计算,在此基础上,使用节点切分方法和带多头注意力机制的图卷积网络(GCN-MA)进行局部和全局的图文关系融合。此外,为提升关系挖掘效率,采用了基于注意力机制的连边权重剪枝策略,用以增强重要分支表示,减少冗余信息干扰。在公开的Flickr30K、MSCOCO-1K、MSCOCO-5K数据集上进行方法实验,并与11种方法进行实验结果的对比分析,所提方法在Flickr30K上的平均召回率提高了0.97%和0.57%,在MSCOCO-1K上的平均召回率提高了0.93%和0.63%,在MSCOCO-5K上的平均召回率提高了0.37%和0.93%,实验结果验证了所提方法的有效性。 展开更多
关键词 关系挖掘 多级关系 注意力机制 图卷积网络 图文数据
下载PDF
EOS Data Dumper——EOS免费数据自动下载与重发布系统 被引量:5
15
作者 南卓铜 王亮绪 李新 《冰川冻土》 CSCD 北大核心 2007年第3期463-469,共7页
为了更有效的利用已有数据资源,不造成科研设施的重复投资,数据共享越来越受到重视.NASA对地观测系统(EOS)提供了大量的包括MODIS在内的免费数据资源,为此,EOS Data Dumper(EDD)通过程序模拟EOS数据门户的正常下载流程,采用了先进的Web... 为了更有效的利用已有数据资源,不造成科研设施的重复投资,数据共享越来越受到重视.NASA对地观测系统(EOS)提供了大量的包括MODIS在内的免费数据资源,为此,EOS Data Dumper(EDD)通过程序模拟EOS数据门户的正常下载流程,采用了先进的Web页面文本信息捕捉技术,实现定时自动下载研究区的全部EOS免费数据,并通过免费的DIAL系统,向互联网重新发布,实现复杂的基于时空的数据查询.从技术角度详细介绍了EDD的项目背景与意义、实现方案。 展开更多
关键词 EOS数据 遥感影像数据 文本信息捕捉 数据共享
下载PDF
产业政策关联度与企业社会责任关系研究——基于政策文本及财务年报的大数据分析
16
作者 杨长进 罗仁杰 +1 位作者 刘芮彤 黄俊 《科技进步与对策》 北大核心 2024年第8期76-84,共9页
选取2012—2021年沪深新能源汽车上市公司为样本,利用Python软件测算企业年报与新能源汽车产业政策关联度,实证检验产业政策关联度对企业社会责任的影响。结果发现:中国新能源汽车产业政策关联度与企业社会责任具有正相关关系,该关系存... 选取2012—2021年沪深新能源汽车上市公司为样本,利用Python软件测算企业年报与新能源汽车产业政策关联度,实证检验产业政策关联度对企业社会责任的影响。结果发现:中国新能源汽车产业政策关联度与企业社会责任具有正相关关系,该关系存在一个阈值:高于该阈值时,国有企业、大规模企业、盈利企业、东部企业社会责任与产业政策关联度存在显著正相关关系,而民营企业、小规模企业、亏损企业、西部企业社会责任与产业政策关联度关系不显著;低于该阈值时,产业政策关联度与企业社会责任关系不显著。结论有助于企业意识到应与政策保持较强的关联性,从而更好地履行社会责任。 展开更多
关键词 政策关联度 社会责任 政策文本 大数据分析 新能源汽车
下载PDF
基于ElasticSearch的医疗数据检索系统的设计与实现
17
作者 汪睿 胡外光 +1 位作者 胡珊珊 周颖 《信息技术》 2024年第4期76-82,共7页
随着医疗技术的发展,医疗业务场景越加复杂,由此产生的医疗数据也越来越多,其来源复杂,结构多变,信息冗余,数据不完整。这些特性使得系统在进行检索时,无法快速、有效、精确地查询数据。为了解决这个问题,设计并实现了基于ElasticSearc... 随着医疗技术的发展,医疗业务场景越加复杂,由此产生的医疗数据也越来越多,其来源复杂,结构多变,信息冗余,数据不完整。这些特性使得系统在进行检索时,无法快速、有效、精确地查询数据。为了解决这个问题,设计并实现了基于ElasticSearch的医疗数据检索系统。该系统将医疗数据进行标准化,填补缺失值,选取合适的分词算法进行分词,将处理后的数据存入ElasticSearch中,同时使用SpringBoot构建系统应用,消耗多个医疗基础业务系统产生的数据,最终形成统一的医疗数据检索系统,给用户提供便捷、精确的查询服务。 展开更多
关键词 lasticSearch 医疗数据 文本分词 全文检索 分布式搜索
下载PDF
个人通信数据的敏感性识别与隐私计量研究 被引量:1
18
作者 臧国全 张盼盼 +1 位作者 柴文科 梁耀娣 《图书情报知识》 北大核心 2024年第2期110-120,共11页
[目的/意义]相关法律法规和通信数据行业标准中,将个人通信数据划分为四个等级,但缺失定量研究支撑,本文定量测度通信隐私值,解决该问题。[研究设计/方法][研究设计/方法]首先归纳通信隐私文本类型并建立通信隐私文本库,其次构建通信敏... [目的/意义]相关法律法规和通信数据行业标准中,将个人通信数据划分为四个等级,但缺失定量研究支撑,本文定量测度通信隐私值,解决该问题。[研究设计/方法][研究设计/方法]首先归纳通信隐私文本类型并建立通信隐私文本库,其次构建通信敏感词表,进行通信数据的敏感性识别,最后通过设计隐私计量模型,对通信隐私进行计量。[结论/发现][结论/发现]隐私性从高到低依次为:通信内容数据、统计分析数据、个人相关数据、通信衍生数据、通信地址数据。[创新/价值][创新/价值]基于通信隐私文本,识别通信敏感数据,计量通信隐私值,对基于主观的隐私主体敏感性认知测度方法进行补充,为个人通信数据分级保护提供定量依据。 展开更多
关键词 通信敏感数据 通信敏感词表 通信隐私计量 通信隐私文本 通信敏感数据单元
下载PDF
政策文本视角下我国国家科学数据中心FAIR化特征初探
19
作者 杨恒 刘凤红 《图书情报知识》 北大核心 2024年第2期150-160,共11页
[目的/意义]对我国国家科学数据中心数据政策的FAIR化特征进行探索,为我国数据中心的数据管理政策制定和工作优化提供初步参考。[方法/过程]综合运用网络调研和文本挖掘的方法,使用KH Coder内容挖掘软件对20家数据中心的79部数据政策进... [目的/意义]对我国国家科学数据中心数据政策的FAIR化特征进行探索,为我国数据中心的数据管理政策制定和工作优化提供初步参考。[方法/过程]综合运用网络调研和文本挖掘的方法,使用KH Coder内容挖掘软件对20家数据中心的79部数据政策进行量化文本分析。通过对FAIR原则在政策文本中的出现频次和高相似词汇的分析,揭示FAIR原则在各个数据中心、不同类型政策文本中表现出的关注度差异与语义特征。[结果/结论]数据中心的数据政策已体现了一定的FAIR原则理念,但对每项FAIR原则的关注度不均衡;不同类型的数据政策关注FAIR原则的不同方面,共性在于对可发现原则和可互操作原则比较关注;对元数据给予了重点关注。[创新/价值]建议数据中心在数据政策制定中突出“元数据”在数据全生命周期管理中的作用,推动“数据增值驱动”的数据政策体系构建,并立足我国科学数据管理实际,适度引入FAIR原则。 展开更多
关键词 科学数据管理 FAIR原则 国家科学数据中心 文本挖掘
下载PDF
基于知识图谱构建的面料图像多样化检索系统
20
作者 魏萌瑶 张宁 潘如如 《棉纺织技术》 CAS 2024年第4期40-45,共6页
为了提高纺织行业筛选面料的效率,满足用户多样化的检索需求,解决面料检索结果单一、耗时久、精度低等问题,通过知识建模将面料的文本信息结构化表示,构建面料图文数据集,导入图数据库中实现面料知识图谱可视化。基于知识图谱构建了面... 为了提高纺织行业筛选面料的效率,满足用户多样化的检索需求,解决面料检索结果单一、耗时久、精度低等问题,通过知识建模将面料的文本信息结构化表示,构建面料图文数据集,导入图数据库中实现面料知识图谱可视化。基于知识图谱构建了面料图像多样化检索系统,该系统将用户提供的检索字段和知识图谱中的面料节点匹配,输出相应面料实体及其一阶近邻实体,实现了面料图像检索多样化。选取了50个文本关键词进行检索试验,结果表明:前8幅图像的查准率为80.7%,mAP值为0.852,平均多样性值为5.8,检索的平均响应时间仅为2.26 s,验证了该系统的有效性和可行性。 展开更多
关键词 知识建模 知识图谱 面料图像 图文数据 图像检索
下载PDF
上一页 1 2 64 下一页 到第
使用帮助 返回顶部