期刊文献+
共找到1,049篇文章
< 1 2 53 >
每页显示 20 50 100
An Exploratory Data Analysis of Mazu Culture Research Based on Diaolong-Full-Text Database of Ancient Chinese and Japanese Books
1
作者 QIN Yeqi YU Hongyan 《Cultural and Religious Studies》 2023年第6期286-296,共11页
Mazu is the most famous goddess of canal transport in China,and one of the three folk beliefs in China.Japan is our neighbor across the sea.As early as 1000 years ago,Japan was influenced by the Mazu ceremonial cultur... Mazu is the most famous goddess of canal transport in China,and one of the three folk beliefs in China.Japan is our neighbor across the sea.As early as 1000 years ago,Japan was influenced by the Mazu ceremonial culture.Through big data analysis,this study conducted database counting,screening,and analysis on the Mazu culture in Diaolong,the full-text database of Chinese and Japanese ancient books.Besides,it explored the hot topics of concern and emotional attitudes,and then analyzed the important role of Mazu culture in the cultural exchange and mutual learning between China and Japan in the new era,with a view to completing the contemporary task of“people-to-people bond”and achieving common development. 展开更多
关键词 Mazu culture JAPAN Diaolong—full-text database of ancient Chinese and Japanese books
下载PDF
Identifying Scientific Project-generated Data Citation from Full-text Articles: An Investigation of TCGA Data Citation 被引量:4
2
作者 Jiao Li Si Zheng +2 位作者 Hongyu Kang Zhen Hou Qing Qian 《Journal of Data and Information Science》 2016年第2期32-44,共13页
Purpose: In the open science era, it is typical to share project-generated scientific data by depositing it in an open and accessible database. Moreover, scientific publications are preserved in a digital library arc... Purpose: In the open science era, it is typical to share project-generated scientific data by depositing it in an open and accessible database. Moreover, scientific publications are preserved in a digital library archive. It is challenging to identify the data usage that is mentioned in literature and associate it with its source. Here, we investigated the data usage of a government-funded cancer genomics project, The Cancer Genome Atlas(TCGA), via a full-text literature analysis.Design/methodology/approach: We focused on identifying articles using the TCGA dataset and constructing linkages between the articles and the specific TCGA dataset. First, we collected 5,372 TCGA-related articles from Pub Med Central(PMC). Second, we constructed a benchmark set with 25 full-text articles that truly used the TCGA data in their studies, and we summarized the key features of the benchmark set. Third, the key features were applied to the remaining PMC full-text articles that were collected from PMC.Findings: The amount of publications that use TCGA data has increased significantly since 2011, although the TCGA project was launched in 2005. Additionally, we found that the critical areas of focus in the studies that use the TCGA data were glioblastoma multiforme, lung cancer, and breast cancer; meanwhile, data from the RNA-sequencing(RNA-seq) platform is the most preferable for use.Research limitations: The current workflow to identify articles that truly used TCGA data is labor-intensive. An automatic method is expected to improve the performance.Practical implications: This study will help cancer genomics researchers determine the latest advancements in cancer molecular therapy, and it will promote data sharing and data-intensive scientific discovery.Originality/value: Few studies have been conducted to investigate data usage by governmentfunded projects/programs since their launch. In this preliminary study, we extracted articles that use TCGA data from PMC, and we created a link between the full-text articles and the source data. 展开更多
关键词 Scientific data full-text literature Open access PubMed Central Data citation
下载PDF
Influences of digital resource acquisition on scientific research behaviors——The statistical analysis on the full-text downloading quantity and cited times
3
作者 LIU Xiaomin ZHANG Jianyong 《Chinese Journal of Library and Information Science》 2009年第4期71-78,共8页
With the emergence and further development of the digital library, the approaches of information acquisition correspondingly change a lot. This paper makes a statistical analysis on the journal downloading and citatio... With the emergence and further development of the digital library, the approaches of information acquisition correspondingly change a lot. This paper makes a statistical analysis on the journal downloading and citation behaviors under the digital environment conceived by the National Science Library(NSL), Chinese Academy of Sciences(CAS). It can be seen that the development of digital resources has influenced scientific research behaviors. For example, the large quantity of full-text downloading will maintain; the trend of journal downloading behaviors is basically same as the journal citation behavior; journals with large quantity of full-text downloading also boast the high cited times, and vice versa. Furthermore, authors make a linear regression analysis, with the journal downloading amount as the independent variable and journal cited times as dependent variable. Then they also prove the positive correlation between the journal downloading and citation behaviors by means of Pearson's correlation coefficient formula. 展开更多
关键词 full-text downloading Journal citation Correlation Cited times
下载PDF
基于实时同步和全文搜索技术的方剂学多维实训平台 被引量:1
4
作者 魏培阳 史晓雨 +3 位作者 周杰三 邢晓方 梁佳豪 刘洋 《现代电子技术》 北大核心 2024年第2期67-73,共7页
针对中医方剂学存在的数据量大、类型多样、学习识记困难等问题,提出一种改进的基于实时同步和全文搜索算法的方剂学多维实训平台(MTPF)。分析MTPF系统需求并搭建基础框架,采用Canal同步数据和ElasticSearch提供全文搜索服务,以保证业... 针对中医方剂学存在的数据量大、类型多样、学习识记困难等问题,提出一种改进的基于实时同步和全文搜索算法的方剂学多维实训平台(MTPF)。分析MTPF系统需求并搭建基础框架,采用Canal同步数据和ElasticSearch提供全文搜索服务,以保证业务应用的效率和性能;结合MTPF业务领域问题,提出针对具体业务的可配置和过滤的同步算法,构建面向搜索的自定义分词词典优化算法。通过系统应用及对比实验,验证了改进算法能够满足MTPF的需求;通过与其他框架的对比实验,证明了改进算法在同步时延、资源消耗、搜索速度等方面均取得了良好的效果,保障了业务数据信息在传输、存储、同步、搜索等环节的性能。 展开更多
关键词 方剂学多维实训平台 实时同步 全文搜索 ElasticSearch CANAL REDIS MySQL
下载PDF
大模型时代下全文计量分析的应用与思考——2023全文本文献计量分析学术沙龙综述
5
作者 周海晨 章成志 +3 位作者 胡志刚 徐硕 毛进 陈亮 《信息资源管理学报》 2024年第2期162-168,F0003,共8页
2023年9月14日—16日,由中国科学院成都文献情报中心主办、科技创新评价研究中心(SERC)承办的“第六届科学计量与科技评价天府论坛”在成都举办。由章成志、胡志刚、徐硕等人共同发起的第四届“全文本文献计量分析”沙龙作为其中的一项... 2023年9月14日—16日,由中国科学院成都文献情报中心主办、科技创新评价研究中心(SERC)承办的“第六届科学计量与科技评价天府论坛”在成都举办。由章成志、胡志刚、徐硕等人共同发起的第四届“全文本文献计量分析”沙龙作为其中的一项重要活动,吸引了八十余位专家学者的积极参与和深入交流。本文通过对沙龙嘉宾的发言与研讨内容进行梳理与总结,将沙龙的主要内容归纳为大语言模型与全文本计量分析、全文计量分析的应用场景等方面,以期介绍国内外全文本文献计量分析的研究现状和发展趋势。 展开更多
关键词 全文本计量 大语言模型 颠覆性技术 创新识别
下载PDF
基于ElasticSearch的医疗数据检索系统的设计与实现
6
作者 汪睿 胡外光 +1 位作者 胡珊珊 周颖 《信息技术》 2024年第4期76-82,共7页
随着医疗技术的发展,医疗业务场景越加复杂,由此产生的医疗数据也越来越多,其来源复杂,结构多变,信息冗余,数据不完整。这些特性使得系统在进行检索时,无法快速、有效、精确地查询数据。为了解决这个问题,设计并实现了基于ElasticSearc... 随着医疗技术的发展,医疗业务场景越加复杂,由此产生的医疗数据也越来越多,其来源复杂,结构多变,信息冗余,数据不完整。这些特性使得系统在进行检索时,无法快速、有效、精确地查询数据。为了解决这个问题,设计并实现了基于ElasticSearch的医疗数据检索系统。该系统将医疗数据进行标准化,填补缺失值,选取合适的分词算法进行分词,将处理后的数据存入ElasticSearch中,同时使用SpringBoot构建系统应用,消耗多个医疗基础业务系统产生的数据,最终形成统一的医疗数据检索系统,给用户提供便捷、精确的查询服务。 展开更多
关键词 lasticSearch 医疗数据 文本分词 全文检索 分布式搜索
下载PDF
一种新型高效全文检索引擎的设计
7
作者 董宗然 闻柏智 朱毅 《软件工程》 2024年第2期44-48,共5页
为了改善常规存储方式模糊查询性能较低的问题,提出一种针对大文本文档数据的高效模糊查询方法。通过对文档建立倒排索引,将索引以及部分文档信息提取到内存中以降低磁盘输入和输出(Input/Output,I/O)。根据内存中的倒排索引和数据库中... 为了改善常规存储方式模糊查询性能较低的问题,提出一种针对大文本文档数据的高效模糊查询方法。通过对文档建立倒排索引,将索引以及部分文档信息提取到内存中以降低磁盘输入和输出(Input/Output,I/O)。根据内存中的倒排索引和数据库中主键形成的映射查询数据,然后通过相关度算法对这些数据进行排序,并以字典树作为搜索提示,实现高效的全文检索。实验结果表明:与ElasticSearch使用相同词集时,随着测试数据量的变化,所设计的全文检索引擎的查询效率是ElasticSearch效率的80~1200倍,其效率优势随着数据量增加呈现反比例关系变化,并且在17919条文档数据下,其内存占用不超过2.5 GB,适合用于海量文档数据检索。 展开更多
关键词 倒排索引 全文检索 检索引擎 模糊查询 字典树
下载PDF
企业级全文搜索系统设计与实现
8
作者 王盛义 刘顺章 《信息技术与标准化》 2024年第7期105-109,共5页
为解决企业内部信息资源难以被快速精确检索和有效利用、全文检索时数据访问权限控制问题,提出一种全文搜索系统数据访问权限控制模型,并设计了企业级全文搜索系统,阐述了企业级全文搜索系统的架构及其数据同步模块、数据索引模块、数... 为解决企业内部信息资源难以被快速精确检索和有效利用、全文检索时数据访问权限控制问题,提出一种全文搜索系统数据访问权限控制模型,并设计了企业级全文搜索系统,阐述了企业级全文搜索系统的架构及其数据同步模块、数据索引模块、数据搜索模块、权限控制模块等重要模块的设计与实现。该系统能在用户权限范围内对数据进行全文检索,有效实现对企业信息资源进行统一整合和检索,提高企业信息资源利用效率。 展开更多
关键词 Elasticsearch 全文搜索 分词检索 访问控制 企业搜索
下载PDF
面向学术全文本多维知识元的学术图谱构建研究
9
作者 沈思 朱雨菲 《情报学报》 CSCD 北大核心 2024年第8期960-975,共16页
学术全文本中包含了多种知识元,对这些知识元进行挖掘与组织,可以有效提升学术资源的利用效率。通过学术知识图谱的构建,将论文中各类隐性“知识元”串联起来,不但可以节省研究者获取知识点的时间,还可以通过知识图谱内的网络社区进行... 学术全文本中包含了多种知识元,对这些知识元进行挖掘与组织,可以有效提升学术资源的利用效率。通过学术知识图谱的构建,将论文中各类隐性“知识元”串联起来,不但可以节省研究者获取知识点的时间,还可以通过知识图谱内的网络社区进行知识点的扩充。通过系统而全面的文献调研,本文从宏观、中观和微观3个维度出发,确定了18种学术论文中的关键知识元,并将学术全文本中的描述信息作为知识元对象,设计出学术知识图谱概念框架。然后,选取Journal of the Association for Information Science and Technology(JASIST)期刊的515篇学术全文本,对每篇论文中的关键知识元进行人工标注与基于深度学习的知识元抽取研究。研究内容包括该类知识元在人工标注过程中是否会遇到问题、在自动抽取时是否会达到预期值,从而对参与图谱构建的知识元进行筛选。最终筛选出9种知识元,包括数学公式、软件工具、数据源、具体模型、表、图、研究展望、研究问题和研究结果,与题录数据中的知识元共同生成由头知识元、关系、尾知识元组成的三元组,存入图数据库。最后,对该图谱进行可视化的评估与知识元检索研究,证明了其可行性与可扩展性。研究结果表明,学术全文本中的部分知识元适合大规模的自动化标注,而且各类知识元可以通过互相链接形成密集的知识社区,并具备知识元搜索等功能。 展开更多
关键词 知识元 知识图谱 学术全文本 深度学习
下载PDF
铁路货运营销大数据系统的设计与实现
10
作者 王娜娜 张建国 《铁路计算机应用》 2024年第5期36-39,共4页
为实现货运营销各项业务的有机融合,优化铁路货运营销模式,设计了铁路货运营销大数据系统,阐述了系统的总体架构,通过数据采集调度技术和基于机器学习的预测分析技术实现客户关系管理、一体化考核管理、分析决策管理和市场监测等功能。... 为实现货运营销各项业务的有机融合,优化铁路货运营销模式,设计了铁路货运营销大数据系统,阐述了系统的总体架构,通过数据采集调度技术和基于机器学习的预测分析技术实现客户关系管理、一体化考核管理、分析决策管理和市场监测等功能。该系统已在中国铁路济南局集团有限公司上线应用,实现了经济效益的显著提升,有效提升货运生产组织水平,为货运部门的各项营销决策提供技术支持。 展开更多
关键词 货运营销 大数据 全文检索 预测分析 客户关系
下载PDF
基于ElasticSearch的输变电工程全文检索研究
11
作者 张建广 徐鲲 +3 位作者 董鉥涛 刘迪 王向上 李春林 《黑龙江科学》 2024年第16期94-97,共4页
随着输变电工程建设工作的开展,多源异构的全过程非结构化文档体量日益增大,需要对这些非结构化文档进行稳定管理。为实现输变电工程非结构化文档的高效检索,研究了基于ElasticSearch的输变电工程全文检索方案,构建电网专用术语词典对... 随着输变电工程建设工作的开展,多源异构的全过程非结构化文档体量日益增大,需要对这些非结构化文档进行稳定管理。为实现输变电工程非结构化文档的高效检索,研究了基于ElasticSearch的输变电工程全文检索方案,构建电网专用术语词典对智能化分词进行辅助优化,融合输变电工程资料的特征信息,对分词成果进行语义赋值,基于语义标签改进分词算法,进一步提升全文检索效率和准确率,搭建了输变电工程全文检索系统,以验证此技术方案的可行性。 展开更多
关键词 输变电工程 全文检索 ElasticSearch 中文分词 语义检索
下载PDF
全文检索技术在图书检索中的应用
12
作者 高霞 《中原工学院学报》 CAS 2024年第2期85-89,共5页
现有的图书检索方法多是对馆藏图书进行编目、分类、标注等处理后形成书目数据库,用户根据书名、作者和出版社等信息来检索图书。这种方式不能满足用户根据任意关键词来检索图书的需求,效率较低。全文检索是基于倒排索引技术对文本中的... 现有的图书检索方法多是对馆藏图书进行编目、分类、标注等处理后形成书目数据库,用户根据书名、作者和出版社等信息来检索图书。这种方式不能满足用户根据任意关键词来检索图书的需求,效率较低。全文检索是基于倒排索引技术对文本中的所有词组和关键词进行索引,支持快速检索到文本中任何一个单词和关键词。若将全文检索技术应用于图书检索中,可使用户根据任意关键词检索图书,可根据检索量和用户习惯推荐热门图书。文章介绍了如何在图书检索过程中应用全文检索技术,分析了全文检索引擎选择、图书文本解析、图书文本分词、图书索引设计、图书文档提交等主要过程,并给出了全文检索技术的最终实现效果,以期对提升图书检索系统的易用性提供一定借鉴。 展开更多
关键词 图书检索系统 全文检索 分词器 索引结构 推荐算法 检索命中率
下载PDF
基于MapReduce集群框架的外观专利检索系统设计
13
作者 孙惠芬 《镇江高专学报》 2024年第2期77-81,共5页
基于MapReduce集群框架的外观专利检索系统设计旨在提高专利检索的效率和准确性。该系统以Hadoop分布式文件系统(HDFS)为存储基础,利用MapReduce并行计算模型实现专利数据的快速处理和检索。通过搭建Linux集群环境和分布式计算平台Hado... 基于MapReduce集群框架的外观专利检索系统设计旨在提高专利检索的效率和准确性。该系统以Hadoop分布式文件系统(HDFS)为存储基础,利用MapReduce并行计算模型实现专利数据的快速处理和检索。通过搭建Linux集群环境和分布式计算平台Hadoop,系统能有效加速外观专利检索,提高检索效率和准确性。 展开更多
关键词 外观专利检索系统 MapReduce集群框架 图像检索 全文检索技术
下载PDF
基于大数据技术的高职院校全量数据资源池的建设与实践
14
作者 靳晓娟 《信息与电脑》 2024年第3期232-234,共3页
各高职院校智慧校园建设均取得了一定成就,积累了大量的数据。在此背景下,全量数据资源池的建设得到高职院校的关注。文章对现阶段数据建设方面的问题进行分析,并探讨全量数据资源池建设的重点任务、建设思路及应用价值,为高职院校决策... 各高职院校智慧校园建设均取得了一定成就,积累了大量的数据。在此背景下,全量数据资源池的建设得到高职院校的关注。文章对现阶段数据建设方面的问题进行分析,并探讨全量数据资源池建设的重点任务、建设思路及应用价值,为高职院校决策分析、教学科研、管理服务提供全维度、高质量的数据引擎,推动高职院校高质量发展。 展开更多
关键词 高职院校 全量数据资源池 全域数据采集 全文搜索引擎
下载PDF
政策工具视角下贫困职教生高质量充分就业的顶层设计——基于70份国家级政策文本的计量分析
15
作者 王红雨 《职业技术教育》 北大核心 2024年第19期34-41,共8页
贫困职教生就业帮扶政策工具已覆盖命令型、激励型、能力建设型、系统变革型与自愿型等工具类型,其中激励型、命令型与能力建设型工具的应用频次高于系统变革型与自愿型工具;经济资助与岗位提供应用频次最高,且其对应的政策工具多为命... 贫困职教生就业帮扶政策工具已覆盖命令型、激励型、能力建设型、系统变革型与自愿型等工具类型,其中激励型、命令型与能力建设型工具的应用频次高于系统变革型与自愿型工具;经济资助与岗位提供应用频次最高,且其对应的政策工具多为命令型工具与激励型工具;就业成功、资源整合与公平正义的政策价值呈阶梯形正向分布;但在政策“工具—要素—价值”三者交叉上,低频点与空白点较多。对此,应以政府善治引领为核心,构建“政府—市场—职业院校”间的就业帮扶协同公共治理机制;“扶智”与“扶志”相结合,完善政策工具在不同内容要素间的合理配置,协调具体政策工具的可持续性及阶段性落实;持续渗透公平正义的价值引领功能,注重工具类型、内容要素与政策价值间的协同共生。 展开更多
关键词 贫困职教生 高质量充分就业 就业帮扶 政策工具 政策计量分析
下载PDF
Algorithms mention in full-text content of article from NLP domain:A comparative analysis between English and Chinese
16
作者 Chengzhi Zhang Ruiyi Ding Yuzhuo Wang 《Data Science and Informetrics》 2021年第2期19-33,共15页
Algorithms play an increasingly important role in scientific work,especially in data-driven research.Investigating the mention of algorithms in full-text paper helps us understand the use and development of algorithms... Algorithms play an increasingly important role in scientific work,especially in data-driven research.Investigating the mention of algorithms in full-text paper helps us understand the use and development of algorithms in a specific domain.Current research on the mention of algorithms is limited to the academic papers in one language,which is hard to comprehensively investigate the use of algorithms.For example,in papers of Chinese conference,is the mention of algorithms consistent with it in English conference papers?In order to answer this question,this paper takes NLP as an example,and compares the mention frequency,mention location and mention time of the top10 data-mining algorithms between the papers of the famous international conference,Annual Meeting of the Association for Computational Linguistics(ACL),and the Chinese conference,China National Conference on Computational Linguistics(CCL).The results show that compared with ACL,the mention frequency of top10 data-mining algorithms in CCL is slightly lower and the mention time is slightly delayed,while the distribution of mention location is similar.This study can provide a reference for the research related to the mention,citation and evaluation of knowledge entities. 展开更多
关键词 Knowledge entity Mention of algorithms full-text analysis Algorithm evaluation Scholarly big data
原文传递
轻量级缓存策略的关系型数据库全文搜索加强与扩展 被引量:4
17
作者 杨婷 莫若玉 +1 位作者 张秀娟 朱洲森 《计算机应用》 CSCD 北大核心 2023年第8期2431-2438,共8页
针对关系型数据库(RDB)现有的全文搜索方案存在的效率低下、资源占用高的问题,提出一种具有增强式辅助缓存的轻量级关系型数据库全文搜索模型。首先,该模型构建基于Redis的倒排索引,并利用缓存索引缩小搜索范围,从而用内存高效的数据处... 针对关系型数据库(RDB)现有的全文搜索方案存在的效率低下、资源占用高的问题,提出一种具有增强式辅助缓存的轻量级关系型数据库全文搜索模型。首先,该模型构建基于Redis的倒排索引,并利用缓存索引缩小搜索范围,从而用内存高效的数据处理能力解决关系型数据库I/O瓶颈,并提升系统整体性能;其次,为保证搜索结果的准确性和时效性,进一步提出索引同步策略,而且设计并实现了增量索引组件来隐藏索引处理细节,从而提高模型的易用性和通用性;最后,对于热点数据提供一种基于访问热度的索引更新机制,以降低倒排索引的内存占用。实验结果表明,所提模型在保证关系型数据库全文搜索响应速度和准确度的前提下,空间资源消耗比MySQL全文索引降低了48.8%~60.9%,比Elasticsearch降低了85.2%~96.2%,证明所提模型在实际应用中可行且有效。 展开更多
关键词 MYSQL REDIS 全文搜索 倒排索引 一致性
下载PDF
全文计量分析的实践与展望:理论、方法与应用——2022全文本文献计量分析学术沙龙综述 被引量:2
18
作者 周海晨 章成志 +3 位作者 胡志刚 徐硕 杨思洛 李恺 《信息资源管理学报》 2023年第2期135-142,共8页
2022年12月1日—2日,由中科院成都文献情报中心主办、科技创新评价研究中心(SERC)承办“第五届科学计量与科技评价天府论坛”在成都举办。由章成志等人发起的第三届“全文本文献计量分析”沙龙是天府论坛的一项重要活动,吸引了百余位专... 2022年12月1日—2日,由中科院成都文献情报中心主办、科技创新评价研究中心(SERC)承办“第五届科学计量与科技评价天府论坛”在成都举办。由章成志等人发起的第三届“全文本文献计量分析”沙龙是天府论坛的一项重要活动,吸引了百余位专家学者的参与和交流。本文通过对沙龙嘉宾的发言与研讨内容进行梳理与总结,将沙龙的主要内容归纳为理论研究、技术方法与应用方向等方面,以期揭示国内外全文本文献计量分析的研究现状和发展趋势。 展开更多
关键词 全文本 文献计量 全文计量 引文内容 颠覆性技术 弱信号
下载PDF
词汇位置功能视角下的交叉领域知识生长研究 被引量:1
19
作者 操玉杰 王施运 +1 位作者 毛进 李纲 《情报学报》 CSCD 北大核心 2023年第4期393-406,共14页
挖掘记载科学知识的交叉领域文献,可以探究交叉领域形成和发展中的知识流动和知识创造规律。本文依据词汇在交叉领域文献中的位置功能,提出了“文献空间观”和交叉领域知识生长过程模型,包括知识吸纳、知识内化和知识创新三大环节,进而... 挖掘记载科学知识的交叉领域文献,可以探究交叉领域形成和发展中的知识流动和知识创造规律。本文依据词汇在交叉领域文献中的位置功能,提出了“文献空间观”和交叉领域知识生长过程模型,包括知识吸纳、知识内化和知识创新三大环节,进而构建一种全文本分析方法框架实现对交叉领域知识生长过程的量化分析。以生物信息学领域作为案例开展了实证分析,研究结果发现,知识内化与知识吸纳高度相关,数量差距约6倍,但变化趋势相同;领域知识创新第一次高峰出现时间晚于知识吸纳和内化4年左右;随着学科不断成熟,即时内化率保持相对稳定,总内化率降低,新增吸纳知识的内化时滞降低,内化知识激发知识创新的效率越来越高。本文所提出的面向交叉领域知识生长的全文本分析方法框架,能够丰富学术文献全文本内容分析方法体系。 展开更多
关键词 领域分析 知识计量 全文本分析 引文上下文 跨学科研究
下载PDF
面向学术全文本的南海维权证据知识元自动识别研究 被引量:3
20
作者 程为 郑轩昂 +2 位作者 郑德俊 杨海平 王燕红 《情报杂志》 北大核心 2023年第9期141-148,共8页
[研究目的]自动识别出潜藏在非结构化南海维权学术全文本中的证据知识元,是完整、全面、多角度地重组织证据知识元并构建证据链、厘清我国南海维权历史过程的基础。[研究方法]根据证据的内涵及知识元语义描述模型理论,提出证据知识元的... [研究目的]自动识别出潜藏在非结构化南海维权学术全文本中的证据知识元,是完整、全面、多角度地重组织证据知识元并构建证据链、厘清我国南海维权历史过程的基础。[研究方法]根据证据的内涵及知识元语义描述模型理论,提出证据知识元的概念;分析证据知识元的描述需求,以结构化的形式定义了面向南海维权学术全文本的证据知识元表示模型,并在此基础上提出证据知识元自动识别方法;以南海维权证据知识元自动识别的实证研究验证了该方法的可行性。[研究结论]证据知识元表示模型在面向南海维权学术全文本时具有适用性,结合证据知识元识别规则与深度学习方法达到较好的自动识别效果,其中BERT模型和ERNIE模型表现最佳,在南海维权证据知识元自动识别的对比实验中,微观F1值分别达到了96.75%和96.64%,明显领先其他模型,可以满足南海维权证据知识元自动识别的要求。 展开更多
关键词 学术全文本 知识元 南海维权 证据知识元 深度学习 文本分类
下载PDF
上一页 1 2 53 下一页 到第
使用帮助 返回顶部