期刊文献+
共找到815篇文章
< 1 2 41 >
每页显示 20 50 100
A Stable and Consistent Document Model Suitable for Asynchronous Cooperative Edition
1
作者 Maurice Tchoupé Tchendji Rodrigue D. Djeumen Marcellin T. Atemkeng 《Journal of Computer and Communications》 2017年第8期69-82,共14页
Complex structured documents can be intentionally represented as a tree structure decorated with attributes. Ignoring attributes (these are related to semantic aspects that can be treated separately from purely struct... Complex structured documents can be intentionally represented as a tree structure decorated with attributes. Ignoring attributes (these are related to semantic aspects that can be treated separately from purely structural aspects which interest us here), in the context of a cooperative edition, legal structures are characterized by a document model (an abstract grammar) and each intentional representation can be manipulated independently and eventually asynchronously by several co-authors through various editing tools that operate on its “partial replicas”. For unsynchronized edition of a partial replica, considered co-author must have a syntactic document local model that constraints him to ensure minimum consistency of local representation that handles with respect to the global model. This consistency is synonymous with the existence of one or more (global) intentional representations towards the global model, assuming the current local representation as her/their partial replica. The purpose of this paper is to present the grammatical structures which are grammars that permit not only to specify a (global) model for documents published in a cooperative manner, but also to derive automatically via a so call projection operation, consistent (local) models for each co-authors involved in the cooperative edition. We also show some properties that meet these grammatical structures. 展开更多
关键词 STRUCTURED documentS documentS models GRAMMARS Cooperative EDITION STRUCTURED EDITION Projections VIEWS Partial Replicas
下载PDF
区域图书馆联盟视域下的地方文献工作模式探索与创新——以陕西地方文献资源建设体系“三秦模式”为例 被引量:1
2
作者 窦鹏 《图书馆研究与工作》 2024年第5期61-65,84,共6页
区域图书馆联盟对省域图书馆地方文献工作具有重要的意义。依托陕西公共图书馆服务联盟十多年的实践探索,陕西省图书馆创新性地提出陕西地方文献资源建设体系“三秦模式”,并从中探索省域联盟引领下地方文献创新工作的有效策略,包括:建... 区域图书馆联盟对省域图书馆地方文献工作具有重要的意义。依托陕西公共图书馆服务联盟十多年的实践探索,陕西省图书馆创新性地提出陕西地方文献资源建设体系“三秦模式”,并从中探索省域联盟引领下地方文献创新工作的有效策略,包括:建立联盟工作制度、组织地方文献联合征集、指导地方特色资源项目建设、培训辅导业务人员、运用新媒体促进信息交流等。此模式具有可操作性,可供图书馆地方文献工作区域性创新发展参考借鉴。 展开更多
关键词 区域图书馆联盟 公共图书馆 地方文献 联合征集 三秦模式
下载PDF
Stochastic Model for Multiple Classes and Subclasses Simple Documents Processing 被引量:1
3
作者 Pierre Moukeli Mbindzoukou Arsène Roland Moukoukou Marius Massala 《Intelligent Information Management》 2021年第2期124-140,共17页
The issue of document management has been raised for a long time, especially with the appearance of office automation in the 1980s, which led to dematerialization and Electronic Document Management (EDM). In the same ... The issue of document management has been raised for a long time, especially with the appearance of office automation in the 1980s, which led to dematerialization and Electronic Document Management (EDM). In the same period, workflow management has experienced significant development, but has become more focused on the industry. However, it seems to us that document workflows have not had the same interest for the scientific community. But nowadays, the emergence and supremacy of the Internet in electronic exchanges are leading to a massive dematerialization of documents;which requires a conceptual reconsideration of the organizational framework for the processing of said documents in both public and private administrations. This problem seems open to us and deserves the interest of the scientific community. Indeed, EDM has mainly focused on the storage (referencing) and circulation of documents (traceability). It paid little attention to the overall behavior of the system in processing documents. The purpose of our researches is to model document processing systems. In the previous works, we proposed a general model and its specialization in the case of small documents (any document processed by a single person at a time during its processing life cycle), which represent 70% of documents processed by administrations, according to our study. In this contribution, we extend the model for processing small documents to the case where they are managed in a system comprising document classes organized in subclasses;which is the case for most administrations. We have thus observed that this model is a Markovian <i>M<sup>L×K</sup>/M<sup>L×K</sup>/</i>1 queues network. We have analyzed the constraints of this model and deduced certain characteristics and metrics. <span style="white-space:normal;"><i></i></span><i>In fine<span style="white-space:normal;"></span></i>, the ultimate objective of our work is to design a document workflow management system, integrating a component of global behavior prediction. 展开更多
关键词 document Processing WORKFLOW Hierarchic Chart Counting Processes Stochastic models Waiting Lines Markov Processes Priority Queues Multiple Class and Subclass Queues
下载PDF
基于古籍保护的纸质文献VR系统转化模型构建研究
4
作者 王力 孙斐 《造纸科学与技术》 2024年第5期90-94,共5页
纸质古籍文献的数字化、虚拟化转化是当前我国古籍保护工作的重点方向之一。基于此,基于B/S架构搭建了一种纸质古籍文献向VR系统转化的模型,该模型包含三个核心层和一个辅助层,详细分析了该模型的关键业务逻辑包括古籍的图像采集和预处... 纸质古籍文献的数字化、虚拟化转化是当前我国古籍保护工作的重点方向之一。基于此,基于B/S架构搭建了一种纸质古籍文献向VR系统转化的模型,该模型包含三个核心层和一个辅助层,详细分析了该模型的关键业务逻辑包括古籍的图像采集和预处理、阅读信息定位、阅读信息提取等,并对该系统的工作情况进行测试。结果表明:在搭建的测试环境下,该转化系统对古籍纸质文献文字的采集准确率可达96.4%,系统综合延迟低于1.6ms,是一种较为理想的纸质古籍文献VR转化模型。 展开更多
关键词 古籍保护 纸质文献 虚拟阅读 模型构建
下载PDF
富文本协同编辑中基于树型结构地址空间转换的一致性维护
5
作者 刘亚 韩建功 +1 位作者 高丽萍 曲博 《小型微型计算机系统》 CSCD 北大核心 2024年第2期367-373,共7页
协同编辑通过多用户远程实时编辑,最大程度的支持团队之间的协作和交流.撤销操作作为协同编辑的一个重要特性,通过错误恢复简化协作编辑过程中产生的错误或者意外操作的处理过程.富文本编辑采用树型结构来进行文档管理,从而产生了较线... 协同编辑通过多用户远程实时编辑,最大程度的支持团队之间的协作和交流.撤销操作作为协同编辑的一个重要特性,通过错误恢复简化协作编辑过程中产生的错误或者意外操作的处理过程.富文本编辑采用树型结构来进行文档管理,从而产生了较线性文档更为复杂的并发操作环境和冲突消解场景.为了解决富文本文档中的并发操作环境与撤销操作冲突问题,本文提出了一种新颖的基于树型结构的地址空间转换方法,采用基于位置的节点寻址方案和节点属性值计数器策略,能更方便地支持撤销操作与更改操作.此外,本文还给出了树型结构地址空间的结果一致性的正确性证明及详细的案例分析,并开发了Web平台下实时协同富文本编辑原型系统AST-RichText,进一步验证了该方法的可行性. 展开更多
关键词 计算机支持的协同工作 实时协同编辑 地址空间转换 一致性模型 UNDO 树型文档
下载PDF
学科核心素养导向下高职学生项目式学习增值评价模型构建——以“国际商务单证实务”课程为例
6
作者 王慧颖 黄伟诚 《江苏经贸职业技术学院学报》 2024年第5期89-92,共4页
为解决高职院校学习评价目的片面、评价范围窄等问题,从项目学习的评价程序出发,结合三级跳评价的操作步骤,构建学科核心素养导向下高职学生项目式学习增值评价模型,包括构建评价维度、设置评价节点、确定观测要点、反馈评价结果四个部... 为解决高职院校学习评价目的片面、评价范围窄等问题,从项目学习的评价程序出发,结合三级跳评价的操作步骤,构建学科核心素养导向下高职学生项目式学习增值评价模型,包括构建评价维度、设置评价节点、确定观测要点、反馈评价结果四个部分,并以“国际商务单证实务”课程为例,对该模型进行解析。 展开更多
关键词 学科核心素养 项目式学习 增值评价模型 国际商务单证实务
下载PDF
基于文本摘要的无监督关键词抽取方法
7
作者 尤泽顺 周喜 +2 位作者 董瑞 张洋宁 杨奉毅 《计算机工程与设计》 北大核心 2024年第9期2779-2784,共6页
为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基... 为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基于嵌入的方法选择关键词时忽略候选词之间的关联,针对该问题,在SDERank的改进版SDERank+中,PageRank算法被用于提取候选词之间的共现权重作为相似度分数的修正。实验结果表明,在4个广泛使用的数据集上SDERank和SDERank+比之前最好的模型MDERank的F1分数平均高出2.2%和3.29%。 展开更多
关键词 自动关键词抽取 文本摘要 长文档建模 文档主题分析 语义处理 权重优化 向量相似性
下载PDF
政策文献量化研究中的PMC指数模型应用述评 被引量:3
8
作者 方思越 刘清 《现代情报》 CSSCI 北大核心 2024年第4期168-176,共9页
[目的/意义]PMC指数模型是政策文献量化研究的重要方法之一,相关研究成果丰富,需要系统总结,以促进该方法的进一步发展。[方法/过程]使用文献计量方法,分析国内应用PMC指数模型的现状,整理出PMC指数模型的一般流程,对流程中各步骤的实... [目的/意义]PMC指数模型是政策文献量化研究的重要方法之一,相关研究成果丰富,需要系统总结,以促进该方法的进一步发展。[方法/过程]使用文献计量方法,分析国内应用PMC指数模型的现状,整理出PMC指数模型的一般流程,对流程中各步骤的实践状况进行描述,并展开如何更合理使用该模型的讨论。[结果/结论]PMC指数模型应用于政策评价是一种狭义的评价,对其合理使用需要明确这一定位,构建科学的指标体系,保证应用过程中政策文本的前后一致性。 展开更多
关键词 政策文献量化 PMC指数模型 计量分析 综述
下载PDF
基于改进自注意力机制和表示学习的分层文档分类方法
9
作者 廖兴滨 钱杨舸 +1 位作者 王乾垒 秦小林 《计算机科学》 CSCD 北大核心 2024年第2期238-244,共7页
文档分类的一项基本工作是研究如何高效地表示输入特征,句子和文档向量表示也可以辅助自然语言处理的下游任务,如文本情感分析和数据泄露预防等。特征表示也逐渐成为文档分类问题的性能瓶颈和模型可解释性的关键之一。针对现有分层模型... 文档分类的一项基本工作是研究如何高效地表示输入特征,句子和文档向量表示也可以辅助自然语言处理的下游任务,如文本情感分析和数据泄露预防等。特征表示也逐渐成为文档分类问题的性能瓶颈和模型可解释性的关键之一。针对现有分层模型面临的大量重复计算以及可解释性缺乏的问题,提出了一种分层文档分类模型,并研究了句子和文档表示方法对文档分类问题的性能影响。所提模型集成了使用改进自注意力机制融合输入特征向量的句子编码器和文档编码器,形成了一个层次结构,以实现对文档级数据的分层处理,在简化计算的同时增强了模型的可解释性。与仅使用预训练语言模型的特殊标记向量作为句子表示的模型相比,所提模型在5个公开文档分类数据集上实现了平均4%的性能提升,比使用词向量矩阵的注意力输出均值的模型提高了2%。 展开更多
关键词 句子表示 文档表示 注意力机制 文档分类 模型可解释性
下载PDF
高职《国际商务单证实务》课程思政元素的挖掘、融合设计与教学实践
10
作者 王慧颖 《天津商务职业学院学报》 2024年第1期76-84,共9页
在专业课程中融入思想政治教育是落实立德树人根本任务的基础性举措。为解决“融什么”、“融到哪”、“怎么融”等问题,本文以《国际商务单证实务》课程为例,从教学目标、教学内容、教学实施方式等方面进行了课程思政总体设计:基于时... 在专业课程中融入思想政治教育是落实立德树人根本任务的基础性举措。为解决“融什么”、“融到哪”、“怎么融”等问题,本文以《国际商务单证实务》课程为例,从教学目标、教学内容、教学实施方式等方面进行了课程思政总体设计:基于时代背景、单证人才的需求特征,明确课程思政目标;挖掘了“三精神四意识”元素;建立了思政资源库、重构了教学内容;构建“462”教学模式、借助“情境融入、资源融入、实训融入”等形式将思政元素融入到每个教学任务的教学环节中。并以任务“审证与改证业务操作”中的课节为例,介绍了在课堂教学实践中落实课程思政的具体举措;最后考察了课程思政的教学效果。 展开更多
关键词 国际商务单证 课程思政 教学体系 教学模式
下载PDF
INFORMATION RETRIEVAL FOR SHORT DOCUMENTS 被引量:2
11
作者 Qi Haoliang Li Mu +1 位作者 Gao Jianfeng Li Sheng 《Journal of Electronics(China)》 2006年第6期933-936,共4页
The major problem of the most current approaches of information models lies in that individual words provide unreliable evidence about the content of the texts. When the document is short, e.g. only the abstract is av... The major problem of the most current approaches of information models lies in that individual words provide unreliable evidence about the content of the texts. When the document is short, e.g. only the abstract is available, the word-use variability problem will have substantial impact on the Information Retrieval (IR) performance. To solve the problem, a new technology to short document retrieval named Reference Document Model (RDM) is put forward in this letter. RDM gets the statistical semantic of the query/document by pseudo feedback both for the query and document from reference documents. The contributions of this model are three-fold: (1) Pseudo feedback both for the query and the document; (2) Building the query model and the document model from reference documents; (3) Flexible indexing units, which can be ally linguistic elements such as documents, paragraphs, sentences, n-grams, term or character. For short document retrieval, RDM achieves significant improvements over the classical probabilistic models on the task of ad hoc retrieval on Text REtrieval Conference (TREC) test sets. Results also show that the shorter the document, the better the RDM performance. 展开更多
关键词 Information retrieval Short documents Reference document model (RDM)
下载PDF
基于气相色谱-质谱联用法的喷墨打印文件墨迹中挥发性溶剂历时性变化规律研究
12
作者 王千羽 赵鹏程 +3 位作者 崔岚 宋辉 李扬动 张祉悦 《分析测试学报》 CAS CSCD 北大核心 2024年第6期858-865,874,共9页
为解决司法鉴定领域中喷墨打印文件制成时间问题,利用气相色谱-质谱联用法(GC-MS)定性定量分析4种黑色喷墨打印文件墨迹中的挥发性溶剂成分。对同一时间打印的样品进行追踪测试,每间隔一定天数用打孔器取样,提取剂提取后进行GC-MS分析... 为解决司法鉴定领域中喷墨打印文件制成时间问题,利用气相色谱-质谱联用法(GC-MS)定性定量分析4种黑色喷墨打印文件墨迹中的挥发性溶剂成分。对同一时间打印的样品进行追踪测试,每间隔一定天数用打孔器取样,提取剂提取后进行GC-MS分析。通过内标法测定样品提取液中各组分的浓度,计算单位长度(mm)墨迹中挥发性溶剂含量C(ng/mm)并作为打印样品老化的定量单位。结果表明,4种打印样品中含有2-吡咯烷酮、1,5-戊二醇、2-甲基-1,3-丙二醇、N-羟乙基-2-吡咯烷酮、甘油和三甘醇6种挥发性溶剂成分。上述成分在文件形成时即开始挥发和转移,含量不断减少至某一数值时趋于稳定。利用测定的历经不同时间的打印样本中溶剂含量数据,建立了单组分溶剂与时间的非线性回归模型以及多组分溶剂与时间的多元线性回归模型,模型评价指标比较结果表明,对于溶剂组分数多的墨水使用多元线性回归模型的预测效果更好。 展开更多
关键词 喷墨打印 文件形成时间 回归模型 气相色谱-质谱联用法 挥发性物质
下载PDF
矢量空间数据文档存储模型研究
13
作者 付艳丽 邵飞 王海斌 《电脑与信息技术》 2024年第3期78-81,共4页
针对海量空间数据量PB级数据存储的问题,分析No SQL数据库中分布式文件存储数据库在海量数据的存储和访问上的优势,分析基于分布式文件存储的数据库MongoDB的存储格式,研究矢量空间数据文档存储模型。针对矢量空间数据的点、线、多边形... 针对海量空间数据量PB级数据存储的问题,分析No SQL数据库中分布式文件存储数据库在海量数据的存储和访问上的优势,分析基于分布式文件存储的数据库MongoDB的存储格式,研究矢量空间数据文档存储模型。针对矢量空间数据的点、线、多边形等几何形态,设计基于文档存储的矢量空间数据存储模型,实现了矢量空间数据在文档存储数据库MongoDB中的存储。针对矢量空间数据在文件存储数据库中的应用效率问题,提出未来工作将围绕文件存储数据库中矢量空间数据拓扑查询及查询效率展开。 展开更多
关键词 矢量空间数据 文档存储模型 NOSQL MONGODB
下载PDF
基于异构图分层学习的细粒度多文档摘要抽取
14
作者 翁裕源 许柏炎 蔡瑞初 《计算机工程》 CAS CSCD 北大核心 2024年第3期336-344,共9页
抽取的目标是在多个文档中提取共有关键信息,其对简洁性的要求高于单文档摘要抽取。现有的多文档摘要抽取方法通常在句子级别进行建模,容易引入较多的冗余信息。为了解决上述问题,提出一种基于异构图分层学习的多文档摘要抽取框架,通过... 抽取的目标是在多个文档中提取共有关键信息,其对简洁性的要求高于单文档摘要抽取。现有的多文档摘要抽取方法通常在句子级别进行建模,容易引入较多的冗余信息。为了解决上述问题,提出一种基于异构图分层学习的多文档摘要抽取框架,通过层次化构建单词层级图和子句层级图来有效建模语义关系和结构关系。针对单词层级图和子句层级图这2个异构图的学习问题,设计具有不同层次更新机制的两层学习层来降低学习多种结构关系的难度。在单词层级图学习层,提出交替更新机制更新不同的粒度节点,以单词节点为载体通过图注意网络进行语义信息传递;在子句层级图学习层,提出两阶段分步学习更新机制聚合多种结构关系,第一阶段聚合同构关系,第二阶段基于注意力聚合异构关系。实验结果表明,与抽取式基准模型相比,该框架在Multinews数据集上取得了显著的性能提升,ROUGE-1、ROUGE-2和ROUGE-L分别提高0.88、0.23和2.27,消融实验结果也验证了两层学习层及其层次更新机制的有效性。 展开更多
关键词 抽取式多文档摘要 细粒度建模 异构图 分层学习 语义关系 结构关系
下载PDF
基于提示学习的小样本文献分类方法 被引量:1
15
作者 安波 《图书馆论坛》 CSSCI 北大核心 2024年第5期96-104,共9页
文章研究学术文献分类中的长尾现象和文献类别新增问题,提出基于提示学习的小样本文献分类方法,旨在实现低资源场景下的文献自动分类。借助大规模预训练语言模型的文本表示与生成能力,在提示学习框架下分析不同的提示模板、文献字段、... 文章研究学术文献分类中的长尾现象和文献类别新增问题,提出基于提示学习的小样本文献分类方法,旨在实现低资源场景下的文献自动分类。借助大规模预训练语言模型的文本表示与生成能力,在提示学习框架下分析不同的提示模板、文献字段、文献类别表示、样本数等对低资源文献分类的影响。实验结果表明:通过合理地设计提示模板、文献类别表示、文献字段等方式,模型能高效实现低资源场景下的文献分类(50-shot的分类F1值约85%),是传统文献分类算法的重要补充;但在处理细粒度文献分类时存在分类错误问题,需要完善。 展开更多
关键词 小样本学习 提示学习 文献分类 预训练语言模型
下载PDF
一种基于词加权LDA模型的恶意文件检测方法
16
作者 徐建国 王旭阳 《计算机应用与软件》 北大核心 2024年第3期313-320,共8页
恶意文件中往往含有出现频率较低、但表征能力更好的特征码,传统的方法未能将这一类特征提取出来。针对该问题,提出一种基于词加权LDA模型的恶意文件检测方法,该方法通过反汇编对样本进行预处理,采用改进的KeyGraph算法(IKG)提取“重点... 恶意文件中往往含有出现频率较低、但表征能力更好的特征码,传统的方法未能将这一类特征提取出来。针对该问题,提出一种基于词加权LDA模型的恶意文件检测方法,该方法通过反汇编对样本进行预处理,采用改进的KeyGraph算法(IKG)提取“重点词”,这类词具有更好的特征表征能力,再利用优化的点互信息(OPMI),算出各“重点词”权重,构建词字典,然后将该词加权方法扩展到LDA模型,建立IKG-OPMI-LDA(IOL)模型完成分类,并采用Gibbs Sampling进行参数估计。实验结果表明,相较于其他方法,该方法的分类准确率有明显提高,分类效率更好,并且提取的特征具有更高的区分度,与主题相关度更高。 展开更多
关键词 恶意文件 LDA IKG 加权模型 文档分类
下载PDF
基于孪生网络文本语义匹配的多文档摘要
17
作者 钟琪 王中卿 王红玲 《中文信息学报》 CSCD 北大核心 2024年第5期107-116,共10页
多文档摘要旨在从一组主题相关的文档集中抽取出最能代表文档集中心内容的句子作为摘要,文本语义匹配则是指学习两个文本单元之间的语义关系,使句子表征具有更加丰富的语义信息。该文提出了一种基于孪生网络文本语义匹配的多文档抽取式... 多文档摘要旨在从一组主题相关的文档集中抽取出最能代表文档集中心内容的句子作为摘要,文本语义匹配则是指学习两个文本单元之间的语义关系,使句子表征具有更加丰富的语义信息。该文提出了一种基于孪生网络文本语义匹配的多文档抽取式摘要方法,该方法将孪生网络和预训练语言模型BERT相结合,构建一个文本语义匹配与文本摘要联合学习模型。该模型运用孪生网络从不同的视角考察任意两个文本单元之间的语义关联,学习文档集中碎片化的信息,进一步对重要信息进行评估,最后结合文本摘要模型选择出更能代表文档集主要内容的句子组织成摘要。实验结果表明,该文所提方法和当前主流的多文档抽取式摘要方法相比,在ROUGE评价指标上有较大提升。 展开更多
关键词 多文档抽取式摘要 语义关系 预训练语言模型
下载PDF
知网模式的经济学分析
18
作者 王铁军 《特区经济》 2024年第8期140-143,共4页
描述学术文献服务市场的三类重要参与者分别是:研究者(作者)、使用者、学术文献数据库提供商(知网),本文通过明确三者之间的经济业务关系,刻画出知网的目标函数。以最大化利润为目标,通过求解获得知网的两个最优行为:一是阻止作者维权;... 描述学术文献服务市场的三类重要参与者分别是:研究者(作者)、使用者、学术文献数据库提供商(知网),本文通过明确三者之间的经济业务关系,刻画出知网的目标函数。以最大化利润为目标,通过求解获得知网的两个最优行为:一是阻止作者维权;二是提高文献数据库订阅费。由于知网的最优行为与其发布的整改措施相悖,保护作者权益、降低数据库订阅费等整改措施较难落实。造成这种现象的根本原因是知识以“中心化”的方式集中存放于知网,导致知网与作者之间的利益冲突由于版权转让而难以调和。本文论证,以“去中心化”的方式处理知识(文献),知网的目标函数能够与作者利益统一起来。研究表明,退出知识产权(版权)业务有利于知网的可持续发展。 展开更多
关键词 知网模式 中心化 去中心化 文献传播
下载PDF
基于跨层级多视角特征的多语言事件探测
19
作者 张志远 张维彦 +1 位作者 宋雨秋 阮彤 《计算机科学》 CSCD 北大核心 2024年第5期208-215,共8页
多语言事件探测任务的目标是将多种语言的新闻文档集合组织成不同的关键事件,其中每个事件可以包含不同语言的新闻文档。该任务有助于各种下游任务应用,如多语言知识图谱构建、事件推理、信息检索等。目前,多语言事件探测主要分为先翻... 多语言事件探测任务的目标是将多种语言的新闻文档集合组织成不同的关键事件,其中每个事件可以包含不同语言的新闻文档。该任务有助于各种下游任务应用,如多语言知识图谱构建、事件推理、信息检索等。目前,多语言事件探测主要分为先翻译再事件探测与先单语言检测再跨多种语言对齐两种方法,前者依赖翻译的效果,后者需要为每种语言单独训练模型。为此,提出了一种名为基于跨层级多视角特征融合的多语言事件探测方法,端到端地进行多语言事件探测任务。该方法从不同层级利用文档的多视角特征,获得了高可靠性的多语言事件探测结果并提升了低资源语言事件探测的泛化性能。在9种语言混合的新闻数据集上进行的实验表明,所提方法的BCubed F1值提升了4.63%。 展开更多
关键词 多语言预训练模型 多语言事件探测 新闻文档聚类 加权相似度 增量聚类
下载PDF
基于本体驱动的航空情报表格信息结构化研究
20
作者 赖欣 李思宁 +1 位作者 梁昌盛 张恒嫣 《计算机科学》 CSCD 北大核心 2024年第S01期693-699,共7页
航空资料汇编是国际民航组织推荐的呈现各国航空信息的主要载体,其中以表格数据形式汇总了大量航空数据与航空运行限制信息。为实现航空汇编资料的智能查询,以及对航空资料汇编中静态数据的挖掘与利用,需要对航空汇编资料中的表格信息... 航空资料汇编是国际民航组织推荐的呈现各国航空信息的主要载体,其中以表格数据形式汇总了大量航空数据与航空运行限制信息。为实现航空汇编资料的智能查询,以及对航空资料汇编中静态数据的挖掘与利用,需要对航空汇编资料中的表格信息予以特征提取与结构化处理。将航空资料汇编中表格信息作为研究对象,提出了一种基于本体驱动的航空情报表格信息结构化抽取方法。首先构建航空情报领域信息的本体框架,实现对领域知识统一规范的描述;其次,利用Document AI对表格文档的布局结构进行研究与预处理,并利用随机森林算法与条件随机场模型进行特征实体提取验证与分析。实验结果表明,所提方法能够有效提取航空情报表格中的特征实体,为航空情报领域静态数据深入挖掘提供参考。 展开更多
关键词 航空情报 本体 命名实体识别 条件随机场 随机森林 document AI
下载PDF
上一页 1 2 41 下一页 到第
使用帮助 返回顶部