期刊文献+
共找到268篇文章
< 1 2 14 >
每页显示 20 50 100
Chinese multi-document personal name disambiguation 被引量:8
1
作者 Wang Houfeng(王厚峰) Mei Zheng 《High Technology Letters》 EI CAS 2005年第3期280-283,共4页
This paper presents a new approach to determining whether an interested personal name across documents refers to the same entity. Firstly, three vectors for each text are formed: the personal name Boolean vectors deno... This paper presents a new approach to determining whether an interested personal name across documents refers to the same entity. Firstly, three vectors for each text are formed: the personal name Boolean vectors denoting whether a personal name occurs in the text, the biographical word Boolean vector representing title, occupation and so forth, and the feature vector with real values. Then, by combining a heuristic strategy based on Boolean vectors with an agglomerative clustering algorithm based on feature vectors, it seeks to resolve multi-document personal name coreference. Experimental results show that this approach achieves a good performance by testing on 'Wang Gang' corpus. 展开更多
关键词 中文多文件系统 文字处理软件 启发策略 布尔向量
下载PDF
Using AdaBoost Meta-Learning Algorithm for Medical News Multi-Document Summarization 被引量:1
2
作者 Mahdi Gholami Mehr 《Intelligent Information Management》 2013年第6期182-190,共9页
Automatic text summarization involves reducing a text document or a larger corpus of multiple documents to a short set of sentences or paragraphs that convey the main meaning of the text. In this paper, we discuss abo... Automatic text summarization involves reducing a text document or a larger corpus of multiple documents to a short set of sentences or paragraphs that convey the main meaning of the text. In this paper, we discuss about multi-document summarization that differs from the single one in which the issues of compression, speed, redundancy and passage selection are critical in the formation of useful summaries. Since the number and variety of online medical news make them difficult for experts in the medical field to read all of the medical news, an automatic multi-document summarization can be useful for easy study of information on the web. Hence we propose a new approach based on machine learning meta-learner algorithm called AdaBoost that is used for summarization. We treat a document as a set of sentences, and the learning algorithm must learn to classify as positive or negative examples of sentences based on the score of the sentences. For this learning task, we apply AdaBoost meta-learning algorithm where a C4.5 decision tree has been chosen as the base learner. In our experiment, we use 450 pieces of news that are downloaded from different medical websites. Then we compare our results with some existing approaches. 展开更多
关键词 multi-document SUMMARIZATION Machine Learning Decision Trees ADABOOST C4.5 MEDICAL document SUMMARIZATION
下载PDF
Density peaks clustering based integrate framework for multi-document summarization 被引量:2
3
作者 BaoyanWang Jian Zhang +1 位作者 Yi Liu Yuexian Zou 《CAAI Transactions on Intelligence Technology》 2017年第1期26-30,共5页
关键词 动态规划 计算机技术 人工智能 发展现状
下载PDF
Constructing a taxonomy to support multi-document summarization of dissertation abstracts
4
作者 KHOO Christopher S.G. GOH Dion H. 《Journal of Zhejiang University-Science A(Applied Physics & Engineering)》 SCIE EI CAS CSCD 2005年第11期1258-1267,共10页
This paper reports part of a study to develop a method for automatic multi-document summarization. The current focus is on dissertations, in the field of sociology. The summarization method uses macro-level and micro-... This paper reports part of a study to develop a method for automatic multi-document summarization. The current focus is on dissertations, in the field of sociology. The summarization method uses macro-level and micro-level discourse structure to identify important information that can be extracted from dissertation abstracts, and then uses a variable-based framework to integrate and organize extracted information across dissertation abstracts. This framework focuses more on research concepts and their research relationships found in sociology dissertation abstracts and has a hierarchical structure. A taxonomy is constructed to support the summarization process in two ways: (1) helping to identify important concepts and relations expressed in the text, and (2) providing a structure for linking similar concepts in different abstracts. This paper describes the variable-based framework and the summarization process, and then reports the construction of the taxonomy for supporting the summarization process. An example is provided to show how to use the constructed taxonomy to identify important concepts and integrate the concepts extracted from different abstracts. 展开更多
关键词 数字图书馆 多文件摘要 框架结构 自动化技术 信息系统
下载PDF
Research on multi-document summarization based on latent semantic indexing
5
作者 秦兵 刘挺 +1 位作者 张宇 李生 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2005年第1期91-94,共4页
A multi-document summarization method based on Latent Semantic Indexing (LSI) is proposed. The method combines several reports on the same issue into a matrix of terms and sentences, and uses a Singular Value Decompos... A multi-document summarization method based on Latent Semantic Indexing (LSI) is proposed. The method combines several reports on the same issue into a matrix of terms and sentences, and uses a Singular Value Decomposition (SVD) to reduce the dimension of the matrix and extract features, and then the sentence similarity is computed. The sentences are clustered according to similarity of sentences. The centroid sentences are selected from each class. Finally, the selected sentences are ordered to generate the summarization. The evaluation and results are presented, which prove that the proposed methods are efficient. 展开更多
关键词 信息处理技术 索引 多文本摘要 网站 信息过滤系统
下载PDF
TWO-STAGE SENTENCE SELECTION APPROACH FOR MULTI-DOCUMENT SUMMARIZATION
6
作者 Zhang Shu Zhao Tiejun Zheng Dequan Zhao Hua 《Journal of Electronics(China)》 2008年第4期562-567,共6页
Compared with the traditional method of adding sentences to get summary in multi-document summarization,a two-stage sentence selection approach based on deleting sentences in acandidate sentence set to generate summar... Compared with the traditional method of adding sentences to get summary in multi-document summarization,a two-stage sentence selection approach based on deleting sentences in acandidate sentence set to generate summary is proposed,which has two stages,the acquisition of acandidate sentence set and the optimum selection of sentence.At the first stage,the candidate sentenceset is obtained by redundancy-based sentence selection approach.At the second stage,optimum se-lection of sentences is proposed to delete sentences in the candidate sentence set according to itscontribution to the whole set until getting the appointed summary length.With a test corpus,theROUGE value of summaries gotten by the proposed approach proves its validity,compared with thetraditional method of sentence selection.The influence of the token chosen in the two-stage sentenceselection approach on the quality of the generated summaries is analyzed. 展开更多
关键词 文字信息处理 自动摘要 文本处理 句子选择方法 多文档摘要
下载PDF
Multi-Document Summarization Model Based on Integer Linear Programming
7
作者 Rasim Alguliev Ramiz Aliguliyev Makrufa Hajirahimova 《Intelligent Control and Automation》 2010年第2期105-111,共7页
This paper proposes an extractive generic text summarization model that generates summaries by selecting sentences according to their scores. Sentence scores are calculated using their extensive coverage of the main c... This paper proposes an extractive generic text summarization model that generates summaries by selecting sentences according to their scores. Sentence scores are calculated using their extensive coverage of the main content of the text, and summaries are created by extracting the highest scored sentences from the original document. The model formalized as a multiobjective integer programming problem. An advantage of this model is that it can cover the main content of source (s) and provide less redundancy in the generated sum- maries. To extract sentences which form a summary with an extensive coverage of the main content of the text and less redundancy, have been used the similarity of sentences to the original document and the similarity between sentences. Performance evaluation is conducted by comparing summarization outputs with manual summaries of DUC2004 dataset. Experiments showed that the proposed approach outperforms the related methods. 展开更多
关键词 multi-document SUMMARIZATION Content COVERAGE LESS REDUNDANCY INTEGER Linear Programming
下载PDF
基于多粒度阅读器和图注意力网络的文档级事件抽取
8
作者 薛颂东 李永豪 赵红燕 《计算机应用研究》 CSCD 北大核心 2024年第8期2329-2335,共7页
文档级事件抽取面临论元分散和多事件两大挑战,已有工作大多采用逐句抽取候选论元的方式,难以建模跨句的上下文信息。为此,提出了一种基于多粒度阅读器和图注意网络的文档级事件抽取模型,采用多粒度阅读器实现多层次语义编码,通过图注... 文档级事件抽取面临论元分散和多事件两大挑战,已有工作大多采用逐句抽取候选论元的方式,难以建模跨句的上下文信息。为此,提出了一种基于多粒度阅读器和图注意网络的文档级事件抽取模型,采用多粒度阅读器实现多层次语义编码,通过图注意力网络捕获实体对之间的局部和全局关系,构建基于实体对相似度的剪枝完全图作为伪触发器,全面捕捉文档中的事件和论元。在公共数据集ChFinAnn和DuEE-Fin上进行了实验,结果表明提出的方法改善了论元分散问题,提升了模型事件抽取性能。 展开更多
关键词 多粒度阅读器 图注意力网络 文档级事件抽取
下载PDF
知识关联视角下标准文档的多粒度知识组织方法研究
9
作者 范昊 王一帆 《信息资源管理学报》 2024年第4期133-145,共13页
传统的文档组织方式无法应对标准数字化发展形势,有必要充分发掘标准文档中的多粒度知识单元及其语义关联,探索能够高效运用标准知识的新型组织方法,为优化标准供给提供参考。从知识关联视角出发,提出一种面向标准文档的多粒度、富语义... 传统的文档组织方式无法应对标准数字化发展形势,有必要充分发掘标准文档中的多粒度知识单元及其语义关联,探索能够高效运用标准知识的新型组织方法,为优化标准供给提供参考。从知识关联视角出发,提出一种面向标准文档的多粒度、富语义的通用知识组织方法。首先,基于知识粒度理论,依据标准文档的知识内容和需求特征进行多粒度的知识划分与描述;其次,从知识层级、文档特征、文本逻辑、时空演化等方面认知和发现标准多粒度知识间的语义关联模式与类型;最后,采用本体构建方法实现标准文档的多粒度知识组织,并通过知识实例的添加来实现本体验证与价值阐述。多粒度知识关联的标准组织方法能够完整揭示标准文档中的多粒度知识单元,形成联通广泛的知识层次与关联,有助于标准知识在多种服务场景中被有效获取、共享与重用,既推进了适应数智时代的标准资源建设,又丰富了多粒度知识驱动的文档内容挖掘与利用。 展开更多
关键词 标准文档 知识组织 语义关联 多粒度知识 本体构建
下载PDF
结合预训练的多文档摘要:研究
10
作者 丁一 王中卿 《计算机科学》 CSCD 北大核心 2024年第S01期174-181,共8页
新闻文本摘要任务旨在从庞大复杂的新闻文本中快速准确地提炼出简明扼要的摘要。基于预训练语言模型对多文档摘要进行研究,重点研究结合预训练任务的具体模型训练方式对模型效果提升的作用,强化多文档之间的信息交流,以生成更全面、更... 新闻文本摘要任务旨在从庞大复杂的新闻文本中快速准确地提炼出简明扼要的摘要。基于预训练语言模型对多文档摘要进行研究,重点研究结合预训练任务的具体模型训练方式对模型效果提升的作用,强化多文档之间的信息交流,以生成更全面、更简练的摘要。对于结合预训练任务,提出对基线模型、预训练任务内容、预训练任务数量、预训练任务顺序的对比实验,探索标记了行之有效的预训练任务,总结归纳了强化多文档之间的信息交流的具体方法,精炼提出了简明高效的预训练流程。在公开新闻多文档数据集上进行训练和测试,实验结果表明预训练任务的内容、数量、顺序对ROUGE值都有一定提升,并且整合三者结论提出的特定预训练组合对ROUGE值有明显提升。 展开更多
关键词 新闻 摘要: 预训练 多文档 信息交流
下载PDF
两阶段文档筛选和异步多粒度图多跳问答
11
作者 张雪松 李冠君 +3 位作者 聂士佳 张大伟 吕钊 陶建华 《计算机技术与发展》 2024年第1期121-127,共7页
多跳问答旨在通过对多篇文档内容进行推理,来预测问题答案以及针对答案的支撑事实。然而当前的多跳问答方法在文档筛选任务中旨在找到与问题相关的所有文档,未考虑到这些文档是否都对找到答案有所帮助。因此,该文提出一种两阶段的文档... 多跳问答旨在通过对多篇文档内容进行推理,来预测问题答案以及针对答案的支撑事实。然而当前的多跳问答方法在文档筛选任务中旨在找到与问题相关的所有文档,未考虑到这些文档是否都对找到答案有所帮助。因此,该文提出一种两阶段的文档筛选方法。第一阶段通过对文档进行评分且设置较小的阈值来获取尽可能多的与问题相关文档,保证文档的高召回率;第二阶段对问题答案的推理路径进行建模,在第一阶段的基础上再次提取文档,保证文档的高精确率。此外,针对由文档构成的多粒度图,提出一种新颖的异步更新机制来进行答案预测以及支撑事实预测。提出的异步更新机制将多粒度图分为异质图和同质图来进行异步更新以更好地进行多跳推理。该方法在性能上优于目前主流的多跳问答方法,验证了该方法的有效性。 展开更多
关键词 多跳问答 文档筛选 多粒度图 异步更新 答案预测
下载PDF
基于异构图分层学习的细粒度多文档摘要抽取
12
作者 翁裕源 许柏炎 蔡瑞初 《计算机工程》 CAS CSCD 北大核心 2024年第3期336-344,共9页
抽取的目标是在多个文档中提取共有关键信息,其对简洁性的要求高于单文档摘要抽取。现有的多文档摘要抽取方法通常在句子级别进行建模,容易引入较多的冗余信息。为了解决上述问题,提出一种基于异构图分层学习的多文档摘要抽取框架,通过... 抽取的目标是在多个文档中提取共有关键信息,其对简洁性的要求高于单文档摘要抽取。现有的多文档摘要抽取方法通常在句子级别进行建模,容易引入较多的冗余信息。为了解决上述问题,提出一种基于异构图分层学习的多文档摘要抽取框架,通过层次化构建单词层级图和子句层级图来有效建模语义关系和结构关系。针对单词层级图和子句层级图这2个异构图的学习问题,设计具有不同层次更新机制的两层学习层来降低学习多种结构关系的难度。在单词层级图学习层,提出交替更新机制更新不同的粒度节点,以单词节点为载体通过图注意网络进行语义信息传递;在子句层级图学习层,提出两阶段分步学习更新机制聚合多种结构关系,第一阶段聚合同构关系,第二阶段基于注意力聚合异构关系。实验结果表明,与抽取式基准模型相比,该框架在Multinews数据集上取得了显著的性能提升,ROUGE-1、ROUGE-2和ROUGE-L分别提高0.88、0.23和2.27,消融实验结果也验证了两层学习层及其层次更新机制的有效性。 展开更多
关键词 抽取式多文档摘要 细粒度建模 异构图 分层学习 语义关系 结构关系
下载PDF
基于异质图神经网络预训练的多标签文档分类研究
13
作者 吴家伟 方全 +1 位作者 胡骏 钱胜胜 《计算机科学》 CSCD 北大核心 2024年第1期143-149,共7页
多标签文档分类是一种将文档实例与相关标签相关联的技术,近年来受到越来越多研究者的关注。现有的多标签文档分类方法尝试探索文本之外的信息的融合,如文档元数据或标签结构。然而,这些方法要么简单地利用元数据的语义信息,要么没有考... 多标签文档分类是一种将文档实例与相关标签相关联的技术,近年来受到越来越多研究者的关注。现有的多标签文档分类方法尝试探索文本之外的信息的融合,如文档元数据或标签结构。然而,这些方法要么简单地利用元数据的语义信息,要么没有考虑标签的长尾分布,因此忽略了文档及其元数据之间的高阶关系和标签的分布规律等信息,从而影响到多标签文档分类的准确性。因此,文中提出一种新的基于异质图神经网络预训练的多标签文档分类方法。该方法通过构造文档与其元数据的异质图,采用两种对比学习预训练方法捕获文档与其元数据之间的关系,并通过平衡标签长尾分布的损失函数来提高多标签文档分类的准确性。在基准数据集上的实验结果表明,所提方法的准确率比Transformer提高了8%,比BertXML提高了4.75%,比MATCH提高了1.3%。 展开更多
关键词 多标签文档分类 元数据 异质图神经网络 预训练 长尾分布
下载PDF
基于审判逻辑步骤的裁判文书摘要生成方法
14
作者 余帅 宋玉梅 +2 位作者 秦永彬 黄瑞章 陈艳平 《计算机工程与应用》 CSCD 北大核心 2024年第4期113-121,共9页
面向裁判文书的司法摘要是提升裁判文书分析能力的关键技术。裁判文书作为审判活动的载体,精准地呈现了案件的审判逻辑,但目前针对裁判文书的摘要方法只关注裁判文书的序列化信息,忽视了裁判文书的逻辑结构,且不能有效解决文本过长、信... 面向裁判文书的司法摘要是提升裁判文书分析能力的关键技术。裁判文书作为审判活动的载体,精准地呈现了案件的审判逻辑,但目前针对裁判文书的摘要方法只关注裁判文书的序列化信息,忽视了裁判文书的逻辑结构,且不能有效解决文本过长、信息冗余等问题。提出基于审判逻辑步骤的裁判文书摘要生成方法,采取“抽取+生成”相结合的方式,在抽取部分利用多标签分类方法,依据人民法院审理案件的逻辑步骤抽取出“类型、诉请、事实、结果”四个句子集合,在生成部分由微调后的T5-PEGASUS模型得到摘要。利用基于内部知识的最大相似度匹配算法对“事实”部分的输入文本进行降噪处理,进一步改善了摘要效果。实验结果表明,相比于主流的指针生成网络模型,该方法在ROUGE-1、ROUGE-2和ROUGE-L的F1指标上分别提升了17.99个百分点、21.24个百分点、21.86个百分点,说明在司法摘要任务中引入逻辑结构能够提升性能。 展开更多
关键词 裁判文书 审判逻辑步骤 多标签分类 内部知识 生成式摘要
下载PDF
基于Multi-Agent模型结构的数字文献编目检索系统设计 被引量:5
15
作者 赵丽梅 《现代电子技术》 2021年第16期110-114,共5页
传统系统存在召回率和检索精准度低的问题,为此,文中提出基于Multi-Agent模型结构的数字文献编目检索系统设计。根据系统硬件结构,依次对用户界面层、功能模块及开发工具层、核心对象层和系统支撑层进行分析。其中,用户界面层向用户提供... 传统系统存在召回率和检索精准度低的问题,为此,文中提出基于Multi-Agent模型结构的数字文献编目检索系统设计。根据系统硬件结构,依次对用户界面层、功能模块及开发工具层、核心对象层和系统支撑层进行分析。其中,用户界面层向用户提供Web交互式图形界面;功能模块及开发工具层向用户提供开发工具,通过交互信息协同完成任务;核心对象层按照信息交互策略向功能模块提供所需数据;系统支撑层向系统底层数据对象提供维护和协调功能,维护数据一致性。以面向Multi-Agent模型的软件工程为设计理念,计算执行任务与数字文献编目任务处理数值,以现有检索技术为基础,设计基于Multi-Agent模型的检索流程。由实验结果可知,该系统最高召回率和检索精准度都为95%,具有较高的实用性。 展开更多
关键词 文献编目 文献检索 multi-Agent模型 结构分析 数值计算 检索流程
下载PDF
多尺度特征融合的版面分析方法
16
作者 乔佳 徐琨 胡佩蓉 《计算机与现代化》 2024年第5期16-21,共6页
针对当前文档版面元素分析中存在的列表和文本错分,表格内小尺度文本难以识别以及空间特征保留效果差等问题,本文基于自底向上的思想,提出一种基于SegNet网络的多特征融合版面分析方法。本文方法在SegNet中引入MSCAN-SE模块,针对表格中... 针对当前文档版面元素分析中存在的列表和文本错分,表格内小尺度文本难以识别以及空间特征保留效果差等问题,本文基于自底向上的思想,提出一种基于SegNet网络的多特征融合版面分析方法。本文方法在SegNet中引入MSCAN-SE模块,针对表格中的小尺度元素识别率低的问题,利用注意力机制MSCAN-SE中的条状特征来提升模型多尺度特征的提取能力,使得网络能够保留更多尺度的特征信息;针对列表元素和文本元素特征过于相似的问题,通过注意力机制MSCAN-SE中的空洞卷积以及通道注意力分支来扩大网络在特征提取过程的感受野。本文方法与经典的语义分割网络通过实验进行性能比较,结果表明:本文方法在版面分析的测试集上的像素准确率为97.9%,平均交并比为91.7%,平均交并比较U-Net语义分割模型、FCN语义分割模型、DeepLabV3+语义分割模型和SegNet语义分割模型分别提高了7.6%、2.4%、2.6%和1.5%。 展开更多
关键词 版面分析 多尺度注意力 语义分割 通道注意力
下载PDF
基于伪触发词的并行预测篇章级事件抽取方法
17
作者 秦海涛 线岩团 +1 位作者 相艳 黄于欣 《电子技术应用》 2024年第4期67-74,共8页
篇章级事件抽取一般将事件抽取任务分为候选实体识别、事件检测和论元识别3个子任务,然后采用级联的方式依次进行,这样的方式会造成误差传递;另外,现有的大多数模型在解码事件时,对事件数量的预测隐含在解码过程中,且只能按照预定义的... 篇章级事件抽取一般将事件抽取任务分为候选实体识别、事件检测和论元识别3个子任务,然后采用级联的方式依次进行,这样的方式会造成误差传递;另外,现有的大多数模型在解码事件时,对事件数量的预测隐含在解码过程中,且只能按照预定义的事件顺序及预定义的角色顺序预测事件论元,使得先抽取的事件并没有考虑到后面抽取的事件。针对以上问题提出一种多任务联合的并行预测事件抽取框架。首先,使用预训练语言模型作为文档句子的编码器,检测文档中存在的事件类型,并使用结构化自注意力机制获取伪触发词特征,预测每种事件类型的事件数量;然后将伪触发词特征与候选论元特征进行交互,并行预测每个事件对应的事件论元,在大幅缩减模型训练时间的同时获得与基线模型相比更好的性能。最终事件抽取结果F1值为78%,事件类型检测子任务F1值为98.7%,事件数量预测子任务F1值为90.1%,实体识别子任务F1值为90.3%。 展开更多
关键词 篇章级事件抽取 多任务联合 预训练语言模型 结构化自注意力机制 并行预测
下载PDF
基于异构图和关键词的抽取式文本摘要模型
18
作者 朱颀林 王羽 徐建 《电子科技大学学报》 EI CAS CSCD 北大核心 2024年第2期259-270,共12页
抽取式文本摘要使用一定的策略从冗长的文本中选择一些句子组成摘要,其关键在于要尽可能多地利用文本的语义信息和结构信息。为了更好地挖掘这些信息,进而利用它们指导摘要的抽取,提出了一种基于异构图和关键词的抽取式文本摘要模型(HGK... 抽取式文本摘要使用一定的策略从冗长的文本中选择一些句子组成摘要,其关键在于要尽可能多地利用文本的语义信息和结构信息。为了更好地挖掘这些信息,进而利用它们指导摘要的抽取,提出了一种基于异构图和关键词的抽取式文本摘要模型(HGKSum)。该模型首先将文本建模为由句子节点和词语节点构成的异构图,在异构图上使用图注意力网络学习节点的特征,之后将关键词抽取任务作为文本摘要任务的辅助任务,使用多任务学习的方式进行训练,得到候选摘要,最后对候选摘要进行精炼以降低冗余度,得到最终摘要。在基准数据集上的对比实验表明,该模型性能优于基准模型,此外,消融实验也证明了引入异构节点和关键词的必要性。 展开更多
关键词 抽取式文本摘要 异构图 关键词 图注意力网络 多任务学习
下载PDF
文档级关系抽取中的小波变换特征增强方法
19
作者 杨肖 肖蓉 《中文信息学报》 CSCD 北大核心 2024年第2期109-120,131,共13页
传统的文档级关系抽取方法在特征表示的有效性和噪声消除方面存在局限,不能准确地找出证据句子和实体对的关系。为了进一步提升文档级关系抽取和证据句子抽取的准确性,该文提出了一种使用小波变换对预训练语言模型生成的文本向量进行特... 传统的文档级关系抽取方法在特征表示的有效性和噪声消除方面存在局限,不能准确地找出证据句子和实体对的关系。为了进一步提升文档级关系抽取和证据句子抽取的准确性,该文提出了一种使用小波变换对预训练语言模型生成的文本向量进行特征提取、清洗和去噪处理的方法。首先利用预训练语言模型对文档进行编码,将得到的初始文本向量应用小波变换出更精确的特征,其次引入多头注意力机制对小波变换的数据进行加权处理,以凸显与实体对关系相关的重要特征。为了充分利用原始数据和清洗后的数据,采用残差连接的方式将它们进行融合。在DocRED数据集上对模型进行了实验,结果表明,该文所提模型能够更好地抽取实体对的关系。 展开更多
关键词 文档级关系抽取 小波变换 多头注意力机制
下载PDF
基于图文多模态融合的文档片段语义相似度判定算法
20
作者 潘媛 梁国迪 +1 位作者 邵馨叶 李芹 《电子设计工程》 2024年第3期106-109,114,共5页
为使网络主机的差异性赋值能力得到保障,实现对相似性文档片段语义信息的准确判别,提出基于图文多模态融合的文档片段语义相似度判定算法。在多模态融合条件的基础上,联合图像区域检测结果、文本区域检测结果,建立完整的词袋模型,实现... 为使网络主机的差异性赋值能力得到保障,实现对相似性文档片段语义信息的准确判别,提出基于图文多模态融合的文档片段语义相似度判定算法。在多模态融合条件的基础上,联合图像区域检测结果、文本区域检测结果,建立完整的词袋模型,实现基于图文多模态融合的文档片段标注。根据文本数据预处理条件,确定关键词权值指标,联合已知文档片段语义信息,求取相似性度量值的准确计算结果,完成文档片段语义相似度判定算法的设计。对比实验结果可知,在图文多模态融合技术的支持下,差异性赋值指标的平均值达到了1.0,对于网络主机而言,其在准确判别相似性文档片段语义信息方面的应用能力得到了保障。 展开更多
关键词 图文多模态融合 文档片段 语义相似度 词袋模型 关键词权值 差异性赋值
下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部