期刊文献+
共找到544篇文章
< 1 2 28 >
每页显示 20 50 100
Genetic-Frog-Leaping Algorithm for Text Document Clustering 被引量:1
1
作者 Lubna Alhenak Manar Hosny 《Computers, Materials & Continua》 SCIE EI 2019年第9期1045-1074,共30页
In recent years,the volume of information in digital form has increased tremendously owing to the increased popularity of the World Wide Web.As a result,the use of techniques for extracting useful information from lar... In recent years,the volume of information in digital form has increased tremendously owing to the increased popularity of the World Wide Web.As a result,the use of techniques for extracting useful information from large collections of data,and particularly documents,has become more necessary and challenging.Text clustering is such a technique;it consists in dividing a set of text documents into clusters(groups),so that documents within the same cluster are closely related,whereas documents in different clusters are as different as possible.Clustering depends on measuring the content(i.e.,words)of a document in terms of relevance.Nevertheless,as documents usually contain a large number of words,some of them may be irrelevant to the topic under consideration or redundant.This can confuse and complicate the clustering process and make it less accurate.Accordingly,feature selection methods have been employed to reduce data dimensionality by selecting the most relevant features.In this study,we developed a text document clustering optimization model using a novel genetic frog-leaping algorithm that efficiently clusters text documents based on selected features.The proposed approach is based on two metaheuristic algorithms:a genetic algorithm(GA)and a shuffled frog-leaping algorithm(SFLA).The GA performs feature selection,and the SFLA performs clustering.To evaluate its effectiveness,the proposed approach was tested on a well-known text document dataset:the“20Newsgroup”dataset from the University of California Irvine Machine Learning Repository.Overall,after multiple experiments were compared and analyzed,it was demonstrated that using the proposed algorithm on the 20Newsgroup dataset greatly facilitated text document clustering,compared with classical K-means clustering.Nevertheless,this improvement requires longer computational time. 展开更多
关键词 text documents clustering meta-heuristic algorithms shuffled frog-leaping algorithm genetic algorithm feature selection
下载PDF
Research and Analysis of Grammatical Error Correction Technology for Chinese Documents
2
作者 Wei Jin Feng Jiang +2 位作者 Xiulai Wang Ningling Ma Yutao Zhang 《Journal of Computer and Communications》 2024年第8期202-223,共22页
With the widespread use of Chinese globally, the number of Chinese learners has been increasing, leading to various grammatical errors among beginners. Additionally, as domestic efforts to develop industrial informati... With the widespread use of Chinese globally, the number of Chinese learners has been increasing, leading to various grammatical errors among beginners. Additionally, as domestic efforts to develop industrial information grow, electronic documents have also proliferated. When dealing with numerous electronic documents and texts written by Chinese beginners, manually written texts often contain hidden grammatical errors, posing a significant challenge to traditional manual proofreading. Correcting these grammatical errors is crucial to ensure fluency and readability. However, certain special types of text grammar or logical errors can have a huge impact, and manually proofreading a large number of texts individually is clearly impractical. Consequently, research on text error correction techniques has garnered significant attention in recent years. The advent and advancement of deep learning have paved the way for sequence-to-sequence learning methods to be extensively applied to the task of text error correction. This paper presents a comprehensive analysis of Chinese text grammar error correction technology, elaborates on its current research status, discusses existing problems, proposes preliminary solutions, and conducts experiments using judicial documents as an example. The aim is to provide a feasible research approach for Chinese text error correction technology. 展开更多
关键词 Chinese text Error Judicial documents Neural Network Deep Learning TRANSFORMER
下载PDF
Mathematical Expression Extraction in Text Fields of Documents Based on HMM
3
作者 Xuedong Tian Ruihan Bai +2 位作者 Fang Yang Jinyuan Bai Xinfu Li 《Journal of Computer and Communications》 2017年第14期1-13,共13页
Aiming at the problem that the mathematical expressions in unstructured text fields of documents are hard to be extracted automatically, rapidly and effectively, a method based on Hidden Markov Model (HMM) is proposed... Aiming at the problem that the mathematical expressions in unstructured text fields of documents are hard to be extracted automatically, rapidly and effectively, a method based on Hidden Markov Model (HMM) is proposed. Firstly, this method trained the HMM model through employing the symbol combination features of mathematical expressions. Then, some preprocessing works such as removing labels and filtering words were carried out. Finally, the preprocessed text was converted into an observation sequence as the input of the HMM model to determine which is the mathematical expression and extracts it. The experimental results show that the proposed method can effectively extract the mathematical expressions from the text fields of documents, and also has the relatively high accuracy rate and recall rate. 展开更多
关键词 Mathematical Expression EXTRACTION Hidden MARKOV Model text FIELDS documentS SYMBOL Combination Features
下载PDF
Evolution and prospect of China's rural development policy: A policy text analysis of the No.1 Central Documents
4
作者 WANG Qiang 《Ecological Economy》 2018年第4期268-281,共14页
By combing 20 documents of the Central Committee on the historical evolution of rural development policies since 1982, we hold that historical evolution has undergone reforms, adjustments, modernization developments a... By combing 20 documents of the Central Committee on the historical evolution of rural development policies since 1982, we hold that historical evolution has undergone reforms, adjustments, modernization developments and new ideas, and the path of reform experienced economic recovery, industrial nurturing agriculture, agriculture modernization and rural revitalization. The study found that: farmers' income has always been the focus of attention; agricultural production has shifted from total demand to green ecology; urban and rural resource elements are not well-organized, resulting in internal contradictions. The implementation of the rural revitalization strategy is an important measure to fundamentally solve the rural development problems in the new era. 展开更多
关键词 the No.1 CENTRAL document text ANALYSIS rural development EVOLUTION PROSPECT
下载PDF
基于融合矩阵的文本相似度计算实现检索结果聚类 被引量:1
5
作者 赵悦阳 崔雷 《医学信息学杂志》 CAS 2024年第3期58-64,共7页
目的/意义弥补医学文本语义表示方面的不足,实现PubMed数据库检索结果聚类。方法/过程采用Jaccard系数和TF-IDF构建融合矩阵方法,建立短语间、文档间、短语与文档内容间的相似性关系融合矩阵,训练聚类算法,将PubMed数据库检索结果集合分... 目的/意义弥补医学文本语义表示方面的不足,实现PubMed数据库检索结果聚类。方法/过程采用Jaccard系数和TF-IDF构建融合矩阵方法,建立短语间、文档间、短语与文档内容间的相似性关系融合矩阵,训练聚类算法,将PubMed数据库检索结果集合分组,随后生成类别标签,描述每一类簇文档的含义。结果/结论基于融合矩阵的聚类效果较好,提取出描述类别的高频词能很好地区分类别含义,对检索结果文本聚类任务有效。 展开更多
关键词 文献检索 文本聚类 融合矩阵 文本相似度
下载PDF
文本细读、文献考辨与“文心”前置:朝鲜杜诗学研究的基本维度——以左江《杜诗与朝鲜时代汉文学》为中心
6
作者 王成 《杜甫研究学刊》 2024年第3期69-77,86,共10页
杜诗学作为朝鲜古代诗学重要研究领域之一,单一的文本分析很难挖掘出杜诗在朝鲜文坛接受、传播与变化的丰富状貌,只有多维度阐释才能达成整体性的学术关照。左江《杜诗与朝鲜时代汉文学》以文本细读作为研究基础,重视文献考辨。该书秉... 杜诗学作为朝鲜古代诗学重要研究领域之一,单一的文本分析很难挖掘出杜诗在朝鲜文坛接受、传播与变化的丰富状貌,只有多维度阐释才能达成整体性的学术关照。左江《杜诗与朝鲜时代汉文学》以文本细读作为研究基础,重视文献考辨。该书秉承旧文献新用、新文献智用的研究原则,将义理阐释与文献考辨相结合,体现出“文心”前置的鲜明特点,进一步丰富了东亚汉文化圈的杜诗学研究空间。 展开更多
关键词 《杜诗与朝鲜时代汉文学》 朝鲜杜诗学 文本 文献 “文心”
下载PDF
我国民族语言文献文本数字化识别问题——基于OCR及其工具
7
作者 范俊军 刘贤娴 《暨南学报(哲学社会科学版)》 CSSCI 北大核心 2024年第6期31-45,共15页
我国少数民族语言文献数量庞大,文字种类繁多,内容涵盖政治、经济、法律、历史、文学、艺术、宗教、天文、地理、医药等领域,是中华民族文化知识的重要组成部分。构建各民族文献文本数据,使之应用于自然语言处理和人工智能,能有效促进... 我国少数民族语言文献数量庞大,文字种类繁多,内容涵盖政治、经济、法律、历史、文学、艺术、宗教、天文、地理、医药等领域,是中华民族文化知识的重要组成部分。构建各民族文献文本数据,使之应用于自然语言处理和人工智能,能有效促进中华优秀传统知识创新性传承,促进知识社会化,是对各民族语言古文献和现代书报刊进行文字识别和文本转换数据构建的基础。国内早期OCR技术虽然解决了几种主要少数民族文字识别的问题,但因字符为非Unicode基本集编码而弃用。当前OCR技术已能较好识别蒙、藏、维、哈、朝等文种文献,但在处理我国汉文与少数民族文字混排图像文本时仍然效果不佳。因此应推进少数民族语言文献OCR识别技术创新。我国少数民族语言文献现行活态文字有十多种,其中非拉丁字系的文字有11种,OCR技术应重点解决这类少数民族语言字系的抄本、刻版和铅字印刷文本,以及汉文与民族文字混排文本的识别问题,研发开放的多功能工具和平台。在此基础上,进一步开展少数民族语言文献文本大规模数据构建,以促进我国语言科学研究和自然语言处理的创新发展。 展开更多
关键词 少数民族语言 民族文献 文本识别 OCR 数据构建 数字人文
下载PDF
从法书文献到童蒙读物的流传轨迹——以启功先生《说〈千字文〉》为线索
8
作者 于翠玲 《中国出版史研究》 2024年第1期21-33,共13页
智永的《千字文》以楷书和草书体书写,有多种版本。启功的研究展示了法书文献的复制方式及流传轨迹,还强调《千字文》具有启发童蒙、流传广远的实用价值。这有助于人们了解古代法书文献的版本知识、认识“王羲之这个角色”、拓展法书文... 智永的《千字文》以楷书和草书体书写,有多种版本。启功的研究展示了法书文献的复制方式及流传轨迹,还强调《千字文》具有启发童蒙、流传广远的实用价值。这有助于人们了解古代法书文献的版本知识、认识“王羲之这个角色”、拓展法书文献出版物及书法教学“启发童蒙”的功用,同时也为研究中国特色的阅读史提供了一个有意义的案例。 展开更多
关键词 启功 智永 千字文 法书文献 童蒙读物 阅读史
下载PDF
Establish Evidence Chain Model on Chinese Criminal Judgment Documents Using Text Similarity Measure
9
作者 Yixuan Dong Yemao Zhou +6 位作者 Chuanyi Li Jidong Ge Yali Han Mengting He Dekuan Liu Xiaoyu Zhou Bin Luo 《国际计算机前沿大会会议论文集》 2018年第2期4-4,共1页
关键词 CRIMINAL JUDGMENT documentS JUDGMENT documentS reasoningBig data EVIDENCE CHAIN text similarity measure Word2vecWeight of EVIDENCE CHAIN
下载PDF
基于词-主题-文本异质网络的短文本分类方法
10
作者 徐涛 赵星甲 卢敏 《计算机应用与软件》 北大核心 2024年第1期146-152,182,共8页
针对现有分类方法未考虑长距离词的语义相关性和文本间潜在主题共享的问题,提出一种基于词-主题-文本异质网络(WTDHN)的短文本分类方法。通过Word2vec训练词的上下文语义向量;构建词相关性矩阵以充足的词共现信息增强短文本各级别语义学... 针对现有分类方法未考虑长距离词的语义相关性和文本间潜在主题共享的问题,提出一种基于词-主题-文本异质网络(WTDHN)的短文本分类方法。通过Word2vec训练词的上下文语义向量;构建词相关性矩阵以充足的词共现信息增强短文本各级别语义学;构建以词、主题和文本为节点的异质网络,并采用图卷积学习节点之间的高阶邻域信息,丰富短文本语义。相较于基准分类模型,该方法在五个公开短文本数据集上的分类准确率平均提高1.56%。 展开更多
关键词 词-主题-文本异质网络 词共现 文本-主题分布 短文本分类
下载PDF
Text Extraction in Complex Color Document Images for Enhanced Readability
11
作者 P. Nagabhushan S. Nirmala 《Intelligent Information Management》 2010年第2期120-133,共14页
Often we encounter documents with text printed on complex color background. Readability of textual contents in such documents is very poor due to complexity of the background and mix up of color(s) of foreground text ... Often we encounter documents with text printed on complex color background. Readability of textual contents in such documents is very poor due to complexity of the background and mix up of color(s) of foreground text with colors of background. Automatic segmentation of foreground text in such document images is very much essential for smooth reading of the document contents either by human or by machine. In this paper we propose a novel approach to extract the foreground text in color document images having complex background. The proposed approach is a hybrid approach which combines connected component and texture feature analysis of potential text regions. The proposed approach utilizes Canny edge detector to detect all possible text edge pixels. Connected component analysis is performed on these edge pixels to identify candidate text regions. Because of background complexity it is also possible that a non-text region may be identified as a text region. This problem is overcome by analyzing the texture features of potential text region corresponding to each connected component. An unsupervised local thresholding is devised to perform foreground segmentation in detected text regions. Finally the text regions which are noisy are identified and reprocessed to further enhance the quality of retrieved foreground. The proposed approach can handle document images with varying background of multiple colors and texture;and foreground text in any color, font, size and orientation. Experimental results show that the proposed algorithm detects on an average 97.12% of text regions in the source document. Readability of the extracted foreground text is illustrated through Optical character recognition (OCR) in case the text is in English. The proposed approach is compared with some existing methods of foreground separation in document images. Experimental results show that our approach performs better. 展开更多
关键词 Color document Image COMPLEX Background Connected Component ANALYSIS Segmentation of text texture ANALYSIS UNSUPERVISED THRESHOLDING OCR
下载PDF
转录与传习:西周诰类文献生成机制研究
12
作者 林甸甸 《北京师范大学学报(社会科学版)》 CSSCI 北大核心 2024年第2期65-73,共9页
西周的“诰”是受诰方对“王告”这一话语行为的尊称,并在“王告”落实为书面文献时,作为文体名词使用。由于下位者参与了“诰”类文献的整理写作,受诰者在话语权力关系中的被动地位被表达出来,并呈现在仪式话语转录为经典文本的传习过... 西周的“诰”是受诰方对“王告”这一话语行为的尊称,并在“王告”落实为书面文献时,作为文体名词使用。由于下位者参与了“诰”类文献的整理写作,受诰者在话语权力关系中的被动地位被表达出来,并呈现在仪式话语转录为经典文本的传习过程中。传世诰类文献的核心文本为册命、赏赐仪式上所发布的原始诰辞;其附属的结构性成分为交代作诰历史背景的叙事导语,以及以“某人曰”为代表的结构性部件。“某人曰”在书面诰文中重复、平行地出现,有助于澄清和整肃话语主体,但也提示了诰文在传习过程中的可变异性。“王若曰”的插入位置,一定程度上反映了传习者对原始诰辞内容层次的理解,同时推动了诰辞转录为文本篇章的进程。 展开更多
关键词 诰类文献 文本结构 文献生成 话语权力 文本转录
下载PDF
公文结构的理论研究述评与前瞻
13
作者 杨霞 《秘书》 2024年第3期83-93,共11页
当前的公文结构研究在形式要素结构、写作思维结构、写作结构模式、整体篇章结构等方面已取得显著成果。然而,由于多数研究集中在形式的静态考察和表层的宏观描写,导致结论的适用性和解释力有限。因此,未来的研究应重点关注内容信息结构... 当前的公文结构研究在形式要素结构、写作思维结构、写作结构模式、整体篇章结构等方面已取得显著成果。然而,由于多数研究集中在形式的静态考察和表层的宏观描写,导致结论的适用性和解释力有限。因此,未来的研究应重点关注内容信息结构,在篇章语言学视角下结合中国文件制度语境,运用跨学科研究方法,深入探讨公文结构的语言表达、话语结构、信息组织模式以及篇章结构系统要素之间的关系等问题。这将有助于形成科学的理论知识体系,为社会组织进行公文写作和交流沟通提供有力的理论支撑。 展开更多
关键词 公文文本 公文结构 信息结构 语言结构体 篇章语言学
下载PDF
基于文字边缘失真特征的翻拍图像篡改定位
14
作者 陈昌盛 陈自炜 李锡劲 《中国科技论文》 CAS 2024年第2期160-168,199,共10页
针对翻拍文档图像的篡改定位问题,提出一种基于文字边缘失真特征的翻拍图像篡改定位方法。从文字边缘分布、边缘梯度以及待检测文本与参考文本在边缘梯度上的差异3个方面构建了文字失真特征,并训练了一个基于深度神经网络的分类器进行... 针对翻拍文档图像的篡改定位问题,提出一种基于文字边缘失真特征的翻拍图像篡改定位方法。从文字边缘分布、边缘梯度以及待检测文本与参考文本在边缘梯度上的差异3个方面构建了文字失真特征,并训练了一个基于深度神经网络的分类器进行决策。同时,为了评估检测方法的性能,构建了一个包含120张合法图像、1 200张翻拍篡改文档图像的数据集。实验结果表明:所提出的方法在跨库实验场景下词汇级别的ROC曲线下面积(area under ROC curve,AUC)和等错误率(equal error rate,EER)分别达到了0.84和0.23;与Forensic Similarity (128×128)和DenseFCN相比,所提出的特征结合LightDenseNet的方法在翻拍篡改文档数据集的跨库协议下,词汇级别的AUC指标分别提高了0.06和0.17。 展开更多
关键词 文档图像 翻拍攻击 篡改定位 文字边缘失真 翻拍篡改文档数据库
下载PDF
基于文本摘要的无监督关键词抽取方法
15
作者 尤泽顺 周喜 +2 位作者 董瑞 张洋宁 杨奉毅 《计算机工程与设计》 北大核心 2024年第9期2779-2784,共6页
为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基... 为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基于嵌入的方法选择关键词时忽略候选词之间的关联,针对该问题,在SDERank的改进版SDERank+中,PageRank算法被用于提取候选词之间的共现权重作为相似度分数的修正。实验结果表明,在4个广泛使用的数据集上SDERank和SDERank+比之前最好的模型MDERank的F1分数平均高出2.2%和3.29%。 展开更多
关键词 自动关键词抽取 文本摘要 长文档建模 文档主题分析 语义处理 权重优化 向量相似性
下载PDF
投标文件相似性检测模型研究
16
作者 唐晓丹 栾茵琪 +3 位作者 赵新益 白治朋 钟洪星 王龙宝 《工程管理学报》 2024年第5期105-110,共6页
近年来,随着工程交易规模扩大,招投标机制得到了广泛的发展和应用。但同时也带来了一系列问题,围标、串标等行为日渐突出,这不仅扰乱了公平竞争的招投标秩序,也损害了社会公众的利益。加强对这些腐败行为的检测和监管,构建公平透明的招... 近年来,随着工程交易规模扩大,招投标机制得到了广泛的发展和应用。但同时也带来了一系列问题,围标、串标等行为日渐突出,这不仅扰乱了公平竞争的招投标秩序,也损害了社会公众的利益。加强对这些腐败行为的检测和监管,构建公平透明的招投标市场环境,是社会发展和行业进步的必然趋势。在已有研究的基础上,通过对投标文件特征的分析,结合定性和定量的方法开展相似性研究,构建了投标文件相似性检测指标和算法模型。该模型能够全面地评估投标文件之间的相似程度,以此识别围标串标行为,同时本文基于该模型对相关投标数据进行分析,并针对投标过程中的围串标等行为提出一些监管和检测建议。 展开更多
关键词 投标文件 相似度检测 文本挖掘 灰色关联分析
下载PDF
基于业务过程模型的刑事案件裁判文书过程信息自动梳理技术
17
作者 张源 邹文涛 +3 位作者 袁豪 李传艺 葛季栋 骆斌 《计算机集成制造系统》 EI CSCD 北大核心 2024年第8期2968-2980,共13页
在信息时代,大量过程信息被隐藏在由自然语言写成的文档中,从中自动抽取过程模型并可视化将有助于对过程信息的查看和管理。在中国刑事案件裁判文书中,存在着以下两个挑战:①事件在文本中的描述未严格按照时间顺序;②存在大量噪声信息... 在信息时代,大量过程信息被隐藏在由自然语言写成的文档中,从中自动抽取过程模型并可视化将有助于对过程信息的查看和管理。在中国刑事案件裁判文书中,存在着以下两个挑战:①事件在文本中的描述未严格按照时间顺序;②存在大量噪声信息。尽管该特征广泛存在于不同领域的文本中,相关的研究却很少。为此,提出一种具有可移植性的文本过程挖掘算法,通过结合领域知识和机器学习建立名为“事件框架”的新型数据结构,从而解决上述难点并最终自动构建业务过程模型。通过人工构建的大量过程模型与自动生成的过程模型在结构、文本相似度上的实验对比,证明该算法能有效地解决上述挑战。 展开更多
关键词 过程挖掘 过程文本 自然语言处理 事件抽取 裁判文书
下载PDF
基于自适应结构学习的深度文本聚类
18
作者 潘伟 黄瑞章 +1 位作者 任丽娜 薛菁菁 《计算机工程》 CAS CSCD 北大核心 2024年第11期89-97,共9页
近年来,将结构信息应用于深度文本聚类中以提升聚类效果取得了较优的成果。然而,结构信息的构造方法大多只进行简单的距离测算且近邻数量固定,导致构建的图难以获得较精确的文本结构信息。另外,众多方法对近邻文本只进行一阶挖掘,使图... 近年来,将结构信息应用于深度文本聚类中以提升聚类效果取得了较优的成果。然而,结构信息的构造方法大多只进行简单的距离测算且近邻数量固定,导致构建的图难以获得较精确的文本结构信息。另外,众多方法对近邻文本只进行一阶挖掘,使图结构信息未得到完全挖掘,限制了结合结构信息的深度文本聚类性能。为此,提出一种基于自适应结构学习的深度文本聚类模型DCMBS。首先,设计一种阈值构图方法,动态调整近邻文本数量,解决因近邻文本固定存在结构信息不精确的问题;其次,引入一种拓扑探索近邻的方法,对近邻文本进行多阶挖掘,解决以往方法只进行一阶挖掘存在结构信息不完整的问题。此外,设计了1个阈值衰减策略,避免拓扑过程中因拓扑阶数增加导致学习泛化。在4个真实数据集的实验结果表明,DCMBS与现有较好的聚类模型相比,准确度、归一化互信息(NMI)和调整兰德指数(ARI)平均提高了6.83、2.93、6.23个百分点。 展开更多
关键词 阈值 深度文本聚类 文本结构信息 图神经网络 自适应结构学习
下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:31
19
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 Fasttext 词频-逆文本频率 词向量 隐含狄利克雷分布
下载PDF
基于图文多模态融合的文档片段语义相似度判定算法
20
作者 潘媛 梁国迪 +1 位作者 邵馨叶 李芹 《电子设计工程》 2024年第3期106-109,114,共5页
为使网络主机的差异性赋值能力得到保障,实现对相似性文档片段语义信息的准确判别,提出基于图文多模态融合的文档片段语义相似度判定算法。在多模态融合条件的基础上,联合图像区域检测结果、文本区域检测结果,建立完整的词袋模型,实现... 为使网络主机的差异性赋值能力得到保障,实现对相似性文档片段语义信息的准确判别,提出基于图文多模态融合的文档片段语义相似度判定算法。在多模态融合条件的基础上,联合图像区域检测结果、文本区域检测结果,建立完整的词袋模型,实现基于图文多模态融合的文档片段标注。根据文本数据预处理条件,确定关键词权值指标,联合已知文档片段语义信息,求取相似性度量值的准确计算结果,完成文档片段语义相似度判定算法的设计。对比实验结果可知,在图文多模态融合技术的支持下,差异性赋值指标的平均值达到了1.0,对于网络主机而言,其在准确判别相似性文档片段语义信息方面的应用能力得到了保障。 展开更多
关键词 图文多模态融合 文档片段 语义相似度 词袋模型 关键词权值 差异性赋值
下载PDF
上一页 1 2 28 下一页 到第
使用帮助 返回顶部