期刊文献+
共找到40篇文章
< 1 2 >
每页显示 20 50 100
文本图表示模型及其在文本挖掘中的应用 被引量:12
1
作者 李纲 毛进 《情报学报》 CSSCI 北大核心 2013年第12期1257-1264,共8页
近年来在文本挖掘领域,学者们尝试从底层改造文本挖掘算法,提出文本图表示模型,更加丰富地表征文本内容和结构,从而改进现有文本挖掘算法。相关的研究主要涉及文本图表示模型的定义、节点和边的构建、文本相似度计算方法,以及文本... 近年来在文本挖掘领域,学者们尝试从底层改造文本挖掘算法,提出文本图表示模型,更加丰富地表征文本内容和结构,从而改进现有文本挖掘算法。相关的研究主要涉及文本图表示模型的定义、节点和边的构建、文本相似度计算方法,以及文本图表示模型在特征内容提取、文本分类和文本聚类、信息检索以及其他文本挖掘任务中的应用。本文主要从以上几方面对文本图表示模型研究进行综述。 展开更多
关键词 文本表示 文本图表示模型 结构 文本挖掘
下载PDF
基于笔画识别的文本图象压缩 被引量:3
2
作者 李晓昆 《计算机应用研究》 CSCD 1998年第6期55-57,共3页
本文提出了一种有效的文本图象压缩方法,可以大幅度地提高文本图象的压缩率。算法分为以下四个部分:1.预处理2.规一化处理3.笔画识别4.编码存储。此方法切实可行并且高效,灵活。
关键词 象压缩 预处理 笔画识别 文本图象压缩
下载PDF
基于边界码的非Manhatan格式下的文本图象的自动区域分割方法
3
作者 高翔 张利 吴国威 《中国图象图形学报(A辑)》 CSCD 1997年第12期895-900,共6页
随着网络和通信技术的发展,电子图书馆逐渐发展为信息检索和资料提供的重要途径。非Manhatan格式的排版方式因具有形式自由、富于变化的特点而得到越来越广的应用,但是对于非Manhatan格式的文本图象的自动区域分割的... 随着网络和通信技术的发展,电子图书馆逐渐发展为信息检索和资料提供的重要途径。非Manhatan格式的排版方式因具有形式自由、富于变化的特点而得到越来越广的应用,但是对于非Manhatan格式的文本图象的自动区域分割的研究还只是停留在实验的水平,迫切需求一种快速实用的自动区域分割方法提高电子图书馆的文献录入速度。此文提出的基于边界码的文本图象的区域分割方法在实际的应用中达到了令人满意的效果。 展开更多
关键词 文本图 自动区域分割 Manhattan格式
下载PDF
基于轮廓投影方法的文本图象偏斜纠正
4
作者 李存华 《中国图象图形学报(A辑)》 CSCD 北大核心 2001年第10期984-987,共4页
印刷文献信息采集处理是文本信息处理应用 ,特别是数字化图书馆建设中十分繁重而又必须从事的工作 .由于目前广泛使用的字符光学识别系统 (OCR)无法对具有偏斜角度的扫描文本图象进行自动加工处理 ,所以需要大量的人工介入 ,即以手工方... 印刷文献信息采集处理是文本信息处理应用 ,特别是数字化图书馆建设中十分繁重而又必须从事的工作 .由于目前广泛使用的字符光学识别系统 (OCR)无法对具有偏斜角度的扫描文本图象进行自动加工处理 ,所以需要大量的人工介入 ,即以手工方法纠正图象偏斜 .因为无法有效地进行扫描文本集的批量处理 ,所以难以提高处理效率 .针对这一问题 ,在讨论文本图象轮廓投影性质的基础上 ,利用其相关系数与文本偏斜角的统计依赖关系 ,构造了一种用于文本图象的自动偏斜纠正方法 . 展开更多
关键词 文本图 轮廓投影 行相关系数 偏斜纠正 印刷文献 文本信息处理 数字化书馆
下载PDF
基于语义文本图的论文摘要关键词抽取算法 被引量:5
5
作者 王晓宇 王芳 《情报学报》 CSSCI CSCD 北大核心 2021年第8期854-868,共15页
鉴于关键词对大规模文献检索和文本内容分析的基础作用,本文提出了一种基于语义文本图的无监督关键词抽取算法,重点对传统基于图(graph-based)方法中的文本图构建和词加权方式进行改进。为了使文本图保留更多的语义和结构信息,算法根据... 鉴于关键词对大规模文献检索和文本内容分析的基础作用,本文提出了一种基于语义文本图的无监督关键词抽取算法,重点对传统基于图(graph-based)方法中的文本图构建和词加权方式进行改进。为了使文本图保留更多的语义和结构信息,算法根据单词在句子中的语义依存关系,生成由概念连接、等价隶属、功能属性和修饰限定四种属性边构成的语义文本图,省去传统图生成方法中所需要的窗口长度参数设定。在此基础上,本文提出融合关键词位置信息、概念层级和连接强度的词权重计算方法,并对词语的重要性排序,最终选择高得分节点构成摘要文本的关键词集合。在四个开放语料上的实验结果显示,本文提出的方法抽词效果优于其他三个同类baseline算法,F1值最高为0.570。 展开更多
关键词 文本图 关键词抽取 词加权 句法解析
下载PDF
文本图象识别及二值化的研究——基于模板的分离算法
6
作者 聂焱 卢凌 刘少雄 《交通与计算机》 1996年第5期1-5,共5页
文章研究了黑斑、阴影、污迹等污染的多灰度文本图象,对其进行识别提取,得到清晰的二值文本图象,图象的二值化实现有利于图象的分析、OCR的处理、支票图象处理和图象传输和理解。本文研究了文本图象识别及二值化基于模板的分离算... 文章研究了黑斑、阴影、污迹等污染的多灰度文本图象,对其进行识别提取,得到清晰的二值文本图象,图象的二值化实现有利于图象的分析、OCR的处理、支票图象处理和图象传输和理解。本文研究了文本图象识别及二值化基于模板的分离算法,考虑了笔划宽度和汉字结构,在PC-486上实现。 展开更多
关键词 二值化 模板 分离算法 象识别 文本图
下载PDF
基于结构和模式匹配的文本图象信息无损耗压缩方法
7
作者 YibingYang 李立章 《图象识别与自动化》 2001年第1期23-28,共6页
本文提出了一种高效的文本图象无损耗压缩方法,该方法有三个步骤组成。首先,在符号位置的参数中分析背景的突出部分及连续性,对图象进行分割。其次,在内部典型的符号标识中抽取图象,采用基于二进制图象的分析和匹配方法,形成具有... 本文提出了一种高效的文本图象无损耗压缩方法,该方法有三个步骤组成。首先,在符号位置的参数中分析背景的突出部分及连续性,对图象进行分割。其次,在内部典型的符号标识中抽取图象,采用基于二进制图象的分析和匹配方法,形成具有极少重复符号的典型的合成模型,并从以前的符号标识中获取多级结构簇和典型的模式合成法。后面部分的图象经重新标识,成为简单的库图象。最后,采用具有不同序列、合适的数字编码器和相应的Q编码器,由标识的相关符号位置、典型模式以及库图象实现高缩率。我们的方法在实现压缩和产生极少的错误图象方面优于大多数选择的系统。模式结构族与合成法的折衷压缩率有明显的界限,损耗将会减少至相当小的程度。在等级内容无损耗规则中,我们的方法能确保内容无损耗地重建,可容易地与软模式匹配组合,扩展无损耗模型。另外,组合方式具有JBIG1改进模式和极少的冗余部件库,可实现内容无损耗地递增传输。该方法也可采用相关的各种符号图象,包括叠加的符号如汉字字符图象,即采用只有线段连接和基于二进制图象位置重建的符号分割。 展开更多
关键词 文本图象分析 模式匹配 象压缩 结构分析 无损耗压缩
下载PDF
基于不变图卷积神经网络的文本分类
8
作者 黄瑞 徐计 《计算机科学》 CSCD 北大核心 2024年第S01期108-112,共5页
文本分类是自然语言处理中一个基本而又重要的任务,近年来,图神经网络被越来越多地应用于文本分类中。然而,使用图神经网络的图表示学习在涉及文本分类的任务中不能很好地满足新词的归纳学习,其一般假设训练和测试数据来自相同的分布,... 文本分类是自然语言处理中一个基本而又重要的任务,近年来,图神经网络被越来越多地应用于文本分类中。然而,使用图神经网络的图表示学习在涉及文本分类的任务中不能很好地满足新词的归纳学习,其一般假设训练和测试数据来自相同的分布,但现实中这个假设经常不成立。为了克服这些问题,文中提出了Invariant-GCN,用于通过GCN进行归纳文本分类。首先为每个文档构建单个图,使用GCN根据其局部结构学习细粒度的单词表示,这可以有效地为新文档中没见过的单词生成嵌入进而将单词节点作为文档嵌入合并;然后提取最大限度地保留不变类内信息的期望子图,使用这些子图进行学习不受分布变化的影响;最后通过图分类方法完成文本分类。在4个基准数据集上与5种分类方法进行了比较,实验结果表明Invariant-GCN具有良好的文本分类效果。 展开更多
关键词 文本分类 卷积神经网络 因果学习 文本图构建
下载PDF
融合语义和句法依存分析的图卷积新闻文本分类 被引量:2
9
作者 孙红 陆欣荣 +2 位作者 徐广辉 黄雪阳 任丽博 《中文信息学报》 CSCD 北大核心 2023年第7期91-101,共11页
图卷积神经网络GCN已经广泛应用于文本分类任务中,但GCN在文本分类时仅仅根据词语的共现关系来构建文本图,忽略了文本语言本身的规律关系,如语义关系与句法关系,并且GCN不善于提取文本上下文特征和序列特征。针对上述问题,该文提出了一... 图卷积神经网络GCN已经广泛应用于文本分类任务中,但GCN在文本分类时仅仅根据词语的共现关系来构建文本图,忽略了文本语言本身的规律关系,如语义关系与句法关系,并且GCN不善于提取文本上下文特征和序列特征。针对上述问题,该文提出了一种文本分类模型SEB-GCN,其在文本词共现图的基础上加入了句法文本图与语义文本图,再引入ERNIE和残差双层BiGRU网络来对文本特征进行更深入的学习,从而提高模型的分类效果。实验结果表明,该文提出的SEB-GCN模型在四个新闻数据集上,分类精确度对比其他模型分别提高4.77%、4.4%、4.8%、3.4%、3%,且分类收敛速度也明显快于其他模型。 展开更多
关键词 文本分类 卷积神经网络 语义文本图 句法文本图 残差
下载PDF
基于弱化图卷积网络的文本分类 被引量:1
10
作者 黄玉娇 陈铭凯 +3 位作者 郑媛 范兴刚 肖杰 龙海霞 《计算机科学》 CSCD 北大核心 2023年第S01期83-87,共5页
文本分类是自然语言处理领域中的经典问题。传统的文本分类模型存在需要人工提取特征,分类准确率不高,难以处理非欧氏空间数据等问题。为了解决上述问题,进一步提高文本分类的准确率,提出了W-GCN模型。该模型在Text-GCN模型的基础上加... 文本分类是自然语言处理领域中的经典问题。传统的文本分类模型存在需要人工提取特征,分类准确率不高,难以处理非欧氏空间数据等问题。为了解决上述问题,进一步提高文本分类的准确率,提出了W-GCN模型。该模型在Text-GCN模型的基础上加以改进,建立了全新的弱化结构模型,用以替换Text-GCN模型中对神经元的Dropout操作,并通过弱化权重,精确控制弱化力度大小,在一定程度保留Dropout防止过拟合功能的基础上,避免了由直接丢弃神经元造成的特征丢失问题,因此提高了模型分类的准确率。与Text-GCN模型相比,基于弱化图卷积网络建立的W-GCN模型,在R8数据集上准确率提高了0.38%,在R52数据集上准确率提高了0.62%。实验结果证明了模型改进和弱化结构的有效性。 展开更多
关键词 卷积网络 文本分类 文本图构建方法 弱化结构 DROPOUT
下载PDF
一种基于文本关系图的多文档自动摘要技术 被引量:7
11
作者 马慧芳 祁云平 杨小东 《情报杂志》 CSSCI 北大核心 2007年第3期67-69,共3页
讨论了一种运用于搜索引擎中的多文档自动摘要技术。传统搜索引擎返回结果繁杂,常用的解决方案是使用聚类技术将内容相似的网页集合归类,然而聚类后的结果数目庞大,依然无法体现该类的主题。提出一种新的基于文本关系图的多文档自动摘... 讨论了一种运用于搜索引擎中的多文档自动摘要技术。传统搜索引擎返回结果繁杂,常用的解决方案是使用聚类技术将内容相似的网页集合归类,然而聚类后的结果数目庞大,依然无法体现该类的主题。提出一种新的基于文本关系图的多文档自动摘要技术,对每类返回结果依主题思想自动提取多文档摘要,提高搜索引擎使用效率。分析了该系统的结构和算法,评价了实验结果,指出了未来的研究方向。 展开更多
关键词 多文档自动摘要 聚类 信息检索 TextTiling算法 文本关系
下载PDF
基于语法依存图的中文微博细粒度情感分类 被引量:3
12
作者 方澄 李贝 +1 位作者 韩萍 吴琼 《计算机应用》 CSCD 北大核心 2023年第4期1056-1061,共6页
情感分析能从用户言论中快速准确地挖掘用户的情感倾向,有着极大的应用市场。针对微博语言语法结构复杂多样的特性,提出了一种基于语法依存结构的图卷积神经网络(SGCN)模型对中文微博进行细粒度的情感分类。所提模型兼具结构表达和语义... 情感分析能从用户言论中快速准确地挖掘用户的情感倾向,有着极大的应用市场。针对微博语言语法结构复杂多样的特性,提出了一种基于语法依存结构的图卷积神经网络(SGCN)模型对中文微博进行细粒度的情感分类。所提模型兼具结构表达和语义表达丰富的特点:基于词语间的依赖关系构建文本图,并通过点互信息(PMI)量化词语间的相关程度,作为相应边的权重以充分表现句子的结构信息;将融合位置信息的语义特征作为节点的初始特征,增加文本图中点的语义特征。为了验证所提模型的性能,在SMP2020(Social Media Processing 2020)微博情感分类数据集上,对两组包含开心、悲伤、愤怒、恐惧、惊讶和无情绪的6类微博情感数据进行了分析。实验结果表明,所提模型的平均F1分数可达到72.64%,相较于BERT(Bidirectional Encoder Representations from Transformers)词向量特征图卷积网络(BGCN)模型和文本级图神经网络(Text-Level-GNN)模型分别提高了2.75和3.87个百分点,验证了所提模型能更有效地利用句子的结构信息,提升模型的分类性能。 展开更多
关键词 微博 情感分析 卷积网络 文本图 深度学习
下载PDF
融合LDA的门控图卷积网络文本分类研究
13
作者 高维奇 黄浩 +1 位作者 胡英 吾守尔·斯拉木 《东北师大学报(自然科学版)》 CAS 北大核心 2021年第4期68-76,共9页
在现有文本图基础上引入隐狄利克雷分布,将文档-主题和主题-词信息融入文本图以丰富文本图中节点间关系,之后将该文本图送入一个基于图卷积网络门控机制模型.在多个数据集上进行验证.结果表明,所提出的模型优于现有图卷积网络文本分类模型.
关键词 文本分类 卷积网络 隐狄利克雷分布 门控机制 文本图
下载PDF
结合文本语义图和词频统计的网页分类算法研究 被引量:2
14
作者 周文文 韩斌 黄树成 《计算机与数字工程》 2020年第6期1265-1268,1313,共5页
为解决网页分类算法中仅考虑文本内容或仅考虑词义本身而引起的角度过于单一的问题,提出一种在文本语义图的基础上加入对文本词语频次考察的网页分类算法。首先通过词林相似度和相关性挖掘两种方式构建文本语义图,满足算法对文本词义相... 为解决网页分类算法中仅考虑文本内容或仅考虑词义本身而引起的角度过于单一的问题,提出一种在文本语义图的基础上加入对文本词语频次考察的网页分类算法。首先通过词林相似度和相关性挖掘两种方式构建文本语义图,满足算法对文本词义相似性和相关性两方面的考察要求,引入PageRank算法计算词语词义权重值。然后对词频做统计,充分考虑词语在类内文本空间和整个文本空间的分布,对IDF算法进行改进,得到词频权重值。结合两种方式得到最终特征向量,进行网页分类。 展开更多
关键词 网页分类 文本语义 PAGERANK IDF
下载PDF
改进传统文本结构关系图的文本结构分析 被引量:5
15
作者 梁文婷 何中市 +1 位作者 龙华 田春娥 《微计算机信息》 2009年第3期213-215,共3页
文本结构分析是文本处理领域中的重要内容,它可以有效地改进文本摘要、文本检索以及文本过滤的精度。文中简要描述了传统上使用文本结构关系图分析文本结构的方法并指出其缺点,然后提出改进方法,使经过文本结构分析后的文本更具有有序... 文本结构分析是文本处理领域中的重要内容,它可以有效地改进文本摘要、文本检索以及文本过滤的精度。文中简要描述了传统上使用文本结构关系图分析文本结构的方法并指出其缺点,然后提出改进方法,使经过文本结构分析后的文本更具有有序性和可操作性强,便于解释,不依赖于具体领域。最后通过实验证明,该改进方法是可行的。 展开更多
关键词 文本结构分析 向量空间模型 文本结构关系
下载PDF
基于文本行匹配的跨图文本阅读方法
16
作者 戴禹 许林峰 《计算机科学》 CSCD 北大核心 2022年第9期139-145,共7页
通过摄像头阅读文本可帮助计算机理解文本内容。然而,由于摄像头视野的局限性和中文文本识别的复杂性,计算机有时很难通过摄像头从单张文本图像获取完整的文本内容,因此定义了跨图文本阅读任务,旨在从一对具有重叠区域的文本图像中获取... 通过摄像头阅读文本可帮助计算机理解文本内容。然而,由于摄像头视野的局限性和中文文本识别的复杂性,计算机有时很难通过摄像头从单张文本图像获取完整的文本内容,因此定义了跨图文本阅读任务,旨在从一对具有重叠区域的文本图像中获取完整的文本内容。针对跨图文本阅读任务,提出了基于文本行匹配的跨图文本阅读方法。首先采用文本检测网络来裁剪文本行,然后设计了基于多头自注意力机制的文本行匹配网络来预测文本行的匹配关系,最后提出了基于编辑的文本阅读网络,以去除重叠文本并读取文本内容。为了训练和评估跨图文本阅读方法,构造了跨图中文文本阅读数据集(Cross-image Chinese Text Reading Dataset, CCTR)。在CCTR数据集上进行实验,结果表明,相比像素级拼接和识别方法,所提方法能够得到更高的阅读性能,验证了其优越性。 展开更多
关键词 文本阅读 中文文本阅读数据集 文本行匹配 基于编辑的文本阅读 注意力机制
下载PDF
介绍一个用游戏杆绘图的图象文本混合系统
17
作者 陈建强 《苹果园》 1989年第2期16-18,共3页
关键词 游戏杆 文本 BASIC语言
下载PDF
基于图的特征词权重算法及其在文档排序中的应用 被引量:1
18
作者 黄云 洪佳明 颜一鸣 《计算机系统应用》 2012年第6期216-218,194,共4页
信息检索的核心工作包括文档的分类和排序等操作,如何对文档中的特征词权重进行有效度量是其中的一项关键技术。利用词的共现等关系为每个文档建立文本图,基于邻接词间重要性相互影响的思路,结合文档中特征词的词频特性,迭代计算每个词... 信息检索的核心工作包括文档的分类和排序等操作,如何对文档中的特征词权重进行有效度量是其中的一项关键技术。利用词的共现等关系为每个文档建立文本图,基于邻接词间重要性相互影响的思路,结合文档中特征词的词频特性,迭代计算每个词的权重,进一步结合文本图的密度等全局特性,对信息检索的结果进行排序。实验证实,算法在标准数据集上具有良好的效果。 展开更多
关键词 文本图 共现关系 文档排序 特征词权重
下载PDF
面向文本分类的中文文本语义表示方法 被引量:13
19
作者 宋胜利 王少龙 陈平 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2013年第2期89-97,129,共10页
为了解决词频统计文本表示方法中词语间语义信息缺失的问题,在考虑文本中词语上下文语境和语义背景信息的基础上,提出了一种新的中文文本表示模型——文本语义图.该方法利用维基百科作为知识背景计算文本中实意特征词语的语义关联,将具... 为了解决词频统计文本表示方法中词语间语义信息缺失的问题,在考虑文本中词语上下文语境和语义背景信息的基础上,提出了一种新的中文文本表示模型——文本语义图.该方法利用维基百科作为知识背景计算文本中实意特征词语的语义关联,将具有较强语义关系的词语合并成词包作为图的节点,节点权值用词包所包含词语的数目及词频计算;不同词包中词语间的上下文关系作为图的有向边,有向边权值用其邻接节点的最大权值表示.该模型在较大程度地保留文本中词语上下文信息的同时强化了词语间语义内涵.通过中文文本分类实验,文本语义图分类方法相对于支持向量机分类效率提升了7.8%,同时错误率减少了1/3,且表现出更好的稳定性.实验结果表明在文本分类应用中,文本语义图模型能够有效地表示文本内容. 展开更多
关键词 分类 知识表示 相似度 文本语义
下载PDF
多主题文本摘要抽取的研究与实现 被引量:5
20
作者 廖涛 刘宗田 王利 《计算机工程》 CAS CSCD 北大核心 2011年第6期21-23,共3页
研究自动摘要技术,结合统计与文本关系图并基于复杂网络中的社区划分算法,提出一种多主题文本摘要抽取方法。抽取文本中权重较高的句子,通过句子的相似度计算建立文本关系图,利用社区划分算法解决子主题划分的问题。实验结果表明,该方... 研究自动摘要技术,结合统计与文本关系图并基于复杂网络中的社区划分算法,提出一种多主题文本摘要抽取方法。抽取文本中权重较高的句子,通过句子的相似度计算建立文本关系图,利用社区划分算法解决子主题划分的问题。实验结果表明,该方法对多主题文本摘要的抽取质量较好,能抽取出较多的子主题。 展开更多
关键词 多主题文本 自动摘要 统计模型 文本关系 子主题社区划分
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部