期刊文献+
共找到65篇文章
< 1 2 4 >
每页显示 20 50 100
基于子音节表征的苗语语音合成方法
1
作者 蔡姗 王林 +3 位作者 谭棉 郭胜 吴磊 王飞 《科学技术与工程》 北大核心 2024年第19期8176-8185,共10页
少数民族语言的语音合成有助于民族文化的传承、保护和发展,目前相关研究成果较少。针对不同声调的相同词发音相似时易出现语音合成错误的问题,提出了一种基于子音节表征的苗语语音合成方法,该方法利用子音节作为训练基元来表征苗语发... 少数民族语言的语音合成有助于民族文化的传承、保护和发展,目前相关研究成果较少。针对不同声调的相同词发音相似时易出现语音合成错误的问题,提出了一种基于子音节表征的苗语语音合成方法,该方法利用子音节作为训练基元来表征苗语发音信息,以区分学习不同音节间的相似发音。根据文本序列和梅尔谱图之间对齐的单调性,引入单调对齐损失来指导注意力模块进行更准确的对齐学习,以减少因注意力机制的自回归性带来的跳词、重复等合成现象。为验证所提方法的有效性,以自建苗语语音合成语料库HmongSpeech(下载链接:http://sxjxsf.gzmu.edu.cn/info/1728/1214.htm)作为基准数据集,与典型的语音合成方法进行对比实验。实验结果表明,所提方法能够降低不同声调的相同词发音相似时导致的合成错误率,词错误率仅为0.96%,较基线方法改善了6.25%。 展开更多
关键词 苗语语音合成 子音节 单调对齐 语料库 梅尔谱图
下载PDF
日本长连歌汉译研究
2
作者 徐凤 《北京第二外国语学院学报》 2023年第3期74-90,共17页
始于平安时代末期的长连歌是日本和歌中最独特的类型,但目前在国内仅有的几篇连歌相关先行研究中没有专门研究长连歌及其汉译问题的。本文以地下千韵连歌、地上千韵连歌、武将百韵连歌和独吟千韵俳谐连歌的代表作为主要研究对象,在具体... 始于平安时代末期的长连歌是日本和歌中最独特的类型,但目前在国内仅有的几篇连歌相关先行研究中没有专门研究长连歌及其汉译问题的。本文以地下千韵连歌、地上千韵连歌、武将百韵连歌和独吟千韵俳谐连歌的代表作为主要研究对象,在具体分析每种长连歌的歌风特点、语言修辞特点和潜文本信息特点等主要源语信息之后,以韦努蒂的抵抗式异化翻译思想与归化思想为主要指导,对每种长连歌代表作进行汉译,尝试解决日本各种长连歌汉译的异化与归化问题。 展开更多
关键词 长连歌 联句诗 汉译 异化翻译 归化翻译 潜文本
下载PDF
基于平行文本比较模式的准技术词汇翻译探讨
3
作者 吉晓霞 《金陵科技学院学报(社会科学版)》 2023年第3期48-53,共6页
科技文本的英语词汇分为普通词汇、专业词汇和准技术词汇三类,其中,准技术词汇是各学科通用的基本词汇,也是高频跨学科词汇,在相应语篇中具有特定意义。在科技文献翻译中,准技术词汇常常成为翻译的难点,利用平行文本则可以以新的视角来... 科技文本的英语词汇分为普通词汇、专业词汇和准技术词汇三类,其中,准技术词汇是各学科通用的基本词汇,也是高频跨学科词汇,在相应语篇中具有特定意义。在科技文献翻译中,准技术词汇常常成为翻译的难点,利用平行文本则可以以新的视角来解决准技术词汇翻译的症结。结合具体实例,利用平行文本的翻译原则与方法对准技术词汇进行释义,从而达到既能准确地传递原文信息又能在尽量保持原文风格的同时生动表达的目的,帮助译者更好地完成翻译工作。 展开更多
关键词 平行文本 原始文本 准技术词汇 一词多义
下载PDF
基于ASHE和SWT的低对比度自然场景图像文字定位
4
作者 徐武 杨昊东 +1 位作者 陈盈君 汤弘毅 《计算机应用与软件》 北大核心 2023年第3期229-234,共6页
为解决在自然场景下光照不均匀使得图像对比度低,导致图像文字定位错检的问题,采用自适应子直方图均衡算法(Adaptive Sub-Histogram Equalization,ASHE)对图像进行对比度增强处理;采用最大稳定极值区域算法提取候选区域,结合形态学与启... 为解决在自然场景下光照不均匀使得图像对比度低,导致图像文字定位错检的问题,采用自适应子直方图均衡算法(Adaptive Sub-Histogram Equalization,ASHE)对图像进行对比度增强处理;采用最大稳定极值区域算法提取候选区域,结合形态学与启发式规则进行初步定位;通过改进的笔画宽度变换算法(SWT)与汉字特征进行精确定位;使用字符链融合算法,将文字区域合并,实现最终文本定位。实验结果表明改进算法对自然场景低对比度图像中文字具有较高的定位准确率,并且有效地降低了时间复杂度。 展开更多
关键词 对比度 文字定位 自适应子直方图均衡算法 笔画宽度变换
下载PDF
沈周诗集四库提要考论
5
作者 汤志波 《励耘学刊》 2023年第1期337-350,392,393,共16页
四库提要著录之沈周诗集版本更换了三次:翁方纲先依明万历刻本《石田先生集》作分纂稿,《四库全书初次进呈存目》再据明崇祯刻本《石田先生诗钞》撰写提要,《擒藻堂四库全书荟要》则以明弘治刻本《石田诗选》另起炉灶。三种提要内容迥... 四库提要著录之沈周诗集版本更换了三次:翁方纲先依明万历刻本《石田先生集》作分纂稿,《四库全书初次进呈存目》再据明崇祯刻本《石田先生诗钞》撰写提要,《擒藻堂四库全书荟要》则以明弘治刻本《石田诗选》另起炉灶。三种提要内容迥异。其后阁本卷首提要均以《荟要提要》为基础,但亦有差别:文津阁本未作改动,文渊阁本、文澜阁本增补较多,文溯阁本折中了文渊阁本与文津阁本。《四库全书总目》与文渊阁本一致,因增补而略显烦琐,不如文津阁本之精练、文溯阁本之完善。《列朝诗集小传》、《静志居诗话》与沈周诗集序跋是提要撰写的主要文本来源,四库馆臣或直接征引,或扩充引申,或反驳批判,序跋与四库提要之关系尤为密切。 展开更多
关键词 沈周 四库提要 分纂稿 文本来源
下载PDF
基于双重注意力网络的司法分论点生成
6
作者 邓健 周纤 +1 位作者 罗准辰 巢文涵 《中文信息学报》 CSCD 北大核心 2023年第10期149-157,共9页
证据作为认定案件事实的基础,在司法实践中起着重要的辅助判决作用。正常来说,一篇文书中相关的证据会被分为几个不相交子集,每个子集所证明的内容被视为司法分论点,这些分论点支撑了案件事实的不同方面,从而有利于法官的最终判决。然而... 证据作为认定案件事实的基础,在司法实践中起着重要的辅助判决作用。正常来说,一篇文书中相关的证据会被分为几个不相交子集,每个子集所证明的内容被视为司法分论点,这些分论点支撑了案件事实的不同方面,从而有利于法官的最终判决。然而,以前的工作主要集中在法庭观点生成,或其他法律助理系统(如法律判决预测和司法问答),忽视了法律文书中的证据推理。为了还原法律案件中完整的证据证明、推理过程,该文提出了基于自动证据推理的分论点生成任务,即基于证据子集生成司法分论点。该文为此任务提出了一个双重注意力网络模型,从事实描述中挖掘与证据相关的语义以及法律知识,并结合解码器自动生成分论点。为了进行评估,该文构建了一个司法分论点数据集,并进行了相关实验来证明所提出模型的有效性。 展开更多
关键词 司法分论点 证据推理 文本生成
下载PDF
融合语言模型的化验单文字识别矫正研究
7
作者 张煜楠 吕学强 +4 位作者 黄庆浩 游新冬 何健 董志安 黄跃 《计算机应用与软件》 北大核心 2023年第10期179-184,221,共7页
针对自然场景下化验单文字识别容易出现混淆的问题,提出一种融合语言模型的自然场景下的化验单文字识别后处理矫正方法。该方法通过引入统计语言模型,对识别区域矩阵进行条件概率统计,预测符合医学词库的最佳识别结果,使用基于融合的编... 针对自然场景下化验单文字识别容易出现混淆的问题,提出一种融合语言模型的自然场景下的化验单文字识别后处理矫正方法。该方法通过引入统计语言模型,对识别区域矩阵进行条件概率统计,预测符合医学词库的最佳识别结果,使用基于融合的编辑距离和最长公共子序列方法进行检验项名称矫正,根据检验项对应关系对其他指标进行矫正。引入该方法的后处理结果与不加后处理的识别结果相比,在医疗化验单的识别任务上,获得了准确率、召回率、F1值不同程度的提高。对比实验表明,该方法能够进一步提高文本框文字的识别精度,为后期化验单解读奠定了基础。 展开更多
关键词 化验单 文字识别 语言模型 编辑距离 最长公共子序列
下载PDF
基于端到端的多任务商标分卡模型
8
作者 张贞䶮 苏海 余松森 《计算机系统应用》 2023年第8期105-115,共11页
目前商标分卡处理方法是先进行文本检测再进行区域分类,最后对不同的区域进行拆分组合形成商标分卡.这种分步式的处理耗时长,并且因为误差的叠加会导致最终结果准确率下降.针对这一问题,本文提出了多任务的网络模型TextCls,通过设计多... 目前商标分卡处理方法是先进行文本检测再进行区域分类,最后对不同的区域进行拆分组合形成商标分卡.这种分步式的处理耗时长,并且因为误差的叠加会导致最终结果准确率下降.针对这一问题,本文提出了多任务的网络模型TextCls,通过设计多任务学习模型来提升商标分卡的检测和分类模块的推理速度和精确率.该模型包含一个特征提取网络,以及文本检测和区域分类两个任务分支.其中,文本检测分支采用分割网络学习像素分类图,然后使用像素聚合获得文本框,像素分类图主要是学习文本像素和背景像素的信息;区域分类分支对区域特征细分为中文、英文和图形,着重学习不同类型区域的特征.两个分支通过共享特征提取网络,像素信息和区域特征相互促进学习,最终两个任务的精确率得以提升.为了弥补商标图像的文本检测数据集的缺失以及验证TextCls的有效性,本文还收集并标注了一个由2000张商标图像构成的文本检测数据集trademark_text(https://github.com/kongbailongtian/trademark_text),结果表明:与最佳的文本检测算法相比,本文的文本检测分支将精确率由94.44%提升至95.16%,调和平均值F1 score达92.12%;区域分类分支的F1 score也由97.09%提升至98.18%. 展开更多
关键词 商标分卡 端到端 文本检测 多任务学习 数据集
下载PDF
基于文本融合特征的突发事件子话题聚类研究
9
作者 芦子涵 郑中团 《智能计算机与应用》 2023年第10期45-51,55,共8页
突发事件具有突发性、公共性、传播范围广等特点,研究同一突发事件中更细粒度的子话题聚类,对舆情管控部门实现精准化管控具有重要意义。针对以往话题聚类方法忽略了同一事件下更细粒度的子话题聚类,且为了更有效地表达微博文本的语义信... 突发事件具有突发性、公共性、传播范围广等特点,研究同一突发事件中更细粒度的子话题聚类,对舆情管控部门实现精准化管控具有重要意义。针对以往话题聚类方法忽略了同一事件下更细粒度的子话题聚类,且为了更有效地表达微博文本的语义信息,提出一种基于LDA文档-主题分布与Doc2Vec句向量融合的文本特征表示方法与文本相似度计算方法,应用Single-Pass增量聚类算法实现同一突发事件下子话题聚类,并根据F1值与单一文本特征子话题聚类实验结果进行对比。结果表明,本文方法子话题聚类效果更佳,F1值为72.4%,表明该方法能够有效地表达文本特征,进而提高子话题聚类的准确度。 展开更多
关键词 突发事件 子话题聚类 文本特征 LDA主题模型 Doc2Vec模型
下载PDF
基于迁移学习的化学键能数据自动抽取
10
作者 庞娜 袁钺 薛秋红 《现代情报》 2023年第1期19-28,共10页
[目的/意义]在计算化学中,化学键能是重要的化学领域科学数据,目前化学键能数据抽取工作主要是由领域专家手动抽取,效率低下,大多数化学键能科学数据被湮没于海量文献中,无益于深入的、创新的科学数据分析。[方法/过程]为了解决该问题,... [目的/意义]在计算化学中,化学键能是重要的化学领域科学数据,目前化学键能数据抽取工作主要是由领域专家手动抽取,效率低下,大多数化学键能科学数据被湮没于海量文献中,无益于深入的、创新的科学数据分析。[方法/过程]为了解决该问题,本研究以ChemBE化学键能语料为实验对象,设计在较少专家支持的情况下,使用迁移学习的方法在化学论文中自动抽取与化学键能相关的科学数据。本文提出了一种端到端的BERT-CRF模型,通过构建领域高频子词的方法来解决大量未登录词的问题,并在后续深度学习模型的训练中,将构建好的领域高频子词作为领域特征输入到深度学习模型中,实现了对论文中的化学键能科学数据自动、高效地抽取。[结果/结论]实验表明,端到端的BERT-CRF模型与需要专家构建规则的基线模型相比,取得了理想的实验结果,F1值达到了88.56%。本文通过构建领域高频子词来解决大量未登录词的问题,降低了对领域专家的要求,可以较为容易地、低成本地迁移到其他领域。本文的研究结果是情报分析技术在化学领域的实践,为化学键能的智能知识检索提供了重要支撑。 展开更多
关键词 迁移学习 化学键能 深度学习 自动抽取 智能知识检索 领域高频子词 联合抽取模型 科学数据 文本挖掘
下载PDF
一种快速文本图像倾斜校正方法 被引量:12
11
作者 曾凡锋 吴飞飞 +1 位作者 肖珂 王晓 《计算机应用与软件》 CSCD 2015年第4期181-185,共5页
为解决复杂拍摄背景下采集到的文本图像难以快速、准确地进行倾斜校正的问题,提出一种新的倾斜文本图像校正方法。该方法通过对选定图像的投影窗口的水平投影统计分析计算,自适应地筛选出只含有文字的文本特征子区。在特征子区内部,通... 为解决复杂拍摄背景下采集到的文本图像难以快速、准确地进行倾斜校正的问题,提出一种新的倾斜文本图像校正方法。该方法通过对选定图像的投影窗口的水平投影统计分析计算,自适应地筛选出只含有文字的文本特征子区。在特征子区内部,通过采用连通域横向搜索法定位文字行并拟合直线计算出文本线的倾斜角度,从而得到文本图像的倾斜角度,最后利用改进的快速旋转变换算法进行倾斜校正。实验结果表明,该倾斜校正方法不受成像背景、复杂版面的影响,具有速度快、精度高、适应性强的优点,可广泛应用于对速度和效率有更高要求的移动终端平台上。 展开更多
关键词 文本子区 文字定位 投影算法 连通域搜索 最小二乘法
下载PDF
基于发现特征子空间模型的文本分类算法 被引量:2
12
作者 周法国 王映龙 +1 位作者 杨炳儒 陈卓 《计算机应用研究》 CSCD 北大核心 2009年第10期3712-3715,3734,共5页
在非结构化数据挖掘结构模型,即发现特征子空间模型(DFSSM)的运行机制下,提出了一种新的文本分类算法——基于DFSSM的文本分类(TCDFSSM)算法。该算法在文本训练及分类阶段的基础上增加了自动反馈阶段,使得TCDFSSM具有自学习能力,并给出... 在非结构化数据挖掘结构模型,即发现特征子空间模型(DFSSM)的运行机制下,提出了一种新的文本分类算法——基于DFSSM的文本分类(TCDFSSM)算法。该算法在文本训练及分类阶段的基础上增加了自动反馈阶段,使得TCDFSSM具有自学习能力,并给出了文本分类过程反馈阈值的选取算法。结果表明,该算法分类效果良好,其自学习能力、适应性及鲁棒性更加优越。 展开更多
关键词 发现特征子空间 文本分类 模式
下载PDF
基于多重文本关系图中clique子团聚类的主题识别方法研究 被引量:4
13
作者 郭红梅 孔贝贝 张智雄 《情报学报》 CSSCI CSCD 北大核心 2017年第5期433-442,共10页
在网络成为最主要科学交流和信息传播渠道的今天,越来越多的机构将其研究成果以电子化形式呈现,这些电子化的文本资源中蕴涵着丰富的语义信息。面对这些海量的资源,科研人员很难在短时间内快速捕获文本中的主旨内容。如何高效准确地呈... 在网络成为最主要科学交流和信息传播渠道的今天,越来越多的机构将其研究成果以电子化形式呈现,这些电子化的文本资源中蕴涵着丰富的语义信息。面对这些海量的资源,科研人员很难在短时间内快速捕获文本中的主旨内容。如何高效准确地呈现文本资源中的核心主题,辅助科研人员对文本集中的重要关联信息进行聚焦,提高科研效率,一直是文本挖掘研究中的一个重要问题。在对现有有益研究成果借鉴的基础上,结合文本中术语和术语关系的特点,论文提出将文本中的术语和术语间的共现、句法和语义关系利用图结构进行表示,识别文本关系图中的紧密关联子团,基于所得到的紧密关联子团聚类来揭示文本子主题的整体研究思路。开展了两个方面的研究:①将文本集中的术语和术语间各种关系属性进行叠加归并,构建多重文本关系叠加模型;②基于clique子团间相似性距离和语义标识,进行聚类识别文本集中所包含的重要子主题。论文采用"migraine disorders"主题中近五年的文献构建文本集,对提出的方法开展了2个有效性实验。实验1与文本中领域专家所给出的标引词按语义类型分组结果对比,结果表明论文提出的方法与领域专家给出的标引词语义类型分组结果具有一致性;实验2与目前广泛使用的LDA方法结果进行对比,在准确率和召回率上都较LDA方法有所提高。2个实验均证明了文中方法的有效性。 展开更多
关键词 clique子团 多重文本关系 文本主题识别
下载PDF
基于图文有效信息量的网页正文定位 被引量:2
14
作者 梁正友 欧杰 俞闽敏 《计算机工程》 CAS CSCD 北大核心 2011年第23期276-278,共3页
在现有的网页抽取技术中,正文定位方法仅考虑网页文本信息,当正文图片信息较多、文本信息偏少时,容易出现偏差,且定位准确率较低。针对该问题,从信息论角度出发,结合网页中的文本信息图片信息,设计一种对网页中图片信息量和有效信息量... 在现有的网页抽取技术中,正文定位方法仅考虑网页文本信息,当正文图片信息较多、文本信息偏少时,容易出现偏差,且定位准确率较低。针对该问题,从信息论角度出发,结合网页中的文本信息图片信息,设计一种对网页中图片信息量和有效信息量的估算方法,在此基础上,提出一种基于图文信息量的网页正文定位算法。实验结果表明,该算法在不同正文文本量的情况下,均具有较高的定位准确率。 展开更多
关键词 正文定位 最小正文子树 有效信息率 网页 图文
下载PDF
清代徐燨戏曲版本与副文本的互文性阐释 被引量:2
15
作者 杜桂萍 孙蒙蒙 《陕西师范大学学报(哲学社会科学版)》 CSSCI 北大核心 2022年第2期147-159,共13页
清代戏曲作品副文本繁多,与正文本的关系颇为复杂。随着版本的变迁、副文本数量的增减,彼此之间的指涉关系极为隐秘而多元,需借助各类副文本乃至正文本之互文性关系进行综合解读。徐燨的戏曲作品《镜光缘》和《写心剧》皆版本复杂,仅从... 清代戏曲作品副文本繁多,与正文本的关系颇为复杂。随着版本的变迁、副文本数量的增减,彼此之间的指涉关系极为隐秘而多元,需借助各类副文本乃至正文本之互文性关系进行综合解读。徐燨的戏曲作品《镜光缘》和《写心剧》皆版本复杂,仅从版本变迁的视角即可发现有关作者生平经历、戏曲创作乃至戏曲主题的诸多特殊性,互文性解读为徐燨戏曲创作的阐释提供了多维的、有效的、价值丰沛的言说策略。 展开更多
关键词 清代戏曲 徐燨 副文本 互文性
下载PDF
为了温暖而偷——文本世界理论分析《偷窃物》 被引量:4
16
作者 贾晓庆 张德禄 《山东外语教学》 北大核心 2013年第1期42-46,67,共6页
文本世界理论主要分析读者如何和处于"分裂的语篇世界"的作者进行有效交流。运用该理论分析美国当代著名作家珍妮弗·伊根的小说《暴徒袭过》之第一章《偷窃物》,可以解释读者如何在阅读时建构文本世界和各种亚世界,从而... 文本世界理论主要分析读者如何和处于"分裂的语篇世界"的作者进行有效交流。运用该理论分析美国当代著名作家珍妮弗·伊根的小说《暴徒袭过》之第一章《偷窃物》,可以解释读者如何在阅读时建构文本世界和各种亚世界,从而和空间上、文化上相隔遥远的作者进行交流,感受到她对现代人孤独境遇的同情,以及她对现代人经历痛苦之后必将获得幸福的希望和信心。 展开更多
关键词 《偷窃物》 文本世界 亚世界 语篇世界
下载PDF
基于笔画相关加权的视频图像文字识别 被引量:4
17
作者 苏畅 胡晓冬 +1 位作者 王斌辅 尚凤军 《计算机应用》 CSCD 北大核心 2012年第8期2305-2308,2312,共5页
为了提取影视视频图像中的字幕信息,提出一套鲁棒的方法:首先采用图像的边缘特征对字幕信息进行区域定位,并给出结合边缘信息的方法对图像文字进行二值化;其次,采用投影法和区域生成方法定位单个文字;最后,充分考虑到文字笔画的拓扑结构... 为了提取影视视频图像中的字幕信息,提出一套鲁棒的方法:首先采用图像的边缘特征对字幕信息进行区域定位,并给出结合边缘信息的方法对图像文字进行二值化;其次,采用投影法和区域生成方法定位单个文字;最后,充分考虑到文字笔画的拓扑结构,进行相邻子网格笔画结构相关性的判定,并采用笔画模糊隶属度完成弹性网格特征的提取。该方法在复杂的背景图像中能够有效得到文字的二值图像,并保证了提取特征的稳定性、健壮性,对二值化后的影视字幕的识别率达到92.1%,实验结果表明了方法的有效性。 展开更多
关键词 视频图像 文字识别 文本定位 二值化 子网格特征 笔画相关性
下载PDF
基于子图像VCH的文本检测与定位方法研究 被引量:4
18
作者 张佑生 彭青松 +1 位作者 汪荣贵 偶春生 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2003年第3期354-358,共5页
提出了一种基于子图像的变异灰度直方图 (VCH)的检测与定位文本的方法 ,对子图像VCH的映射特征及其与图像文本的对应关系作了分析 ,并给出文本检测与定位的有效算法。该算法通过对行分割子图像VCH C中的凸台和列分割子图像VCH R中的凹... 提出了一种基于子图像的变异灰度直方图 (VCH)的检测与定位文本的方法 ,对子图像VCH的映射特征及其与图像文本的对应关系作了分析 ,并给出文本检测与定位的有效算法。该算法通过对行分割子图像VCH C中的凸台和列分割子图像VCH R中的凹谷的识别与定位 ,实现在图像中快速检测与定位文本。文章给出了计算试验的结果 。 展开更多
关键词 变异灰度直方图 子图像 基于内容的检索 文本检测与定位
下载PDF
运用文本领域的常识改善基于支撑向量机的文本分类器性能 被引量:16
19
作者 李辉 史忠植 许卓群 《中文信息学报》 CSCD 北大核心 2002年第2期7-13,共7页
本文提出了一种提高中文文本分类器推广性能的方法。一般而言 ,采用机器学习的方法对文本集合进行训练 ,可以获得文本分类器。本文引入了文本语义不变性常识 ,并将其融合到文本分类器中 ,提出了改进文本分类器的方法。与支撑向量机相结... 本文提出了一种提高中文文本分类器推广性能的方法。一般而言 ,采用机器学习的方法对文本集合进行训练 ,可以获得文本分类器。本文引入了文本语义不变性常识 ,并将其融合到文本分类器中 ,提出了改进文本分类器的方法。与支撑向量机相结合 ,设计并实现了改进的文本分类器。对中文文本分类的实验表明 。 展开更多
关键词 文本分类器 同语义文档子段替换 人工文档样本 相容性条件 支撑向量机 文本信息机理
下载PDF
基于多重文本术语关系叠加识别文本核心主题的有效性探索 被引量:7
20
作者 郭红梅 张智雄 《情报学报》 CSSCI CSCD 北大核心 2017年第11期1157-1164,共8页
目前基于图或网络进行文本主题挖掘的研究大多是基于单一文本术语关系,而文本是由一系列具有语义信息的术语,按照一定的逻辑结构构成的,这些术语除了物理位置上共现关系外,还存在句法上的支配从属关系和隐含的语义关联,仅利用单一术语... 目前基于图或网络进行文本主题挖掘的研究大多是基于单一文本术语关系,而文本是由一系列具有语义信息的术语,按照一定的逻辑结构构成的,这些术语除了物理位置上共现关系外,还存在句法上的支配从属关系和隐含的语义关联,仅利用单一术语关系对文本内容进行分析难免会造成信息的丢失,因此本文尝试将术语间的共现、句法和语义三种关系进行叠加,探索基于多重文本术语关系识别核心主题的有效性。文中选取PubMed数据库2012-2014年"migraine disorders"主题相关的249篇论文进行实验,结果表明术语和关系的叠加使文本主题信息更为凸显,同时存在三种关系的术语和边可表征文本的重要内容。对同时存在三种关系的术语和边组成多重文本术语关系图深度分析显示,叠加术语关系图中所包含的clique子团的边数和结点数少于术语共现关系图,但多于术语语义和句法关系图;在凝聚度最大的前20个clique中,叠加术语关系图中所含clique的凝聚度要高于共现、句法和语义三者中的任何一个,且这种差异具有统计学意义。多重术语关系的叠加平衡共现、句法和语义三种关系,在减少术语共现关系影响的同时增加术语语义和句法关系的优势,将三者含有的信息量进行叠加,克服了单独考虑一种术语关系时造成的信息丢失。 展开更多
关键词 文本术语关系叠加 文本主题识别 clique子团
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部