期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于复述模型的词语替代方法
1
作者 强继朋 陈宇 +2 位作者 李杨 李云 吴信东 《中文信息学报》 CSCD 北大核心 2023年第5期22-31,43,共11页
词语替代任务旨在为句子中的目标词寻找合适的替代词。基于预训练语言模型BERT的词语替代方法直接利用目标词的上下文信息生成替代候选词。由于标注数据资源的缺乏使得研究人员通常采用无监督的方法,这也限制了预训练模型在此任务上的... 词语替代任务旨在为句子中的目标词寻找合适的替代词。基于预训练语言模型BERT的词语替代方法直接利用目标词的上下文信息生成替代候选词。由于标注数据资源的缺乏使得研究人员通常采用无监督的方法,这也限制了预训练模型在此任务上的适用性。考虑到现有的大规模复述语料中包含了大量的词语替代规则,该文提出一种通过复述模型生成替代候选词的方法。具体的做法是:利用复述语料训练一个神经复述模型;提出了一种只关注目标词变化的解码策略,用于从复述模型中生成替代词;根据文本生成评估指标计算替代词对原句意思的改变程度,对替代词排序。相对已有的词语替代方法,在两个广泛使用的数据集LS07和CoInCo上进行评估,该文提出的方法取得了显著的提高。 展开更多
关键词 词语替代 复述模型 预训练模型
下载PDF
基于prompt的文本可读性评估
2
作者 冯宇涛 强继朋 +2 位作者 李云 袁运浩 朱毅 《扬州大学学报(自然科学版)》 CAS 北大核心 2023年第3期56-60,共5页
为了提高预训练模型在文本可读性分类中的表现,提出基于预训练模型BERT(bidirectional encoder representations from transformers)和GPT2(generative pre-training 2)的prompt文本可读性分类方法,通过手工模板和映射器将文本可读性分... 为了提高预训练模型在文本可读性分类中的表现,提出基于预训练模型BERT(bidirectional encoder representations from transformers)和GPT2(generative pre-training 2)的prompt文本可读性分类方法,通过手工模板和映射器将文本可读性分类转换为与模型预训练任务一致的文本填空形式,以此提高预训练模型的分类性能.实验表明,prompt方法在实验数据集上与传统机器学习和有监督的神经网络相比具有更好的分类性能. 展开更多
关键词 文本可读性分类 预训练模型 手工模板
下载PDF
基于ChineseBert的中文拼写纠错方法
3
作者 崔凡 强继朋 +1 位作者 朱毅 李云 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第2期302-312,共11页
中文拼写错误主要集中在拼音相似和字形相似两个方面,而通用的预训练语言模型只考虑文本的语义信息,忽略了中文的拼音和字形特征.最新的中文拼写纠错(Chinese Spelling Correction,CSC)方法在预训练模型的基础上利用额外的网络来融入拼... 中文拼写错误主要集中在拼音相似和字形相似两个方面,而通用的预训练语言模型只考虑文本的语义信息,忽略了中文的拼音和字形特征.最新的中文拼写纠错(Chinese Spelling Correction,CSC)方法在预训练模型的基础上利用额外的网络来融入拼音和字形特征,但和直接微调预训练模型相比,改进的模型没有显著提高模型的性能,因为由小规模拼写任务语料训练的拼音和字形特征,和预训练模型获取的丰富语义特征相比,存在严重的信息不对等现象.将多模态预训练语言模型ChineseBert应用到CSC问题上,由于ChineseBert已将拼音和字形信息放到预训练模型构建阶段,基于ChineseBert的CSC方法不仅无须构建额外的网络,还解决了信息不对等的问题.由于基于预训练模型的CSC方法普遍不能很好地处理连续错误的问题,进一步提出SepSpell方法.首先利用探测网络检测可能错误的字符,再对可能错误的字符保留拼音特征和字形特征,掩码对应的语义信息进行预测,这样能降低预测过程中错误字符带来的干扰,更好地处理连续错误问题.在三个官方评测数据集上进行评估,提出的两个方法都取得了非常不错的结果. 展开更多
关键词 中文拼写纠错 Bert ChineseBert 多模态语言模型
下载PDF
基于提示学习的中文短文本分类方法
4
作者 穆建媛 朱毅 +3 位作者 周鑫柯 李云 强继朋 袁运浩 《中文信息学报》 CSCD 北大核心 2023年第7期82-90,共9页
伴随着互联网的飞速发展,产生了海量以微博、推特等为代表的少于100字的短文本数据,这些文本长度极短、特征稀疏、语义不足,因此给短文本分类问题带来了巨大挑战。现有的中文短文本分类方法往往需要大量的有标签或无标签的数据,但在实... 伴随着互联网的飞速发展,产生了海量以微博、推特等为代表的少于100字的短文本数据,这些文本长度极短、特征稀疏、语义不足,因此给短文本分类问题带来了巨大挑战。现有的中文短文本分类方法往往需要大量的有标签或无标签的数据,但在实际应用中,大量的训练数据往往难以获取,且成本很高。为此,该文提出了一种基于提示学习的中文短文本分类方法,适用于少样本状况下的短文本分类。实验结果表明,该方法在仅使用少样本训练数据的情况下比使用大量训练数据的其他模型表现更好。具体来说,该文手工设计了模板,将使用了模板的原始数据替换为含有mask的文本作为新的输入,最终取得了较好的分类效果。通过对4个基准数据集进行验证,基于提示学习的分类方法在仅有40个训练样本的情况下比BERT预训练语言模型使用740个样本的准确率高出近6%。 展开更多
关键词 短文本分类 提示学习 少样本
下载PDF
带任意长度通配符的模式匹配 被引量:5
5
作者 强继朋 谢飞 +2 位作者 高隽 胡学钢 吴信东 《自动化学报》 EI CSCD 北大核心 2014年第11期2499-2511,共13页
基因序列中,许多病毒并不是简单的直接复制自己,而是相邻字符间插入或者删除序列片段,如何从序列数据中检索这些病毒具有重要的研究价值.提出了一个更普遍的问题,带任意长度通配符的模式匹配问题(Pattern matching with arbitrary-lengt... 基因序列中,许多病毒并不是简单的直接复制自己,而是相邻字符间插入或者删除序列片段,如何从序列数据中检索这些病毒具有重要的研究价值.提出了一个更普遍的问题,带任意长度通配符的模式匹配问题(Pattern matching with arbitrary-length wildcards,PMAW),这里模式中不仅可以有多个通配符约束,而且每个通配符的约束可以是两个整数,也可以从整数到无穷大.给定序列S和带通配符的模式P,目标是从S中检索P的所有出现和每一次出现的匹配位置,并且要求任意两次出现不能共享序列中同一位置.为了有效地解决该问题,设计了两个基于位并行的匹配算法MOTW(Method of ocurrence then window)算法和MWTO(Method of window then ocurrence)算法.同时,MWTO算法进行细微改动就可以满足全局长度约束.实验结果既验证了算法求解问题的正确性,又验证了比相关的模式匹配算法具有更好的时间性能. 展开更多
关键词 通配符 模式匹配 位并行 基因序列
下载PDF
基于预训练表示模型的英语词语简化方法 被引量:4
6
作者 强继朋 钱镇宇 +2 位作者 李云 袁运浩 朱毅 《自动化学报》 EI CAS CSCD 北大核心 2022年第8期2075-2087,共13页
词语简化是将给定句子中的复杂词替换成意义相等的简单替代词,从而达到简化句子的目的.已有的词语简化方法只依靠复杂词本身而不考虑其上下文信息来生成候选替换词,这将不可避免地产生大量的虚假候选词.为此,提出了一种基于预语言训练... 词语简化是将给定句子中的复杂词替换成意义相等的简单替代词,从而达到简化句子的目的.已有的词语简化方法只依靠复杂词本身而不考虑其上下文信息来生成候选替换词,这将不可避免地产生大量的虚假候选词.为此,提出了一种基于预语言训练表示模型的词语简化方法,利用预训练语言表示模进行候选替换词的生成和排序.基于预语言训练表示模型的词语简化方法在候选词生成过程中,不仅不需要任何语义词典和平行语料,而且能够充分考虑复杂词本身和上下文信息产生候选替代词.在候选替代词排序过程中,基于预语言训练表示模型的词语简化方法采用了5个高效的特征,除了常用的词频和词语之间相似度特征之外,还利用了预训练语言表示模的预测排名、基于基于预语言训练表示模型的上、下文产生概率和复述数据库PPDB三个新特征.通过3个基准数据集进行验证,基于预语言训练表示模型的词语简化方法取得了明显的进步,整体性能平均比最先进的方法准确率高出29.8%. 展开更多
关键词 词语简化 候选词生成 候选词排序 预训练语言表示模型
下载PDF
满足非重叠条件的带有通配符序列模式挖掘 被引量:5
7
作者 谢飞 强继朋 《小型微型计算机系统》 CSCD 北大核心 2017年第5期956-960,共5页
很多应用领域产生大量的序列数据,例如:基因序列,超市购买记录,股市交易数据,文本序列等.如何从这些序列数据中挖掘具有重要价值的模式已成为序列模式挖掘研究的主要任务.本文研究带有通配符的序列模式挖掘问题,给定支持度阈值和间隔约... 很多应用领域产生大量的序列数据,例如:基因序列,超市购买记录,股市交易数据,文本序列等.如何从这些序列数据中挖掘具有重要价值的模式已成为序列模式挖掘研究的主要任务.本文研究带有通配符的序列模式挖掘问题,给定支持度阈值和间隔约束,从序列数据库中挖掘所有出现次数不小于给定支持度阈值的频繁序列模式,模式中任意两个相邻元素在序列中的出现位置满足用户定义的间隔约束.本文设计一种基于层次图的带有通配符序列模式挖掘算法PMLG,利用层次图结构在多项式时间和空间复杂度内构建和存储模式在序列中满足间隔约束的所有出现位置,采用深度优先搜索策略对图进行遍历,计算模式的支持度,其中模式的任意两次出现的相同位置都不共享序列中同一位置的字符,即满足非重叠出现.在生物DNA序列上的实验表明,PMLG比相关的序列模式挖掘算法具有更好的时间性能和完备性. 展开更多
关键词 序列模式 通配符 层次图 非重叠出现
下载PDF
基于问句类型的问句相似度计算 被引量:3
8
作者 田卫东 强继朋 《计算机应用研究》 CSCD 北大核心 2014年第4期1090-1093,共4页
目前,问句相似度的计算主要借鉴普通陈述句的相似度计算方法。由于普通陈述句的相似性更多反映的是语句间语义上的匹配符合程度,而衡量问句间的相似性则须同时考虑问句及其答案句之间的相似程度,为此,设计了一种新的问句相似度计算方法... 目前,问句相似度的计算主要借鉴普通陈述句的相似度计算方法。由于普通陈述句的相似性更多反映的是语句间语义上的匹配符合程度,而衡量问句间的相似性则须同时考虑问句及其答案句之间的相似程度,为此,设计了一种新的问句相似度计算方法。该方法不仅利用问句之间的语义和语法特征考察问句之间的匹配程度,还利用问句的问题类型等信息来间接刻画答案句之间的特征形象,从而以获取问句的深层语义信息,以提高问句相似度计算的准确性。实验验证了该方法的有效性。 展开更多
关键词 问句相似度 FAQ问答系统 问句类型 问题分类
下载PDF
以学生为主体的“微机原理及应用”教学模式的改革与探索 被引量:2
9
作者 强继朋 李云 袁运浩 《教育教学论坛》 2019年第2期124-125,共2页
"微机原理及应用"课程内容多且抽象,课堂教学内容与新技术发展存在一定差距且实验环节只是一些简单的验证性实验。因此,采用传统的以老师为中心的传授知识的方法,学生在学习"微机原理及应用"课程时,普遍对内容的理... "微机原理及应用"课程内容多且抽象,课堂教学内容与新技术发展存在一定差距且实验环节只是一些简单的验证性实验。因此,采用传统的以老师为中心的传授知识的方法,学生在学习"微机原理及应用"课程时,普遍对内容的理解不够透彻,缺乏自主创新意识和创新能力。为了培养学生的自学能力和创新能力,课堂教学以教师重点讲授和引导自学相结合,引入了小组合作教学和研究性学习的改革与探索,改进了实践教学方法。 展开更多
关键词 “微机原理及应用” 学生为主体 创新能力
下载PDF
自动词语简化方法综述 被引量:1
10
作者 强继朋 李云 吴信东 《中文信息学报》 CSCD 北大核心 2021年第12期1-16,共16页
自动词语简化是用简单、同等意义的词语替代句子中复杂词的过程,是文本简化中的一个重要研究方向。随着自然语言处理技术的快速发展,词语简化方法也在不断更新与变化。该文对词语简化方法的相关研究进行了梳理,先对词语简化的整体框架... 自动词语简化是用简单、同等意义的词语替代句子中复杂词的过程,是文本简化中的一个重要研究方向。随着自然语言处理技术的快速发展,词语简化方法也在不断更新与变化。该文对词语简化方法的相关研究进行了梳理,先对词语简化的整体框架进行解释,然后将词语简化方法总结为语言数据库、自动规则、词嵌入模型、混合模型和预处理语言模型。接着对汉语词语简化研究所面临的难点进行论述。最后,对词语简化方法的发展方向进行了展望和总结。 展开更多
关键词 词语简化 复杂词识别 文本简化 预处理语言模型(BERT)
下载PDF
数据挖掘课程教学模式改革与探索 被引量:4
11
作者 朱毅 李云 +1 位作者 强继朋 袁运浩 《科教文汇》 2021年第18期108-109,共2页
数据挖掘课程内容复杂抽象,各个章节之间独立性较强,传统的课堂教学方法无法指导实际问题的解决,且验证性实验较难开展。针对这些问题,该文提出以实际案例为导向,通过案例讲解辅助教学,从课堂讲授和实际数据集实验两个方向开展教学活动... 数据挖掘课程内容复杂抽象,各个章节之间独立性较强,传统的课堂教学方法无法指导实际问题的解决,且验证性实验较难开展。针对这些问题,该文提出以实际案例为导向,通过案例讲解辅助教学,从课堂讲授和实际数据集实验两个方向开展教学活动,并结合具体的项目实践,介绍数据挖掘方法的应用局限性,旨在培养学生独立思考和解决问题的能力,以此改进数据挖掘课程的教学模式。 展开更多
关键词 数据挖掘 实际案例 教学改革
下载PDF
Pattern Matching with Flexible Wildcards 被引量:1
12
作者 吴信东 强继朋 谢飞 《Journal of Computer Science & Technology》 SCIE EI CSCD 2014年第5期740-750,共11页
Pattern matching with wildcards(PMW)has great theoretical and practical significance in bioinformatics,information retrieval,and pattern mining.Due to the uncertainty of wildcards,not only is the number of all matches... Pattern matching with wildcards(PMW)has great theoretical and practical significance in bioinformatics,information retrieval,and pattern mining.Due to the uncertainty of wildcards,not only is the number of all matches exponential with respect to the maximal gap flexibility and the pattern length,but the matching positions in PMW are also hard to choose.The objective to count the maximal number of matches one by one is computationally infeasible.Therefore,rather than solving the generic PMW problem,many research efforts have further defined new problems within PMW according to different application backgrounds.To break through the limitations of either fixing the number or allowing an unbounded number of wildcards,pattern matching with flexible wildcards(PMFW)allows the users to control the ranges of wildcards.In this paper,we provide a survey on the state-of-the-art algorithms for PMFW,with detailed analyses and comparisons,and discuss challenges and opportunities in PMFW research and applications. 展开更多
关键词 模式匹配 通配符 生物信息学 PMW 匹配使用 模式挖掘 信息检索 不确定性
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部