期刊文献+
共找到54篇文章
< 1 2 3 >
每页显示 20 50 100
基于Transformer的英文粘连词还原方法 被引量:1
1
作者 朱鑫洋 迟呈英 战学刚 《计算机应用与软件》 北大核心 2023年第8期45-49,97,共6页
神经机器翻译(Neural Machine Translation,NMT)性能依赖于语料库的数据量和数据质量,经研究分析发现英文数据中存在多词粘连的现象,以下统称为粘连词,出现粘连词影响数据质量。为了进一步提高数据质量,需将粘连词还原成独立词,即词与... 神经机器翻译(Neural Machine Translation,NMT)性能依赖于语料库的数据量和数据质量,经研究分析发现英文数据中存在多词粘连的现象,以下统称为粘连词,出现粘连词影响数据质量。为了进一步提高数据质量,需将粘连词还原成独立词,即词与词之间由空格作为分隔符的形式。针对该问题提出使用Transformer模型对粘连词进行还原。在数据预处理阶段,对数据采取三种不同的策略。实验证明,对数据进行分词、BPE切分的策略最佳,在真实数据集上准确率达到95.5%,在Transformer模型的基础上添加后处理操作后的正确率达到98.5%。该文方法具备可迁移性,对于任一种单词间用空格分割的语言都是可用的。 展开更多
关键词 数据质量 粘连词 贝叶斯 Transformer模型
下载PDF
融合知识图谱与Bert+CNN的图书文本分类研究 被引量:1
2
作者 孔令蓉 迟呈英 战学刚 《电脑编程技巧与维护》 2023年第1期140-142,158,共4页
基于海量图书的分类需求,提出了一种融合知识图谱(Knowledge Graph, KG)与转换器双向编码器(Bidirectional Encoder Representation from Transformers, Bert)的图书文本分类模型。通过构建面向图书领域知识图谱扩展图书文本的语义信息... 基于海量图书的分类需求,提出了一种融合知识图谱(Knowledge Graph, KG)与转换器双向编码器(Bidirectional Encoder Representation from Transformers, Bert)的图书文本分类模型。通过构建面向图书领域知识图谱扩展图书文本的语义信息,并且使用深度学习的方法获取文本深层语义信息,将扩展语义信息与深层语义信息相结合后,通过TextCNN进行图书分类。经研究试验表明,融合知识图谱与深度学习的图书文本分类算法相对于只使用深度学习进行图书分类算法,前者的分类效果更佳。 展开更多
关键词 知识图谱 深度学习 Bert编码器 CNN技术 图书分类
下载PDF
基于BM25-RoBERTa的法律案例检索研究 被引量:1
3
作者 王贺 迟呈英 战学刚 《电脑编程技巧与维护》 2023年第3期74-75,130,共3页
法律案例检索是根据用户给定的查询范围在相应的候选案例中进行检索与查询出具有相似描述的法律案例。由于法律文本区别于普通短文本,采用传统的检索模型无法检索到更精准的法律案例。针对上述问题,提出了基于BM25和RoBERTa的法律案例... 法律案例检索是根据用户给定的查询范围在相应的候选案例中进行检索与查询出具有相似描述的法律案例。由于法律文本区别于普通短文本,采用传统的检索模型无法检索到更精准的法律案例。针对上述问题,提出了基于BM25和RoBERTa的法律案例检索模型BM25-RoBERTa,该模型将传统的检索模型与神经检索相结合以获得更好的排序结果。实验结果表明,文中提出的模型在处理法律案例检索任务时表现良好。 展开更多
关键词 法律案例检索 BM25算法 RoBERTa模型 文本相似性
下载PDF
中文文献的层次分类方法 被引量:22
4
作者 战学刚 林鸿飞 姚天顺 《中文信息学报》 CSCD 北大核心 1999年第6期20-25,共6页
现有的分类系统通常忽略类别体系的层次结构,在对文献进行分类时,往往很难区分类别相近的文献属于哪一类。本文基于向量空间模型,提出根据类别体系的层次结构,自顶向下,逐层分类的方法。其目的是提高分类精度;并根据概念词典,将... 现有的分类系统通常忽略类别体系的层次结构,在对文献进行分类时,往往很难区分类别相近的文献属于哪一类。本文基于向量空间模型,提出根据类别体系的层次结构,自顶向下,逐层分类的方法。其目的是提高分类精度;并根据概念词典,将同义词或下位概念映射到单一的概念词上,由这些概念词构成一个规模很小的特征集,以缩小特征向量空间的维数,从而减少分类系统的计算量。此外,通过对类别层次体系的分析,压缩特征向量。 展开更多
关键词 文献分类 向量空间模型 层次分类 中文文献
下载PDF
Infolite中文检索系统 被引量:9
5
作者 战学刚 林鸿飞 姚天顺 《小型微型计算机系统》 EI CSCD 北大核心 2000年第9期989-992,共4页
随着电子文本的大量涌现 ,人们对信息检索工具也提出了更高的要求 .本文介绍一个基于向量空间模型的中文信息检索系统的设计与实现 .该系统既是我们用于中文信息检索研究的基础平台 。
关键词 信息检索 中文检索系统 Infolite INTERNET网
下载PDF
中文信息检索中的相关反馈 被引量:12
6
作者 战学刚 林鸿飞 姚天顺 《计算机科学》 CSCD 北大核心 2000年第7期39-42,共4页
一、引言对于基于统计的信息检索系统,影响其性能的主要环节有:1.特征项的选择、2.权重的计算方法、3.查询的表示形式、4.查询的调整(修改)、5.相似度的计算方法。当系统确定了其索引形式和相似度的计算方法后,系统性能的提高。
关键词 中文信息检索 查准率 查全率
下载PDF
基于TF统计和语法分析的关键词提取算法 被引量:12
7
作者 战学刚 吴强 《计算机应用与软件》 CSCD 北大核心 2014年第1期47-49,92,共4页
为了提高中文关键词提取的准确率和实用性,提出一种基于TF统计和语法分析相结合的中文关键词提取算法。该算法在对文本进行自动分词后,用TF统计和语法分析对每个词进行权重计算,然后根据计算结果提取文献的关键词。实验结果表明,该方法... 为了提高中文关键词提取的准确率和实用性,提出一种基于TF统计和语法分析相结合的中文关键词提取算法。该算法在对文本进行自动分词后,用TF统计和语法分析对每个词进行权重计算,然后根据计算结果提取文献的关键词。实验结果表明,该方法提高了关键词提取的精度。 展开更多
关键词 关键词提取 权重计算 语法分析 中文分词
下载PDF
一种基于深度挖掘用户和内容特征的CTR预估方法
8
作者 李陈 迟呈英 战学刚 《电脑编程技巧与维护》 2023年第4期135-137,共3页
预估点击率(CTR)是推荐系统的核心任务之一,基于此提出一种深度挖掘用户和内容特征的CTR预估模型——DFAR模型。在用户特征提取部分,通过长短期记忆网络(LSTM)对用户时序特征进行提取,通过残差模块与注意力机制实现对用户特征的深度提... 预估点击率(CTR)是推荐系统的核心任务之一,基于此提出一种深度挖掘用户和内容特征的CTR预估模型——DFAR模型。在用户特征提取部分,通过长短期记忆网络(LSTM)对用户时序特征进行提取,通过残差模块与注意力机制实现对用户特征的深度提取。首先,在待推荐内容部分利用因子分解机(FM)来提取浅层特征。然后,使用多头注意力机制和残差网络从待推荐内容中提取深度特征。最后,将用户特征与待推荐内容特征做内积结合并做出最终预测。最终在Movielens-100K数据集上利用该模型进行实验,实验结果表明,提出的模型在AUC值上相比于深度因子分解机(DeepFM)模型提升了1.45%。验证了DFAR模型对CTR预测的有效性。 展开更多
关键词 点击率 多头注意力机制 残差网络 DFAR模型
下载PDF
一种基于BERT的句子完整性判断方法
9
作者 李陈 迟呈英 战学刚 《电脑编程技巧与维护》 2023年第2期37-39,共3页
提出了一种用于判断输入句子完整性的深度学习模型BCLN,并由此来完成后续的数据清洗工作。通过利用BCLN模型,可以将单语数据集中的非完整句子进行辨别并处理。所提出的BCLN模型是基于BERT加入了卷积神经网络,通过此模型来进行特征提取,... 提出了一种用于判断输入句子完整性的深度学习模型BCLN,并由此来完成后续的数据清洗工作。通过利用BCLN模型,可以将单语数据集中的非完整句子进行辨别并处理。所提出的BCLN模型是基于BERT加入了卷积神经网络,通过此模型来进行特征提取,加入判断模块最终判断句子的完整程度。BCLN模型在专用数据集上进行测试,实验结果显示,提出的模型对判断句子完整性有明显效果。 展开更多
关键词 数据清洗 句子完整性 BERT模型 卷积神经网络
下载PDF
应用移动Agent加强JXTA网络的搜索功能 被引量:1
10
作者 战学刚 郭建 +1 位作者 迟呈英 周游 《计算机工程与设计》 CSCD 北大核心 2009年第24期5622-5625,5629,共5页
为了加强基于JXTA的对等网络的搜索性能,研究分析了JXTA网络中集合点的管理策略及查询机制。针对现有网络集合点管理措施的缺陷以及由此可能导致网络查询效率低下的问题,提出了应用移动Agent来协助JXTA进行集合点选择的方案,以达到选择... 为了加强基于JXTA的对等网络的搜索性能,研究分析了JXTA网络中集合点的管理策略及查询机制。针对现有网络集合点管理措施的缺陷以及由此可能导致网络查询效率低下的问题,提出了应用移动Agent来协助JXTA进行集合点选择的方案,以达到选择综合性能优秀的节点来充当集合点的目的,并在此基础上给出了改进后的查询机制。最后,在局域网内进行了模拟实验,通过实验结果的对比分析表明,改进后的机制能够极大地优化JXTA网络的整体查询性能。 展开更多
关键词 JXTA 移动代理 集合点管理 对等网络 资源搜索
下载PDF
基于LDA的问答网站话题抽取算法 被引量:2
11
作者 战学刚 王晓 《计算机应用与软件》 CSCD 2016年第4期95-98,共4页
为了帮助用户在使用问答网站时准确地描述所提问题的话题,对社会化问答网站问题及话题进行了建模,发现问题的潜在语义关系,提出一种基于潜在狄利克雷分布LDA(Latent Dirichlet Allocation)的话题抽取算法。该算法通过挖掘问题与问题之... 为了帮助用户在使用问答网站时准确地描述所提问题的话题,对社会化问答网站问题及话题进行了建模,发现问题的潜在语义关系,提出一种基于潜在狄利克雷分布LDA(Latent Dirichlet Allocation)的话题抽取算法。该算法通过挖掘问题与问题之间的潜在语义信息,找到潜在语义相类似的问题,在语义层面上抽取出话题集合,找到最符合的话题列表。在真实网站中的数据进行试验证实,应用该算法可以有效扩大话题抽取的准确率和召回率。 展开更多
关键词 LDA 问答网站 协同过滤 话题模型
下载PDF
改进的基于模式匹配的答案抽取方法 被引量:1
12
作者 战学刚 伏圣国 迟呈英 《情报理论与实践》 CSSCI 北大核心 2009年第9期105-108,共4页
开放领域的问答系统是自然语言处理领域中具有挑战性的研究方向。答案抽取是问答系统的关键,在基于模式匹配的答案抽取方法中,答案是借助于问题的答案模式抽取得到,因此,答案模式的评价对候选答案排序及答案的最终选择起着决定性的作用... 开放领域的问答系统是自然语言处理领域中具有挑战性的研究方向。答案抽取是问答系统的关键,在基于模式匹配的答案抽取方法中,答案是借助于问题的答案模式抽取得到,因此,答案模式的评价对候选答案排序及答案的最终选择起着决定性的作用。参照传统的答案模式评价方法,提出一种改进的模式评价方法,分别在传统和改进两种答案模式评价方法下进行了答案抽取实验。实验结果表明应用改进的答案模式评价方法,答案抽取性能明显提高。 展开更多
关键词 问答系统 模式匹配 答案抽取
下载PDF
回溯法的教学研究
13
作者 战学刚 迟呈英 《信息技术与信息化》 2019年第12期169-170,共2页
本文提出在算法教学中,应揭示枚举法(穷举法)和回溯法之间的联系,以加深学生对搜索技术的理解,并将面向对象技术与之结合。作者的教学实践验证了教学效果的改善。
关键词 面向对象 枚举 回溯 继承 多态
下载PDF
基于概念的文本结构分析方法 被引量:35
14
作者 林鸿飞 战学刚 姚天顺 《计算机研究与发展》 EI CSCD 北大核心 2000年第3期324-328,共5页
文本结构分析是文本处理领域中的重要内容,它可以有效地改进文本摘要、文本检索以及文本过滤的精度.文中简要描述了文本的物理结构和逻辑结构以及文本分析的背景,提出了文本结构分析中的层次分析方法.该方法保证了层次划分的有序性... 文本结构分析是文本处理领域中的重要内容,它可以有效地改进文本摘要、文本检索以及文本过滤的精度.文中简要描述了文本的物理结构和逻辑结构以及文本分析的背景,提出了文本结构分析中的层次分析方法.该方法保证了层次划分的有序性,可操作性强,便于解释,不依赖于具体领域.其基本思想是对于输入文本,首先识别出文本的物理结构;然后在概念映射、概念密度和概念消歧的基础上,将文本依据主题划分为若干层次;最终获得文本的逻辑结构. 展开更多
关键词 文本结构分析 概念 信息处理 文本处理 计算机
下载PDF
文本结构分析与基于示例的文本过滤 被引量:23
15
作者 林鸿飞 战学刚 姚天顺 《小型微型计算机系统》 EI CSCD 北大核心 2000年第4期422-425,共4页
本文简要介绍了文本过滤的背景和发展 ,提出了基于示例的中文文本过滤模型 .其基本思想是首先对于用户提出的示例文本进行文本结构分析 ,采用本文提出的文本层次分析方法 ,提取文本特征 ,形成主题词表示的用户模版 (user profile) ,然... 本文简要介绍了文本过滤的背景和发展 ,提出了基于示例的中文文本过滤模型 .其基本思想是首先对于用户提出的示例文本进行文本结构分析 ,采用本文提出的文本层次分析方法 ,提取文本特征 ,形成主题词表示的用户模版 (user profile) ,然后进行文本过滤 ,同时引进段落匹配机制 ,提高过滤效率 .通过用户反馈 。 展开更多
关键词 文本过滤 文本结构分析 文本层次分析 信息过滤
下载PDF
中文文本挖掘的特征导航机制 被引量:12
16
作者 林鸿飞 战学刚 姚天顺 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2000年第3期240-243,共4页
文本挖掘是从非结构化的文本中发现潜在的概念以及概念间的相互关系·鉴于中文文本的特点 ,提出了基于因子分析的文本特征抽取机制·通过识别文本中潜在的概念结构来抽取特征项 ,而且有助于改善向量空间模型中各个分量间的斜交... 文本挖掘是从非结构化的文本中发现潜在的概念以及概念间的相互关系·鉴于中文文本的特点 ,提出了基于因子分析的文本特征抽取机制·通过识别文本中潜在的概念结构来抽取特征项 ,而且有助于改善向量空间模型中各个分量间的斜交现象·同时给出了基于概念的信息导航机制 。 展开更多
关键词 文本挖掘 文本特征抽取 概念导航 信息处理
下载PDF
基于条件随机场的中文分词方法 被引量:11
17
作者 迟呈英 于长远 战学刚 《情报杂志》 CSSCI 北大核心 2008年第5期79-81,共3页
提出了一种基于条件随机场(Conditional Random Fields,简称CRF)的中文分词方法。CRF模型利用词的上下文信息,对歧义词和未登陆词进行分词统计处理取得了理想的效果。以SIGHAN2006 Chinese Language ProcessingBakeoff提供的数据作为实... 提出了一种基于条件随机场(Conditional Random Fields,简称CRF)的中文分词方法。CRF模型利用词的上下文信息,对歧义词和未登陆词进行分词统计处理取得了理想的效果。以SIGHAN2006 Chinese Language ProcessingBakeoff提供的数据作为实验数据。实验数据表明,基于CRF的中文分词方法取得了很好的效果,在Uppen,Msra两种语料的封闭测试中准确率分别达到了95.8%和95.9%。 展开更多
关键词 条件随机场 中文分词 歧义词 未登陆词
下载PDF
一种基于自动机的分词方法 被引量:8
18
作者 吴建胜 战学刚 迟呈英 《计算机工程与应用》 CSCD 北大核心 2005年第8期81-82,85,共3页
该文介绍一种简洁有效的快速分词方法,并通过理论分析和实验对比说明几种分词方法的效率差异,以说明文章所提出方法的有效性。
关键词 中文信息处理 分词 顺序查找 二分查找 自动机 二叉树
下载PDF
基于篇章结构的文本自动标引算法 被引量:9
19
作者 张美娜 迟呈英 +1 位作者 战学刚 亓超 《计算机应用与软件》 CSCD 北大核心 2008年第9期122-124,共3页
通过对输入文本分析,划分文本的篇章结构,分为依次存在包含关系的全文章节、段落、复句、分句五个层次,用文本结构树来表示。给出了标记方法,并在此基础上讨论并实现了文本篇章结构的自动标引,提出了两个标引算法并给出了比较结果,为自... 通过对输入文本分析,划分文本的篇章结构,分为依次存在包含关系的全文章节、段落、复句、分句五个层次,用文本结构树来表示。给出了标记方法,并在此基础上讨论并实现了文本篇章结构的自动标引,提出了两个标引算法并给出了比较结果,为自动文摘后续工作给予了很大帮助。 展开更多
关键词 篇章结构 文本结构树 标引算法
下载PDF
文本层次分析与文本浏览 被引量:12
20
作者 林鸿飞 战学刚 姚天顺 《中文信息学报》 CSCD 北大核心 1999年第4期7-15,共9页
本文简要描述了文本的物理结构和逻辑结构以及相应的向量空间模型。研制了具有导航机制的文本浏览系统。提出了文本结构分析中的层次分析方法,它采用有序划分层次的方法。并在此基础上,给出了文本结构中各单元的标记信息,由此形成了... 本文简要描述了文本的物理结构和逻辑结构以及相应的向量空间模型。研制了具有导航机制的文本浏览系统。提出了文本结构分析中的层次分析方法,它采用有序划分层次的方法。并在此基础上,给出了文本结构中各单元的标记信息,由此形成了文本的可视化表示。利用文本、层次、段落的超文本连接,根据浏览的需要,逐级展现文本细节,帮助用户有目的、有选择地浏览文本。最后给出评价的结果。 展开更多
关键词 向量空间 文本结构分析 文本浏览 文本层次分析
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部