期刊文献+
共找到62篇文章
< 1 2 4 >
每页显示 20 50 100
Bi⁃LSTM和CRF结合的藏文分词方法研究
1
作者 格桑加措 阿卜杜热西提·热合曼 +3 位作者 尼玛扎西 面加 肖桐 朱靖波 《中央民族大学学报(自然科学版)》 2024年第3期40-46,共7页
本研究旨在探索基于双向长短时记忆网络(Bi⁃LSTM)和条件随机场(CRF)的藏语分词方法。研究评估了Bi⁃LSTM和Bi⁃LSTM结合CRF模型在藏文分词任务中的性能,针对未登录音节词进行了模型优化。研究还将分词系统应用到CCMT2023藏汉机器翻译任务... 本研究旨在探索基于双向长短时记忆网络(Bi⁃LSTM)和条件随机场(CRF)的藏语分词方法。研究评估了Bi⁃LSTM和Bi⁃LSTM结合CRF模型在藏文分词任务中的性能,针对未登录音节词进行了模型优化。研究还将分词系统应用到CCMT2023藏汉机器翻译任务中,并进行了评估。实验结果表明,本文提出的分词系统在藏语分词任务中具有良好的性能,并且在藏汉机器翻译任务上有效提升了性能。 展开更多
关键词 藏语分词 LSTM CRF 未登录音节字
下载PDF
预训练神经机器翻译研究进展分析
2
作者 曹智泉 穆永誉 +3 位作者 肖桐 李北 张春良 朱靖波 《中文信息学报》 CSCD 北大核心 2024年第6期1-23,共23页
神经机器翻译(NMT)模型通常使用双语数据进行监督训练,而构建大规模双语数据集是一个巨大挑战。相比之下,大部分语言的单语数据集较为容易获取。近年来,预训练模型(PTM)能够在海量的单语数据上进行训练,从而得到通用表示知识,来帮助下... 神经机器翻译(NMT)模型通常使用双语数据进行监督训练,而构建大规模双语数据集是一个巨大挑战。相比之下,大部分语言的单语数据集较为容易获取。近年来,预训练模型(PTM)能够在海量的单语数据上进行训练,从而得到通用表示知识,来帮助下游任务取得显著的性能提升。目前基于预训练的神经机器翻译(PTNMT)在受限资源数据集上已被广泛验证,但如何高效地在高资源NMT模型中利用PTM仍亟待研究。该文致力于对PTNMT的现状和相关问题进行系统性的整理和分析,从引入PTM的预训练方法、使用策略以及特定任务等角度对PTNMT方法进行详细的分类,并对PTNMT方法解决的问题进行总结,最后对PTNMT的研究进行展望。 展开更多
关键词 自然语言处理 预训练模型 神经机器翻译
下载PDF
面向标记语言的机器翻译方法研究
3
作者 杜权 曾信 +4 位作者 李北 刘辉 李垠桥 肖桐 朱靖波 《中文信息学报》 CSCD 北大核心 2024年第8期68-75,共8页
标记语言翻译相比于纯文本类型翻译任务来说,存在标记格式复杂多样造成的译文质量低和译文端格式难以保持等技术难题。针对这些难题,该文提出基于组合泛化的标记语言建模方法。同时,针对标记语言的格式还原问题,该文提出使用标签位置准... 标记语言翻译相比于纯文本类型翻译任务来说,存在标记格式复杂多样造成的译文质量低和译文端格式难以保持等技术难题。针对这些难题,该文提出基于组合泛化的标记语言建模方法。同时,针对标记语言的格式还原问题,该文提出使用标签位置准确率、正确率、召回率和F_(1)值等指标来衡量标记语言格式还原效果。实验发现,该文所提出的泛化方法相较于基于截断、基于词对齐和已有的泛化方法,BLEU均有较大提升,格式还原率接近100%。 展开更多
关键词 标记语言 机器翻译 基于泛化的建模方法
下载PDF
基于对数模型的词义自动消歧 被引量:13
4
作者 朱靖波 李珩 +1 位作者 张跃 姚天顺 《软件学报》 EI CSCD 北大核心 2001年第9期1405-1412,共8页
提出了一种对数模型 (logarithm model,简称 L M) ,构造了一个词义自动消歧系统 LM-WSD(word sensedisambiguation based on logarithm model) .在词义自动消歧实验中 ,构造了 4种计算模型进行词义消歧 ,根据 4个计算模型的消歧结果 ,... 提出了一种对数模型 (logarithm model,简称 L M) ,构造了一个词义自动消歧系统 LM-WSD(word sensedisambiguation based on logarithm model) .在词义自动消歧实验中 ,构造了 4种计算模型进行词义消歧 ,根据 4个计算模型的消歧结果 ,分析了高频率词义、指示词、特定领域、固定搭配和固定用法信息对名词和动词词义消歧的影响 .目前 ,该词义自动消歧系统 L M-WSD已经应用于基于词层的英汉机器翻译系统 (汽车配件专业领域 )中 ,有效地提高了翻译性能 . 展开更多
关键词 词义自动消歧 机器翻译 对数模型 自然语言处理 计算机
下载PDF
基于多元判别分析的文本分割模型 被引量:15
5
作者 朱靖波 叶娜 罗海涛 《软件学报》 EI CSCD 北大核心 2007年第3期555-564,共10页
提出了一种独立于具体领域的文本线性分割统计模型,其中采用多元判别分析方法定义了4种全局评价函数,实现对文本分割模式的全局评价,寻找满足分割单元内距离最小化和分割单元间距离最大化条件的最好分割方式.该模型采用遗传算法来解决... 提出了一种独立于具体领域的文本线性分割统计模型,其中采用多元判别分析方法定义了4种全局评价函数,实现对文本分割模式的全局评价,寻找满足分割单元内距离最小化和分割单元间距离最大化条件的最好分割方式.该模型采用遗传算法来解决新模型的高计算复杂度问题.比较性实验结果显示,新模型比TextTiling和Dotplotting算法取得了更高的Pμ评价性能. 展开更多
关键词 文本分割 多元判别分析 分割单元内距离 分割单元间距离 分割单元长度 遗传算法
下载PDF
面向文本分类的混淆类判别技术 被引量:9
6
作者 朱靖波 王会珍 张希娟 《软件学报》 EI CSCD 北大核心 2008年第3期630-639,共10页
分析了文本分类过程中存在的混淆类现象,主要研究混淆类的判别技术,进而改善文本分类的性能.首先,提出了一种基于分类错误分布的混淆类识别技术,识别预定义类别中的混淆类集合.为了有效判别混淆类,提出了一种基于判别能力的特征选取技术... 分析了文本分类过程中存在的混淆类现象,主要研究混淆类的判别技术,进而改善文本分类的性能.首先,提出了一种基于分类错误分布的混淆类识别技术,识别预定义类别中的混淆类集合.为了有效判别混淆类,提出了一种基于判别能力的特征选取技术,通过评价某一特征对类别之间的判别能力实现特征选取.最后,通过基于两阶段的分类器设计框架,将初始分类器和混淆类分类器进行集成,组合了两个阶段的分类结果作为最后输出.混淆类分类器的激活条件是:当测试文本被初始分类器标注为混淆类类别时,即采用混淆类分类器进行重新判别.在比较实验中采用了Newsgroup和863中文评测语料,针对单标签、多类分类器.实验结果显示,该技术有效地改善了分类性能. 展开更多
关键词 文本分类 混淆类判别 特征选取 分类错误分布 机器学习 自然语言处理
下载PDF
中文信息自动抽取 被引量:24
7
作者 朱靖波 姚天顺 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 1998年第1期52-54,共3页
论述了信息抽取与信息检索的区别,信息抽取与深入的自然语言处理的区别,中文信息自动抽取的目的、任务和基本模型;然后介绍了一些国外的IE系统;讨论了关于中文信息自动抽取的一些问题和正在开展的中文信息抽取研究工作.
关键词 中文信息 信息检索 信息处理 信息抽取
下载PDF
基于领域知识的文本分类 被引量:12
8
作者 朱靖波 陈文亮 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第8期733-735,共3页
提出了一种基于知识的文本分类方法,其中引入领域知识,利用领域特征作为文本特征,增强文本表示能力,将文本分类过程看作集聚计算过程.文本索引过程采用了改进型特征选取和权重计算方法.提出了一种基于互信息的学习算法,从训练语料中自... 提出了一种基于知识的文本分类方法,其中引入领域知识,利用领域特征作为文本特征,增强文本表示能力,将文本分类过程看作集聚计算过程.文本索引过程采用了改进型特征选取和权重计算方法.提出了一种基于互信息的学习算法,从训练语料中自动学习领域特征集聚计算公式.实验结果显示基于领域知识的文本分类技术总体性能优于传统的贝叶斯分类模型,领域知识的应用能够有效改善对相似主题和相反主题的分类性能. 展开更多
关键词 领域知识 文本分类 集聚计算 机器学习 朴素贝叶斯模型
下载PDF
文本内容主题的识别方法 被引量:8
9
作者 朱靖波 姚天顺 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2002年第5期425-427,共3页
提出了一种基于知识的内容主题识别方法 ,其中采用基于统计和规则的技术进行主题特征识别 ,利用集聚公式进行主题特征集聚分析·通过引入领域知识库 ,将基于词汇的分析技术提升到领域知识计算层面·实验结果显示主题识别平均正... 提出了一种基于知识的内容主题识别方法 ,其中采用基于统计和规则的技术进行主题特征识别 ,利用集聚公式进行主题特征集聚分析·通过引入领域知识库 ,将基于词汇的分析技术提升到领域知识计算层面·实验结果显示主题识别平均正确率为 70 % · 展开更多
关键词 主题分析 特征识别 特征集聚 领域知识 文本自动处理 自动语言处理 知识 内容识别
下载PDF
面向数据的句法分析技术 被引量:9
10
作者 朱靖波 姚天顺 《中文信息学报》 CSCD 北大核心 1998年第1期1-8,共8页
面向数据的分析技术(Data-OrientedParsing,DOP)首先由Scha(1990)年提出。该处理技术具体表达了这样的假设:人类对语言的领悟和创造依赖于以往具体的语言经验,而不是依赖于抽象的语法规则。DO... 面向数据的分析技术(Data-OrientedParsing,DOP)首先由Scha(1990)年提出。该处理技术具体表达了这样的假设:人类对语言的领悟和创造依赖于以往具体的语言经验,而不是依赖于抽象的语法规则。DOP技术框架可以分为:(1)建立包括以往成功分析的语言经验的标注语料库;(2)从语料库中抽取片段单元来构造新语言的分析过程;(3)计算分析过程的概率。DOP模型建立在包含大量语言现象的语料库基础上,把经过标注的语料库看作一个语法(Grammar)。当输入一个新的语言现象时,系统通过对语料库中片段单元的组合运算来组合分析过程。根据所有片段单元的共现频率来评估最有可能性的分析结果。本文详细论述了语料库的标注,片段单元的定义。 展开更多
关键词 面向数据 计算机处理 句法分析 自然语言
下载PDF
一种短语结构规则的自动获取方法 被引量:3
11
作者 朱靖波 张玥杰 姚天顺 《计算机研究与发展》 EI CSCD 北大核心 1999年第5期601-607,共7页
文中提出一种新的知识获取方法,即从完全没有任何标注的生语料库中,采用NA假设自动构造带标训练数据,利用基于多特征的相似评估技术自动获取名词短语结构规则.该方法具有两个特点:①由于从没有任何标注的生语料库中自动获取带标... 文中提出一种新的知识获取方法,即从完全没有任何标注的生语料库中,采用NA假设自动构造带标训练数据,利用基于多特征的相似评估技术自动获取名词短语结构规则.该方法具有两个特点:①由于从没有任何标注的生语料库中自动获取带标训练数据,促使带标数据规模可以很大,且容易构造不同领域的带标语料库;②所获取的短语结构规则具有概率属性,可用于分类检索等应用中的名词短语抽取.为论证方法有效性,采用美国Berlitz公司的汽车配件真实语料进行测试,前50个名词短语结构规则的准确率高达80%. 展开更多
关键词 短语结构规则 自然语言处理 自动获取
下载PDF
词义自动消歧概率模型 被引量:5
12
作者 朱靖波 姚天顺 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2000年第5期484-486,共3页
提出了一种词义自动消歧概率模型·在词义自动消歧实验中 ,分析了高频率词义、指示词、特定领域、固定搭配和固定用法信息对名词和动词词义消歧的影响·目前该词义自动消歧系统已经应用于基于词层的英汉机器翻译系统 (汽车配件... 提出了一种词义自动消歧概率模型·在词义自动消歧实验中 ,分析了高频率词义、指示词、特定领域、固定搭配和固定用法信息对名词和动词词义消歧的影响·目前该词义自动消歧系统已经应用于基于词层的英汉机器翻译系统 (汽车配件专业领域 )中 。 展开更多
关键词 词义自动消歧概率模型 机器翻译 自然语言处理
下载PDF
基于FIFA的主题相似性计算模型 被引量:3
13
作者 朱靖波 陈文亮 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2003年第11期1041-1044,共4页
针对主题检测和追踪的第五个技术任务连接分析,提出了一种事件主题相似性分析技术·通过引入领域知识库,将基于词汇的分析技术提升到领域知识计算层面·当输入不同两个文档时,采用该分析技术进行识别文档内容所涉及到的事件主... 针对主题检测和追踪的第五个技术任务连接分析,提出了一种事件主题相似性分析技术·通过引入领域知识库,将基于词汇的分析技术提升到领域知识计算层面·当输入不同两个文档时,采用该分析技术进行识别文档内容所涉及到的事件主题是否一致·首先采用FIFA模型进行内容主题识别,然后采用LDM模型进行事件主题相似性计算分析·实验结果显示主题相似性计算正确率为64%,召回率为69%· 展开更多
关键词 内容主题识别 事件主题分析 主题检测和追踪 领域知识 连接分析
下载PDF
一种规则描述语言NPRDL语言 被引量:1
14
作者 朱靖波 王宝库 姚天顺 《东北大学学报(自然科学版)》 EI CAS CSCD 1996年第6期651-655,共5页
提出了一种适用于汉语分析的规则描述语言.主要介绍了NPRDL语言对象描述、书写规范、实现技术及其如何被应用于汉语分析.NPRDL语言具有描述能力强,便于计算机处理和便于书写规则三大特点.它不仅可以描述汉语,还可以描述... 提出了一种适用于汉语分析的规则描述语言.主要介绍了NPRDL语言对象描述、书写规范、实现技术及其如何被应用于汉语分析.NPRDL语言具有描述能力强,便于计算机处理和便于书写规则三大特点.它不仅可以描述汉语,还可以描述其他语言. 展开更多
关键词 NPRDL语言 规则描述语言 中文信息处理 汉语分析
下载PDF
一种基于NA假设的训练数据自动构造方法 被引量:1
15
作者 朱靖波 张玫杰 姚天顺 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 1999年第4期366-368,共3页
为减轻人工标注训练语料库面临的瓶颈问题,提出了一种基于 N A 假设带标训练语料库的自动构造方法·为了检验该方法的有效性,将自动获取的带标训练语料库用于词性标注应用中,2 万词次的开放性测试结果的准确率为93 .1 %... 为减轻人工标注训练语料库面临的瓶颈问题,提出了一种基于 N A 假设带标训练语料库的自动构造方法·为了检验该方法的有效性,将自动获取的带标训练语料库用于词性标注应用中,2 万词次的开放性测试结果的准确率为93 .1 % ,其中词性兼类消歧准确率为79 .3 % ,未登录词词性确定准确率为88 % · 展开更多
关键词 N元语法 语料库 自然语言理解 NA假设 训练数据
下载PDF
基于SVM的中文组块分析 被引量:50
16
作者 李珩 朱靖波 姚天顺 《中文信息学报》 CSCD 北大核心 2004年第2期1-7,共7页
基于SVM(supportvectormachine)理论的分类算法 ,由于其完善的理论基础和良好的实验结果 ,目前已逐渐引起国内外研究者的关注。和其他分类算法相比 ,基于结构风险最小化原则的SVM在小样本模式识别中表现较好的泛化能力。文本组块分析作... 基于SVM(supportvectormachine)理论的分类算法 ,由于其完善的理论基础和良好的实验结果 ,目前已逐渐引起国内外研究者的关注。和其他分类算法相比 ,基于结构风险最小化原则的SVM在小样本模式识别中表现较好的泛化能力。文本组块分析作为句法分析的预处理阶段 ,通过将文本划分成一组互不重叠的片断 ,来达到降低句法分析的难度。本文将中文组块识别问题看成分类问题 ,并利用SVM加以解决。实验结果证明 ,SVM算法在汉语组块识别方面是有效的 ,在哈尔滨工业大学树库语料测试的结果是F =88 6 7%,并且特别适用于有限的汉语带标信息的情况。 展开更多
关键词 计算机应用 中文信息处理 支持向量机 结构风险最小化 文本组块 SVM 分类算法
下载PDF
基于反馈学习自适应的中文话题追踪 被引量:17
17
作者 王会珍 朱靖波 +2 位作者 季铎 叶娜 张斌 《中文信息学报》 CSCD 北大核心 2006年第3期92-98,共7页
在话题追踪研究领域,由于话题是动态发展的,在追踪过程中会产生话题漂移的问题。针对该问题以及现有自适应方法的不足,本文提出基于反馈学习的自适应方法。该方法采用增量学习的思想,对话题追踪任务中的自适应学习机制提出了新的算法。... 在话题追踪研究领域,由于话题是动态发展的,在追踪过程中会产生话题漂移的问题。针对该问题以及现有自适应方法的不足,本文提出基于反馈学习的自适应方法。该方法采用增量学习的思想,对话题追踪任务中的自适应学习机制提出了新的算法。该算法能够解决话题漂移现象,并能够弥补现有自适应方法的不足。该算法中还考虑了话题追踪任务的时序性,将时间信息引入到了算法中。本文实验采用TDT4语料中的中文部分作为测试语料,使用TDT2004的评测方法对基于反馈学习的自适应的中文话题追踪系统进行评价,实验数据表明基于反馈学习的自适应方法能够提高话题追踪的性能。 展开更多
关键词 计算机应用 中文信息处理 话题追踪 基于反馈学习的自适应方法 增量学习
下载PDF
基于领域词典的文本特征表示 被引量:22
18
作者 陈文亮 朱靖波 +1 位作者 朱慕华 姚天顺 《计算机研究与发展》 EI CSCD 北大核心 2005年第12期2155-2160,共6页
为提高文本分类性能,提出一种结合机器学习和领域词典的文本特征表示方法·基于领域词典的文本特征表示方法可以增强文本特征表示能力,并降低文本特征空间维数,但是领域词典存在覆盖度不足的问题·为此,提出一种学习模型———... 为提高文本分类性能,提出一种结合机器学习和领域词典的文本特征表示方法·基于领域词典的文本特征表示方法可以增强文本特征表示能力,并降低文本特征空间维数,但是领域词典存在覆盖度不足的问题·为此,提出一种学习模型———自划分模型———来解决这个覆盖度不足的问题·实验结果表明,采用基于自划分模型的领域特征属性作为文本特征,可以提高文本分类性能,特别是特征数目少的情况下,该方法表现出很好的分类效果·相对于传统词文本特征方法,在特征数为500时分类的F1值提高6·58%· 展开更多
关键词 文本分类 知识获取 领域知识 文本表示
下载PDF
基于增益的隐马尔科夫模型的文本组块分析 被引量:9
19
作者 李珩 杨峰 +1 位作者 朱靖波 姚天顺 《计算机科学》 CSCD 北大核心 2004年第2期152-154,192,共4页
本文提出一种基于增益的隐马尔科夫模型(Transductive HMM)的方法,用于文本组块(Text Chunking)分析的研究。该方法将一些上下文信息导入隐马尔科夫模型(HMM),构造增益的隐马尔科夫模型(TransductiveHMM)。该模型不需要修改标准的隐马... 本文提出一种基于增益的隐马尔科夫模型(Transductive HMM)的方法,用于文本组块(Text Chunking)分析的研究。该方法将一些上下文信息导入隐马尔科夫模型(HMM),构造增益的隐马尔科夫模型(TransductiveHMM)。该模型不需要修改标准的隐马尔科夫模型的训练和标注过程,只需要对训练语料根据导入的上下文信息进行相应的转换。实验结果显示,该方法在文本组块分析方面是有效的。 展开更多
关键词 中文信息处理 隐马尔科夫模型 文本组块分析 支持向量机 状态转移函数
下载PDF
基于领域类别信息C-value的多词串自动抽取 被引量:7
20
作者 李超 王会珍 +2 位作者 朱慕华 张俐 朱靖波 《中文信息学报》 CSCD 北大核心 2010年第1期94-98,共5页
该本的多词串抽取是自然语言处理领域一项重要的研究内容。该文提出了一种多类别C-value(Multi-Class C-value)方法,利用多词串在不同领域的分布信息改善领域相关的多词串抽取的性能。在汽车、科技和旅行三个领域的数据上进行实验,评价... 该本的多词串抽取是自然语言处理领域一项重要的研究内容。该文提出了一种多类别C-value(Multi-Class C-value)方法,利用多词串在不同领域的分布信息改善领域相关的多词串抽取的性能。在汽车、科技和旅行三个领域的数据上进行实验,评价多词串的准确率,在top-100级别上,较传统的C-value方法在三个领域中分别提高了12、12和13个百分点。实验结果验证了方法的有效性。 展开更多
关键词 计算机应用 中文信息处理 多词串抽取 多类别C-value 领域信息
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部