期刊文献+
共找到135篇文章
< 1 2 7 >
每页显示 20 50 100
基于网络嵌入和预训练模型的义原预测
1
作者 白宇 王之光 +1 位作者 刘懿萱 蔡东风 《计算机应用与软件》 北大核心 2024年第7期42-48,共7页
义原是构成《知网》概念描述的核心部件,义原预测是HowNet自动或半自动扩展中涉及的关键问题之一。提出一种基于网络嵌入和预训练模型的义原预测方法,通过对《知网》中的字-词-义项-义原及其关系的表示学习,融合预训练语言模型动态构建... 义原是构成《知网》概念描述的核心部件,义原预测是HowNet自动或半自动扩展中涉及的关键问题之一。提出一种基于网络嵌入和预训练模型的义原预测方法,通过对《知网》中的字-词-义项-义原及其关系的表示学习,融合预训练语言模型动态构建局部“义项-义原”关系网络,实现新概念与候选义原的动态匹配。实验结果中的义原预测F1值达到0.6237,表明该方法能够更有效地解决《知网》中未登录词的义原预测问题。 展开更多
关键词 义原 预训练语言模型 网络嵌入
下载PDF
中文工艺规范文本分词语料的构建与研究
2
作者 王裴岩 张莹欣 +3 位作者 付小强 陈佳欣 徐楠 蔡东风 《计算机科学》 CSCD 北大核心 2023年第S02期63-68,共6页
中文分词是处理工艺规范文本的一项基本任务,并且在工艺知识图谱与智能问答等下游任务中发挥着重要作用。工艺规范文本分词面临的一个挑战是缺乏高质量标注的语料,特别是面向术语、名词短语、工艺参数、数量词等特殊语言现象的分词规范... 中文分词是处理工艺规范文本的一项基本任务,并且在工艺知识图谱与智能问答等下游任务中发挥着重要作用。工艺规范文本分词面临的一个挑战是缺乏高质量标注的语料,特别是面向术语、名词短语、工艺参数、数量词等特殊语言现象的分词规范。文中面向工艺规范文本制定了专用分词规范,收集并标注了一个中文工艺规范文本分词语料(WS-MPST),含11900个句子与255160个词,4名标注者分词标注一致性达95.25%。在WS-MPST语料上对著名的BiLSTM-CRF与BERT-CRF模型进行了对比实验,F1值分别达到92.61%与93.69%。实验结果表明,构建专用的工艺规范分词语料是必要的。对实验结果的深入分析揭示了未登录词与中文非中文字符混合构成的词是工艺规范文本分词的难点,也为今后工艺规范文本及相关领域的分词研究提供了一定的指导。 展开更多
关键词 中文分词 工艺规范文本 分词规范 分词语料 分词模型
下载PDF
基于编码器—解码器的工艺过程生成方法 被引量:1
3
作者 汤文俊 王裴岩 +2 位作者 蔡东风 张桂平 王玉印 《计算机集成制造系统》 EI CSCD 北大核心 2023年第11期3656-3668,共13页
针对现有工艺过程生成方法对于不同专业适用性较差的问题,提出一种基于深度学习编码器—解码器结构的工艺过程生成方法。该方法利用工艺大纲文件数据,通过编码器提取大纲文件中工艺属性的特征,形成工艺属性文本表征向量,解码器根据表征... 针对现有工艺过程生成方法对于不同专业适用性较差的问题,提出一种基于深度学习编码器—解码器结构的工艺过程生成方法。该方法利用工艺大纲文件数据,通过编码器提取大纲文件中工艺属性的特征,形成工艺属性文本表征向量,解码器根据表征向量逐步生成工艺过程。在钣金零件制造与装配两个专业工艺大纲文件数据上,比较研究了24种编码器—解码器结构,最高准确率分别达到0.8287和0.6973,即生成的工艺过程有82.87%和69.73%可直接接受,不需要后续修改。这一方面表明所提出方法能够有效地从数据中学习工艺属性与工艺方法间的关系,从而生成工艺过程;另一方面,在两个专业采用相同编码器—解码器结构,表明所提方法对于不同专业的适用性,具有迁移能力。 展开更多
关键词 工艺过程生成 编码器—解码器 深度学习 制造与装配
下载PDF
融入知识的工艺文本命名实体识别方法 被引量:1
4
作者 杨洪鹏 王裴岩 +2 位作者 蔡东风 张桂平 朱永康 《沈阳航空航天大学学报》 2023年第1期67-77,共11页
针对工艺制造领域文本提出一种融入知识的命名实体识别方法,旨在能够准确地识别工艺文本中的12类实体。该方法依据工艺领域知识设计正则规则,对文本序列进行实体的预识别,形成预识别特征矩阵,并使用编码器对预识别特征矩阵编码,再将识... 针对工艺制造领域文本提出一种融入知识的命名实体识别方法,旨在能够准确地识别工艺文本中的12类实体。该方法依据工艺领域知识设计正则规则,对文本序列进行实体的预识别,形成预识别特征矩阵,并使用编码器对预识别特征矩阵编码,再将识别到的结果保存于词典中,然后对输入文本分词训练基于词的知识表示,最后加入基于神经网络的实体识别模型中。使用BiLSTM为预识别特征矩阵编码器和BiLSTM-CRF神经网络模型的F1值达到92.55%。实验结果表明,融入知识的工艺文本命名实体识别方法能够有效提高工艺文本实体的识别效果。 展开更多
关键词 工艺制造 正则规则 神经网络 命名实体识别 特征矩阵编码器 BiLSTM
下载PDF
翻译错误类分布加权的专利译文自动后编辑集成模型
5
作者 赵三元 王裴岩 +3 位作者 叶娜 赵欣瑜 蔡东风 张桂平 《计算机科学》 CSCD 北大核心 2023年第S02期44-51,共8页
自动后编辑(APE)是一种自动修改机器译文错误的方法,能够改善机器翻译系统的译文质量。目前,APE研究主要集中于通用领域,然而对于专业性强和译文质量要求较高的专利译文的APE则鲜有研究。文中研究了专利译文自动后编辑,提出了翻译错误... 自动后编辑(APE)是一种自动修改机器译文错误的方法,能够改善机器翻译系统的译文质量。目前,APE研究主要集中于通用领域,然而对于专业性强和译文质量要求较高的专利译文的APE则鲜有研究。文中研究了专利译文自动后编辑,提出了翻译错误类分布加权的专利译文自动后编辑集成模型。首先,提出术语加权翻译编辑率(WTER)计算方法,在翻译编辑率(TER)中加入了每个词的术语概率因子,使术语错误较多的样本WTER值较高。然后,通过WTER从3个机器翻译系统构造的训练数据中选择错译、漏译、增译与移位错误样本子集分别构建错误修正偏向性APE子模型。最后,通过翻译错误类分布加权错误修正偏向性APE子模型。该方法针对专利专业性、强术语较多的特点,每个子模型分别面向一类错误,考虑了错误修正的偏向性,通过模型集成兼顾了译文错误多样性,在英中专利摘要数据集上的实验结果表明,相比3个基线系统,所提方法的BLEU值分别平均提升了2.52,2.28和2.27。 展开更多
关键词 自动后编辑 专利译文 翻译错误类分布 集成 翻译编辑率
下载PDF
利用依存句法分析和关键词共现的机器阅读理解模型
6
作者 赵耀 白宇 +1 位作者 蔡东风 樊睿文 《计算机应用与软件》 北大核心 2023年第2期223-229,319,共8页
片段抽取式阅读理解是机器阅读理解典型任务之一,根据所给的篇章回答相关问题得到答案片段。在处理长文本如长问题或者长答案时,在无关词的噪声干扰和词之间长距离的关联跨度影响下,往往模糊了关注度的问题,一方面,依存句法分析通过识... 片段抽取式阅读理解是机器阅读理解典型任务之一,根据所给的篇章回答相关问题得到答案片段。在处理长文本如长问题或者长答案时,在无关词的噪声干扰和词之间长距离的关联跨度影响下,往往模糊了关注度的问题,一方面,依存句法分析通过识别词之间的语义关系,另一方面,增强句子的主干文本结构信息可以提升模型对于长文本阅读能力。该文寻找篇章中相关问题答案的主要方式是找到问题与篇章的关联特征,两者最关联的特征就是关键词,通过建立的关键词指导模型,实现在自注意力机制以获得正确答案的开始和结束位置。实验结果表明,在预训练语言模型的基础上将依存句法分析信息和关键词共现特征结合能够提升阅读理解的效果,在评测语料上F1值达到88.24。 展开更多
关键词 依存句法分析 关键词共现 预训练模型 机器阅读理解
下载PDF
一种基于语境的词语相似度计算方法 被引量:12
7
作者 蔡东风 白宇 +2 位作者 于水 叶娜 任晓娜 《中文信息学报》 CSCD 北大核心 2010年第3期24-28,共5页
词语相似度计算是机器翻译、信息检索等自然语言处理领域的关键问题之一。传统的词语相似度计算方法,未能很好地考虑上下文信息对词语语义的约束,从而不能对语境变换带来的词语间相似度的差异进行有效的区分。该文引入模糊数学中隶属函... 词语相似度计算是机器翻译、信息检索等自然语言处理领域的关键问题之一。传统的词语相似度计算方法,未能很好地考虑上下文信息对词语语义的约束,从而不能对语境变换带来的词语间相似度的差异进行有效的区分。该文引入模糊数学中隶属函数的概念计算词语上下文信息的模糊重要度,并结合基于《知网》的语义相似度计算方法,提出一种基于语境的词语相似度计算方法。实验表明,该算法可以根据语境有效地区分语义相近的词语。 展开更多
关键词 计算机应用 中文信息处理 语境 模糊重要度 词语相似度 隶属函数
下载PDF
融合单语翻译记忆的神经机器翻译方法
8
作者 王兵 叶娜 蔡东风 《沈阳航空航天大学学报》 2023年第2期74-82,共9页
与以往使用双语语料库作为翻译记忆(Translation Memory,TM)并采用源端相似度搜索进行记忆检索,进而将检索到的相似句对与神经机器翻译(Neural Machine Translation,NMT)模型融合的这种分阶段进行的方法不同,提出一种新的融合框架,即基... 与以往使用双语语料库作为翻译记忆(Translation Memory,TM)并采用源端相似度搜索进行记忆检索,进而将检索到的相似句对与神经机器翻译(Neural Machine Translation,NMT)模型融合的这种分阶段进行的方法不同,提出一种新的融合框架,即基于跨语言注意力记忆网络的神经机器翻译模型,该模型使用单语翻译记忆即目标语言句子作为TM,并以跨语言的方式执行可学习的检索。该框架具有一定的优势:第一,跨语言注意力记忆网络允许单语句子作为TM,适合于双语语料缺乏的低资源场景;第二,跨语言注意力记忆网络和NMT模型可以为最终的翻译目标进行联合优化,实现一体化训练。实验表明,所提出的方法在4个翻译任务上取得了较好的效果,在双语资源稀缺的专业领域中也表现出其在低资源场景下的有效性。 展开更多
关键词 神经机器翻译 单语翻译记忆 跨语言注意力记忆网络 低资源领域 Transformer模型
下载PDF
基于问题分解的多跳阅读理解方法
9
作者 樊睿文 白宇 蔡东风 《沈阳航空航天大学学报》 2023年第2期63-73,共11页
多跳阅读理解是自然语言处理研究领域的热点和难点,其研究在文本理解、自动问答、对话系统等方面具有重要意义和广泛应用。针对当前面向中文的多跳阅读理解(Multi-Hop Reading Comprehension,MHRC)研究不足的现状,构建了一个面向复杂问... 多跳阅读理解是自然语言处理研究领域的热点和难点,其研究在文本理解、自动问答、对话系统等方面具有重要意义和广泛应用。针对当前面向中文的多跳阅读理解(Multi-Hop Reading Comprehension,MHRC)研究不足的现状,构建了一个面向复杂问题的中文多跳阅读理解(Complex Chinese Machine Reading Comprehension,Complex CMRC)数据集,提出了一种基于问题分解的中文MHRC方法。该方法分为问题分解和问题求解两个阶段:首先提出了一种融合JointBERT模型和规则的复杂问题分解方法,通过JointBERT模型对问题类型识别和问题片段识别联合建模,获得准确的问题类型和问题片段信息,再利用专门设计的问题分解规则将复杂问题分解为多个简单子问题;然后采用BERT预训练模型对所有子问题进行迭代求解,最终获得复杂问题的答案。分别在Complex CMRC数据集上进行问题分解和问题求解实验,取得了良好的实验结果,验证了提出方法的有效性。 展开更多
关键词 多跳阅读理解 复杂问题分解 预训练模型 数据集构建 问题求解
下载PDF
基于马尔科夫逻辑网的中文专利最大名词短语识别 被引量:2
10
作者 蔡东风 赵奇猛 +1 位作者 饶齐 王裴岩 《中文信息学报》 CSCD 北大核心 2016年第4期21-28,共8页
缺少标注语料和难以识别动词和名词类是阻碍中文专利最大名词短语识别的主要问题。针对上述问题,该文提出了一种基于马尔科夫逻辑网的中文最大名词短语识别方法。该方法避免对开放类的名词短语的识别,而将主要精力放在了相对封闭的分隔... 缺少标注语料和难以识别动词和名词类是阻碍中文专利最大名词短语识别的主要问题。针对上述问题,该文提出了一种基于马尔科夫逻辑网的中文最大名词短语识别方法。该方法避免对开放类的名词短语的识别,而将主要精力放在了相对封闭的分隔符的识别上,利用句子自身特征、领域迁移特征以及双语对齐特征来识别最大名词短语的边界。结果说明,双语信息较好地促进了动词、介词、连词等MNP边界的识别。MNP识别的F值可达83.27%。 展开更多
关键词 最大名词短语 马尔科夫逻辑网 中文专利
下载PDF
一种面向计数问题的公式发现方法 被引量:1
11
作者 蔡东风 朱耀辉 白宇 《沈阳航空航天大学学报》 2016年第5期61-67,共7页
在分析计数问题特点的基础之上,提出了一种面向计数问题的公式发现方法。该方法能根据给定的计数数列,自动发现其计数递推公式。将计数递推公式按公式的系数不同分为10种不同的公式类型(也称公式模式),对给定的计数数列,采用SVM方法进... 在分析计数问题特点的基础之上,提出了一种面向计数问题的公式发现方法。该方法能根据给定的计数数列,自动发现其计数递推公式。将计数递推公式按公式的系数不同分为10种不同的公式类型(也称公式模式),对给定的计数数列,采用SVM方法进行公式模式的分类,采用求解线性方程组方法对识别的公式模式参数进行求解,并为了防止过拟合得到错误的公式,利用专用的验证数据对求解后得到的具体计数递推公式进行公式验证。最后,采用国际公开的整数数列集OEIS中的645个计数问题进行十折交叉验证实验,求解正确率达92.56%。在新公式发现实验中,发现了目前OEIS数据集中尚未包含的10个新公式。 展开更多
关键词 公式发现 机器发现 计数问题 模式分类 递推公式
下载PDF
基于边界距离的多向量文本聚类方法
12
作者 蔡东风 王智超 +1 位作者 季铎 张桂平 《计算机工程与应用》 CSCD 北大核心 2008年第3期198-201,共4页
文本聚类是自然语言处理中的一项重要研究课题,主要应用于信息检索和Web挖掘等领域。其中的关键是文本的表示和聚类算法。在层次聚类的基础上,提出了一种新的基于边界距离的层次聚类算法,该方法通过选择两个类间边缘样本点的距离作为类... 文本聚类是自然语言处理中的一项重要研究课题,主要应用于信息检索和Web挖掘等领域。其中的关键是文本的表示和聚类算法。在层次聚类的基础上,提出了一种新的基于边界距离的层次聚类算法,该方法通过选择两个类间边缘样本点的距离作为类间距离,有效地利用类的边界信息,提高类间距离计算的准确性。综合考虑不同词性特征对文本的贡献,采用多向量模型对文本进行表示。不同文本集上的实验表明,基于边界距离的多向量文本聚类算法取得了较好的性能。 展开更多
关键词 距离计算 文本表示 多向量 文本聚类
下载PDF
基于知网的句法歧义结构消解
13
作者 蔡东风 周俏丽 +1 位作者 张桂平 吴英泽 《通讯和计算机(中英文版)》 2006年第2期18-23,共6页
本文以汉语句法结构分析中普遍存在的句法结构歧义现象,即“动词+名词+的+名词”(V+N1+L的/u+N2)为研究对象,提出了一种基于知网知识库的歧义消解策略。本文根据知纲的义原分类体系制定了消歧规则,退一步提出了利用知纲的... 本文以汉语句法结构分析中普遍存在的句法结构歧义现象,即“动词+名词+的+名词”(V+N1+L的/u+N2)为研究对象,提出了一种基于知网知识库的歧义消解策略。本文根据知纲的义原分类体系制定了消歧规则,退一步提出了利用知纲的相似度计算和义原分类规则相结合的歧义消解策略。通过对人民日报语料中的1000个VNN实例的测试,准确率达83.7%,表明这是一种有效的识别VNN歧义结构的方法。 展开更多
关键词 知纲 歧义结构 消歧 相似度计算
下载PDF
一种基于字词联合解码的中文分词方法 被引量:42
14
作者 宋彦 蔡东风 +1 位作者 张桂平 赵海 《软件学报》 EI CSCD 北大核心 2009年第9期2366-2375,共10页
近年来基于字的方法极大地提高了中文分词的性能,借助于优秀的学习算法,由字构词逐渐成为中文分词的主要技术路线.然而,基于字的方法虽然在发现未登录词方面有其优势,却往往在针对表内词的切分效果方面不及基于词的方法,而且还损失了一... 近年来基于字的方法极大地提高了中文分词的性能,借助于优秀的学习算法,由字构词逐渐成为中文分词的主要技术路线.然而,基于字的方法虽然在发现未登录词方面有其优势,却往往在针对表内词的切分效果方面不及基于词的方法,而且还损失了一些词与词之间的信息以及词本身的信息.在此基础上,提出了一种结合基于字的条件随机场模型与基于词的Bi-gram语言模型的切分策略,实现了字词联合解码的中文分词方法,较好地发挥了两个模型的长处,能够有效地改善单一模型的性能,并在SIGHAN Bakeoff3的评测集上得到了验证,充分说明了合理的字词结合方法将有效地提高分词系统的性能,可以更好地应用于中文信息处理的各个方面. 展开更多
关键词 中文分词 联合解码 语言模型 条件随机场模型
下载PDF
基于知网的中文问题自动分类 被引量:41
15
作者 孙景广 蔡东风 +1 位作者 吕德新 董燕举 《中文信息学报》 CSCD 北大核心 2007年第1期90-95,共6页
问答系统应能用准确、简洁的答案回答用户用自然语言提出的问题。问题分类是问答系统所要处理的第一步,分类结果的正确率直接影响后续工作的进行。本文提出了一种使用知网作为语义资源选取分类特征,并使用最大熵模型进行分类的新方法。... 问答系统应能用准确、简洁的答案回答用户用自然语言提出的问题。问题分类是问答系统所要处理的第一步,分类结果的正确率直接影响后续工作的进行。本文提出了一种使用知网作为语义资源选取分类特征,并使用最大熵模型进行分类的新方法。该方法以问题的疑问词、句法结构、疑问意向词、疑问意向词在知网中的首义原作为分类特征。实验结果表明,在知网中选取的首义原能很好的表达问题焦点词的语义信息,可作为问题分类的一个主要特征。该方法能显著地提高问题分类的精度,大类和小类的分类精度分别达到了92.18%和83.86%。 展开更多
关键词 计算机应用 中文信息处理 问答系统 问题分类 知网 最大熵模型 分类特征
下载PDF
基于联合权重的多文档关键词抽取技术 被引量:15
16
作者 杨洁 季铎 +2 位作者 蔡东风 林晓庆 白宇 《中文信息学报》 CSCD 北大核心 2008年第6期75-79,共5页
该文提出一种多文档关键词抽取方法,该方法提出ATF×PDF(Average Term Frequency×ProportionalDocument Frequency)来计算词语权重,并根据候选关键词之间的语义相似度,采用联合权重方法重新计算候选关键词的权重来抽取关键词... 该文提出一种多文档关键词抽取方法,该方法提出ATF×PDF(Average Term Frequency×ProportionalDocument Frequency)来计算词语权重,并根据候选关键词之间的语义相似度,采用联合权重方法重新计算候选关键词的权重来抽取关键词。该方法综合考虑了词语的频率,词性以及词语之间的语义相似性等信息,实验表明,该方法能有效抽取多个文档的关键词,同基于关键词的聚类标记方法相比,其准确率提高3%,召回率提高7%,F-measure提高4.4%。 展开更多
关键词 计算机应用 中文信息处理 ATF×PDF 联合权重 多文档 语义相似度
下载PDF
从计算机辅助翻译到协同翻译 被引量:22
17
作者 叶娜 张桂平 +1 位作者 韩亚冬 蔡东风 《中文信息学报》 CSCD 北大核心 2012年第6期1-10,共10页
由于机器翻译系统的译文质量仍难以达到实用化要求,计算机辅助翻译技术逐渐成为研究热点,并且取得了很好的实际效果,大大提高了翻译产业的生产率。随着辅助翻译规模的不断扩大,多名在空间上分散的用户被组织起来共同完成一项翻译任务已... 由于机器翻译系统的译文质量仍难以达到实用化要求,计算机辅助翻译技术逐渐成为研究热点,并且取得了很好的实际效果,大大提高了翻译产业的生产率。随着辅助翻译规模的不断扩大,多名在空间上分散的用户被组织起来共同完成一项翻译任务已成为普遍现象,这种新的翻译模式称为协同翻译。该文对计算机辅助翻译和协同翻译技术进行综述,首先从辅助译文生成、译后编辑和系统反馈学习等方面介绍了计算机辅助翻译技术的常用方法和研究进展,随后讨论了计算机辅助翻译与协同翻译之间的联系和区别,分析了协同翻译技术所面临的主要问题,并介绍了现有研究的解决方法。最后对协同翻译的未来发展方向进行了展望。 展开更多
关键词 计算机辅助翻译 协同翻译 用户 辅助译文 译后编辑
下载PDF
基于网络的中文问答系统及信息抽取算法研究 被引量:46
18
作者 崔桓 蔡东风 苗雪雷 《中文信息学报》 CSCD 北大核心 2004年第3期24-31,共8页
问答系统 (QuestionAnsweringSystem)能用准确、简洁的答案回答用户用自然语言提出的问题。目前多数问答系统利用大规模文本作为抽取答案的知识库 ,而网络上丰富的资源为问答系统提供了另外一种良好的知识来源 ,对于回答简短、基于事实... 问答系统 (QuestionAnsweringSystem)能用准确、简洁的答案回答用户用自然语言提出的问题。目前多数问答系统利用大规模文本作为抽取答案的知识库 ,而网络上丰富的资源为问答系统提供了另外一种良好的知识来源 ,对于回答简短、基于事实的问题非常有效。本文对基于网络的问答系统研究现状作了简要的介绍 ,分析了网络信息的特点。我们提出了一种基于语句相似度计算的答案抽取方法 ,在此基础上实现了一个基于网络的中文问答系统。该系统只利用网络搜索引擎返回结果中的摘要部分作为答案抽取的资源 ,从而节省了下载、分析网络源文本的时间。实验结果表明该系统对人名、数量及时间类型的问题效果显著 ,对测试问题集的MRR值达到 0 5 1。 展开更多
关键词 计算机应用 中文信息处理 问答系统 句子相似度 信息抽取
下载PDF
统计和规则相结合的汉语最长名词短语自动识别 被引量:16
19
作者 代翠 周俏丽 +1 位作者 蔡东风 杨洁 《中文信息学报》 CSCD 北大核心 2008年第6期110-115,共6页
在分析汉语最长名词短语特点的基础上,提出了一种统计和规则相结合的汉语最长名词短语自动识别方法:通过实验词及词性的不同组合选择特征集合,基于该特征训练得到条件随机场(CRF)识别模型;分析错误识别结果,结合最长名词短语的边界信息... 在分析汉语最长名词短语特点的基础上,提出了一种统计和规则相结合的汉语最长名词短语自动识别方法:通过实验词及词性的不同组合选择特征集合,基于该特征训练得到条件随机场(CRF)识别模型;分析错误识别结果,结合最长名词短语的边界信息和内部结构信息构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面的不足。实验结果表明,用统计和规则相结合的方法识别最长名词短语是有效的,系统开放测试结果F值达到了90.2%。 展开更多
关键词 计算机应用 中文信息处理 条件随机场 最长名词短语 基于规则的后处理
下载PDF
基于统计和规则相结合的科技术语自动抽取研究 被引量:36
20
作者 刘豹 张桂平 蔡东风 《计算机工程与应用》 CSCD 北大核心 2008年第23期147-150,共4页
科技术语自动抽取是中文信息处理领域的一个重要研究课题,在信息检索、机器翻译等领域,特别是在专利翻译中有着广泛应用。结合专利翻译任务,主要研究专利中科技术语的识别方法,在分析目前已有方法的基础之上,提出了一种使用条件随机场... 科技术语自动抽取是中文信息处理领域的一个重要研究课题,在信息检索、机器翻译等领域,特别是在专利翻译中有着广泛应用。结合专利翻译任务,主要研究专利中科技术语的识别方法,在分析目前已有方法的基础之上,提出了一种使用条件随机场模型进行标注识别,并结合规则对错误识别结果进行后处理的科技术语识别方法。实验结果表明,提出的统计和规则相结合的识别方法是有效的,开放测试结果F值达到了84.4%。 展开更多
关键词 条件随机场 科技术语抽取 术语识别
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部