题名 基于树形解码器的航空术语DEF自动生成
1
作者
吕嘉
王裴岩
蔡东风
张桂平
李林娜
机构
沈阳航空航天大学人机智能研究中心
出处
《中文信息学报》
CSCD
北大核心
2024年第6期24-33,共10页
基金
国家自然科学基金(U1908216)
辽宁省重点研发计划(2019JH2/10100020)。
文摘
该文研究了基于HowNet的KDML语法体系的术语DEF自动生成问题,提出一种基于树形解码器的生成方法。在编码器端输入专业术语以及其他外部信息(术语的定义、术语子词的义原等);在解码器端交替使用义原解码器和关系解码器,同时使用注意力机制关注编码器端的各种表征信息,最终得到“义原-关系-义原”形式的输出,并组合成术语对应的义原树,进而得到术语的DEF表示以辅助专业领域HowNet的构建,最终取得了首义原F_(1)值74.13%、总义原F_(1)值53.92%、总关系F_(1)值53.33%、总三元组F_(1)值30.48%的结果。
关键词
知网
DEF生成
树形结构解码
Keywords
HowNet
DEF generation
tree-structured decoder
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 面向低资源场景的神经机器翻译方法
2
作者
胡朝东
叶娜
张桂平
蔡东风
机构
沈阳航空航天大学人机智能研究中心
出处
《中文信息学报》
CSCD
北大核心
2024年第6期58-66,共9页
基金
国家自然科学基金(U1908216)
辽宁省重点研发计划(2019JH2/10100020)
沈阳市科学技术计划(20-202-1-28)。
文摘
神经机器翻译需要大规模的双语平行语料利用深度学习的方法构建翻译模型,但低资源场景下平行句对缺乏,导致训练的神经机器翻译模型效果较差。无监督神经机器翻译技术仅使用两种语言的单语数据,解决了神经机器翻译对大规模双语平行数据的依赖问题。但是无监督神经机器翻译技术存在两个问题,一是对于句法建模能力欠缺;二是在低资源场景下存在的少量双语语料不能用于模型训练,造成双语语料资源浪费。为了解决上述问题,该文提出在无监督神经机器翻译中融合句法知识的方法,使模型可以充分学习句子的句法信息;同时引入少量双语平行语料辅助无监督神经机器翻译训练,使模型直接学习源语言与目标语言单词之间的转换。与基线模型相比较,在英-法和德-英单语新闻数据集上BLEU值分别提升了1.65和1.79。
关键词
无监督神经机器翻译
句法知识
去噪自动编码器
Keywords
unsupervised neural machine translation
syntactic knowledge
denoising auto-encoder
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于网络嵌入和预训练模型的义原预测
3
作者
白宇
王之光
刘懿萱
蔡东风
机构
南京航空航天大学计算机科学与技术学院
沈阳航空航天大学人机智能研究中心
出处
《计算机应用与软件》
北大核心
2024年第7期42-48,共7页
基金
国家自然科学基金项目(U1908216)。
文摘
义原是构成《知网》概念描述的核心部件,义原预测是HowNet自动或半自动扩展中涉及的关键问题之一。提出一种基于网络嵌入和预训练模型的义原预测方法,通过对《知网》中的字-词-义项-义原及其关系的表示学习,融合预训练语言模型动态构建局部“义项-义原”关系网络,实现新概念与候选义原的动态匹配。实验结果中的义原预测F1值达到0.6237,表明该方法能够更有效地解决《知网》中未登录词的义原预测问题。
关键词
义原
预训练语言模型
网络嵌入
Keywords
Sememe
Pre-training language model
Network embedding
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 中文工艺规范文本分词语料的构建与研究
被引量:1
4
作者
王裴岩
张莹欣
付小强
陈佳欣
徐楠
蔡东风
机构
沈阳航空航天大学人机智能研究中心
中国商飞上海飞机制造有限公司航空制造技术研究所
出处
《计算机科学》
CSCD
北大核心
2023年第S02期63-68,共6页
基金
辽宁省应用基础研究计划(2022JH2/101300248)。
文摘
中文分词是处理工艺规范文本的一项基本任务,并且在工艺知识图谱与智能问答等下游任务中发挥着重要作用。工艺规范文本分词面临的一个挑战是缺乏高质量标注的语料,特别是面向术语、名词短语、工艺参数、数量词等特殊语言现象的分词规范。文中面向工艺规范文本制定了专用分词规范,收集并标注了一个中文工艺规范文本分词语料(WS-MPST),含11900个句子与255160个词,4名标注者分词标注一致性达95.25%。在WS-MPST语料上对著名的BiLSTM-CRF与BERT-CRF模型进行了对比实验,F1值分别达到92.61%与93.69%。实验结果表明,构建专用的工艺规范分词语料是必要的。对实验结果的深入分析揭示了未登录词与中文非中文字符混合构成的词是工艺规范文本分词的难点,也为今后工艺规范文本及相关领域的分词研究提供了一定的指导。
关键词
中文分词
工艺规范文本
分词规范
分词语料
分词模型
Keywords
Chinese word segmentation
Process specification text
Word segmentation specification
Word segmentation corpus
Word segmentation model
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于编码器—解码器的工艺过程生成方法
被引量:1
5
作者
汤文俊
王裴岩
蔡东风
张桂平
王玉印
机构
沈阳航空航天大学人机智能研究中心
沈阳格微软件有限责任公司知识工程及服务事业部
出处
《计算机集成制造系统》
EI
CSCD
北大核心
2023年第11期3656-3668,共13页
基金
沈阳市重大科技创新研发计划资助项目(Y19-1-011)。
文摘
针对现有工艺过程生成方法对于不同专业适用性较差的问题,提出一种基于深度学习编码器—解码器结构的工艺过程生成方法。该方法利用工艺大纲文件数据,通过编码器提取大纲文件中工艺属性的特征,形成工艺属性文本表征向量,解码器根据表征向量逐步生成工艺过程。在钣金零件制造与装配两个专业工艺大纲文件数据上,比较研究了24种编码器—解码器结构,最高准确率分别达到0.8287和0.6973,即生成的工艺过程有82.87%和69.73%可直接接受,不需要后续修改。这一方面表明所提出方法能够有效地从数据中学习工艺属性与工艺方法间的关系,从而生成工艺过程;另一方面,在两个专业采用相同编码器—解码器结构,表明所提方法对于不同专业的适用性,具有迁移能力。
关键词
工艺过程生成
编码器—解码器
深度学习
制造与装配
Keywords
process generation
encoder-decoder
deep learning
manufacturing and assembly
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于自学习的整数数列符号回归方法
6
作者
孙凯明
蔡东风
白宇
机构
沈阳航空航天大学计算机学院
出处
《计算机应用》
CSCD
北大核心
2024年第10期3158-3166,共9页
文摘
针对现有符号回归方法难以有效泛化至整数数列在线百科全书(OEIS)中数列的问题,提出一种基于自学习(SL)的整数数列符号回归方法。首先,通过程序构造多种学习数据,结合OEIS数据的特点融入高阶线性递推数据,并采用OEIS初始项生成递推数列;其次,将学习数据转换为OEIS数据,提出融合多种OEIS数据作为初始迭代数据的策略;最后,通过自学习迭代逐步发现OEIS数列的公式,迭代过程分为学习、搜索、检验、选择这4个阶段。实验结果表明,所提方法优于深度符号回归(DSR)方法和Mathematica内置函数,在Easy、Sign和Base这3个测试集上相较于DSR的准确率分别提升9.66、4.17和5.14个百分点,共发现27 433个OEIS数列的公式,其中新发现的公式可以辅助数学家研究相关理论。
关键词
符号回归
自学习
公式发现
整数数列在线百科全书
TRANSFORMER
Keywords
symbolic regression
Self-Learning(SL)
formula discovery
OEIS(On-line Encyclopedia of Integer Sequences)
Transformer
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 融入知识的工艺文本命名实体识别方法
被引量:1
7
作者
杨洪鹏
王裴岩
蔡东风
张桂平
朱永康
机构
沈阳航空航天大学人机智能研究中心
沈阳格微软件有限责任公司知识工程与服务事业部
出处
《沈阳航空航天大学学报》
2023年第1期67-77,共11页
基金
国家自然科学基金(项目编号:u1908216)
沈阳市重大科技创新研发计划(项目编号:Y19-1-011)。
文摘
针对工艺制造领域文本提出一种融入知识的命名实体识别方法,旨在能够准确地识别工艺文本中的12类实体。该方法依据工艺领域知识设计正则规则,对文本序列进行实体的预识别,形成预识别特征矩阵,并使用编码器对预识别特征矩阵编码,再将识别到的结果保存于词典中,然后对输入文本分词训练基于词的知识表示,最后加入基于神经网络的实体识别模型中。使用BiLSTM为预识别特征矩阵编码器和BiLSTM-CRF神经网络模型的F1值达到92.55%。实验结果表明,融入知识的工艺文本命名实体识别方法能够有效提高工艺文本实体的识别效果。
关键词
工艺制造
正则规则
神经网络
命名实体识别
特征矩阵编码器
BiLSTM
Keywords
process manufacturing
regular rules
neural network
named entity recognition
feature matrix encoder
BiLSTM
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 翻译错误类分布加权的专利译文自动后编辑集成模型
8
作者
赵三元
王裴岩
叶娜
赵欣瑜
蔡东风
张桂平
机构
沈阳航空航天大学人机智能研究中心
出处
《计算机科学》
CSCD
北大核心
2023年第S02期44-51,共8页
基金
国家自然科学基金(U1908216)
教育部人文社会科学研究青年基金(19YJC740107)
沈阳市科学技术计划(20-202-1-28)。
文摘
自动后编辑(APE)是一种自动修改机器译文错误的方法,能够改善机器翻译系统的译文质量。目前,APE研究主要集中于通用领域,然而对于专业性强和译文质量要求较高的专利译文的APE则鲜有研究。文中研究了专利译文自动后编辑,提出了翻译错误类分布加权的专利译文自动后编辑集成模型。首先,提出术语加权翻译编辑率(WTER)计算方法,在翻译编辑率(TER)中加入了每个词的术语概率因子,使术语错误较多的样本WTER值较高。然后,通过WTER从3个机器翻译系统构造的训练数据中选择错译、漏译、增译与移位错误样本子集分别构建错误修正偏向性APE子模型。最后,通过翻译错误类分布加权错误修正偏向性APE子模型。该方法针对专利专业性、强术语较多的特点,每个子模型分别面向一类错误,考虑了错误修正的偏向性,通过模型集成兼顾了译文错误多样性,在英中专利摘要数据集上的实验结果表明,相比3个基线系统,所提方法的BLEU值分别平均提升了2.52,2.28和2.27。
关键词
自动后编辑
专利译文
翻译错误类分布
集成
翻译编辑率
Keywords
Automatic post-editing
Patent translation
Distribution of translation errors
Ensemble
Translation edit rate
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 利用依存句法分析和关键词共现的机器阅读理解模型
9
作者
赵耀
白宇
蔡东风
樊睿文
机构
沈阳航空航天大学人机智能研究中心
出处
《计算机应用与软件》
北大核心
2023年第2期223-229,319,共8页
基金
辽宁省重点研发计划项目(2019JH2/10100020)
沈阳市重大科技创新研发计划项目(Y19-1-011)。
文摘
片段抽取式阅读理解是机器阅读理解典型任务之一,根据所给的篇章回答相关问题得到答案片段。在处理长文本如长问题或者长答案时,在无关词的噪声干扰和词之间长距离的关联跨度影响下,往往模糊了关注度的问题,一方面,依存句法分析通过识别词之间的语义关系,另一方面,增强句子的主干文本结构信息可以提升模型对于长文本阅读能力。该文寻找篇章中相关问题答案的主要方式是找到问题与篇章的关联特征,两者最关联的特征就是关键词,通过建立的关键词指导模型,实现在自注意力机制以获得正确答案的开始和结束位置。实验结果表明,在预训练语言模型的基础上将依存句法分析信息和关键词共现特征结合能够提升阅读理解的效果,在评测语料上F1值达到88.24。
关键词
依存句法分析
关键词共现
预训练模型
机器阅读理解
Keywords
Dependency parsing
Keyword co-occurrence
Pretraining model
Machine reading comprehension
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
题名 一种基于语境的词语相似度计算方法
被引量:12
10
作者
蔡东风
白宇
于水
叶娜
任晓娜
机构
沈阳航空工业学院知识工程中心
出处
《中文信息学报》
CSCD
北大核心
2010年第3期24-28,共5页
基金
国家自然科学基金资助项目(60842005)
辽宁省教育厅科技研究资助项目(2007T140)
文摘
词语相似度计算是机器翻译、信息检索等自然语言处理领域的关键问题之一。传统的词语相似度计算方法,未能很好地考虑上下文信息对词语语义的约束,从而不能对语境变换带来的词语间相似度的差异进行有效的区分。该文引入模糊数学中隶属函数的概念计算词语上下文信息的模糊重要度,并结合基于《知网》的语义相似度计算方法,提出一种基于语境的词语相似度计算方法。实验表明,该算法可以根据语境有效地区分语义相近的词语。
关键词
计算机应用
中文信息处理
语境
模糊重要度
词语相似度
隶属函数
Keywords
computer application
Chinese information processing
context
fuzzy degree of significance
word similarity computation
membership function
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 融合单语翻译记忆的神经机器翻译方法
11
作者
王兵
叶娜
蔡东风
机构
沈阳航空航天大学人机智能研究中心
出处
《沈阳航空航天大学学报》
2023年第2期74-82,共9页
基金
教育部人文社会科学研究项目(项目编号:19YJC740107)
国家自然科学基金(项目编号:U1908216)
沈阳市科学技术计划(项目编号:20-202-1-28)。
文摘
与以往使用双语语料库作为翻译记忆(Translation Memory,TM)并采用源端相似度搜索进行记忆检索,进而将检索到的相似句对与神经机器翻译(Neural Machine Translation,NMT)模型融合的这种分阶段进行的方法不同,提出一种新的融合框架,即基于跨语言注意力记忆网络的神经机器翻译模型,该模型使用单语翻译记忆即目标语言句子作为TM,并以跨语言的方式执行可学习的检索。该框架具有一定的优势:第一,跨语言注意力记忆网络允许单语句子作为TM,适合于双语语料缺乏的低资源场景;第二,跨语言注意力记忆网络和NMT模型可以为最终的翻译目标进行联合优化,实现一体化训练。实验表明,所提出的方法在4个翻译任务上取得了较好的效果,在双语资源稀缺的专业领域中也表现出其在低资源场景下的有效性。
关键词
神经机器翻译
单语翻译记忆
跨语言注意力记忆网络
低资源领域
Transformer模型
Keywords
neural machine translation
monolingual translation memory
cross-language attention memory network
low-resource scenarios
transformer model
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于问题分解的多跳阅读理解方法
12
作者
樊睿文
白宇
蔡东风
机构
沈阳航空航天大学人机智能研究中心
出处
《沈阳航空航天大学学报》
2023年第2期63-73,共11页
基金
国家自然科学基金(项目编号:U1908216)
教育部人文社会科学研究青年基金(项目编号:17YJCZH003)。
文摘
多跳阅读理解是自然语言处理研究领域的热点和难点,其研究在文本理解、自动问答、对话系统等方面具有重要意义和广泛应用。针对当前面向中文的多跳阅读理解(Multi-Hop Reading Comprehension,MHRC)研究不足的现状,构建了一个面向复杂问题的中文多跳阅读理解(Complex Chinese Machine Reading Comprehension,Complex CMRC)数据集,提出了一种基于问题分解的中文MHRC方法。该方法分为问题分解和问题求解两个阶段:首先提出了一种融合JointBERT模型和规则的复杂问题分解方法,通过JointBERT模型对问题类型识别和问题片段识别联合建模,获得准确的问题类型和问题片段信息,再利用专门设计的问题分解规则将复杂问题分解为多个简单子问题;然后采用BERT预训练模型对所有子问题进行迭代求解,最终获得复杂问题的答案。分别在Complex CMRC数据集上进行问题分解和问题求解实验,取得了良好的实验结果,验证了提出方法的有效性。
关键词
多跳阅读理解
复杂问题分解
预训练模型
数据集构建
问题求解
Keywords
Multi-Hop Reading Comprehension
complex question decomposition
pre-trained mod‐els
dataset construction
question solving
分类号
TP399
[自动化与计算机技术—计算机应用技术]
题名 基于马尔科夫逻辑网的中文专利最大名词短语识别
被引量:2
13
作者
蔡东风
赵奇猛
饶齐
王裴岩
机构
沈阳航空航天大学知识工程研究中心
出处
《中文信息学报》
CSCD
北大核心
2016年第4期21-28,共8页
基金
国家"十二五"科技支撑计划项目(2012BAH14F00)
国家自然科学基金(61073123)
文摘
缺少标注语料和难以识别动词和名词类是阻碍中文专利最大名词短语识别的主要问题。针对上述问题,该文提出了一种基于马尔科夫逻辑网的中文最大名词短语识别方法。该方法避免对开放类的名词短语的识别,而将主要精力放在了相对封闭的分隔符的识别上,利用句子自身特征、领域迁移特征以及双语对齐特征来识别最大名词短语的边界。结果说明,双语信息较好地促进了动词、介词、连词等MNP边界的识别。MNP识别的F值可达83.27%。
关键词
最大名词短语
马尔科夫逻辑网
中文专利
Keywords
MNP
MLN
Chinese patent
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 一种面向计数问题的公式发现方法
被引量:2
14
作者
蔡东风
朱耀辉
白宇
机构
沈阳航空航天大学知识工程研究中心
出处
《沈阳航空航天大学学报》
2016年第5期61-67,共7页
文摘
在分析计数问题特点的基础之上,提出了一种面向计数问题的公式发现方法。该方法能根据给定的计数数列,自动发现其计数递推公式。将计数递推公式按公式的系数不同分为10种不同的公式类型(也称公式模式),对给定的计数数列,采用SVM方法进行公式模式的分类,采用求解线性方程组方法对识别的公式模式参数进行求解,并为了防止过拟合得到错误的公式,利用专用的验证数据对求解后得到的具体计数递推公式进行公式验证。最后,采用国际公开的整数数列集OEIS中的645个计数问题进行十折交叉验证实验,求解正确率达92.56%。在新公式发现实验中,发现了目前OEIS数据集中尚未包含的10个新公式。
关键词
公式发现
机器发现
计数问题
模式分类
递推公式
Keywords
formula discovery
machine discovery
counting problem
pattern classification
recursion formula
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于边界距离的多向量文本聚类方法
15
作者
蔡东风
王智超
季铎
张桂平
机构
沈阳航空工业学院自然语言处理研究室
出处
《计算机工程与应用》
CSCD
北大核心
2008年第3期198-201,共4页
基金
国家高技术研究发展计划(863)(the National High- Tech Research and Development Plan of China under Grant No.2006AA01Z148)
教育部科学技术研究重点项目(the Scientific Key Project of Ministry of Education of China under Grant No.207148)
文摘
文本聚类是自然语言处理中的一项重要研究课题,主要应用于信息检索和Web挖掘等领域。其中的关键是文本的表示和聚类算法。在层次聚类的基础上,提出了一种新的基于边界距离的层次聚类算法,该方法通过选择两个类间边缘样本点的距离作为类间距离,有效地利用类的边界信息,提高类间距离计算的准确性。综合考虑不同词性特征对文本的贡献,采用多向量模型对文本进行表示。不同文本集上的实验表明,基于边界距离的多向量文本聚类算法取得了较好的性能。
关键词
距离计算
文本表示
多向量
文本聚类
Keywords
distance computation
document representation
multi-vector
document clustering
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于知网的句法歧义结构消解
16
作者
蔡东风
周俏丽
张桂平
吴英泽
机构
沈阳航空工业学院自然语言处理实验室
沈阳航空工业学院人机智能中心
沈阳航空工业学院院长办公室
出处
《通讯和计算机(中英文版)》
2006年第2期18-23,共6页
文摘
本文以汉语句法结构分析中普遍存在的句法结构歧义现象,即“动词+名词+的+名词”(V+N1+L的/u+N2)为研究对象,提出了一种基于知网知识库的歧义消解策略。本文根据知纲的义原分类体系制定了消歧规则,退一步提出了利用知纲的相似度计算和义原分类规则相结合的歧义消解策略。通过对人民日报语料中的1000个VNN实例的测试,准确率达83.7%,表明这是一种有效的识别VNN歧义结构的方法。
关键词
知纲
歧义结构
消歧
相似度计算
Keywords
HowNet
Ambiguous Structure
Disambiguation
Similarity Computation
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 一种基于字词联合解码的中文分词方法
被引量:42
17
作者
宋彦
蔡东风
张桂平
赵海
机构
沈阳航空工业学院知识工程中心
香港城市大学中文、翻译及语言学系
出处
《软件学报》
EI
CSCD
北大核心
2009年第9期2366-2375,共10页
基金
国家自然科学基金No.60842005
国家高技术研究发展计划(863)No.2006AA01Z148
国家教育部科学技术研究重点项目No.207148~~
文摘
近年来基于字的方法极大地提高了中文分词的性能,借助于优秀的学习算法,由字构词逐渐成为中文分词的主要技术路线.然而,基于字的方法虽然在发现未登录词方面有其优势,却往往在针对表内词的切分效果方面不及基于词的方法,而且还损失了一些词与词之间的信息以及词本身的信息.在此基础上,提出了一种结合基于字的条件随机场模型与基于词的Bi-gram语言模型的切分策略,实现了字词联合解码的中文分词方法,较好地发挥了两个模型的长处,能够有效地改善单一模型的性能,并在SIGHAN Bakeoff3的评测集上得到了验证,充分说明了合理的字词结合方法将有效地提高分词系统的性能,可以更好地应用于中文信息处理的各个方面.
关键词
中文分词
联合解码
语言模型
条件随机场模型
Keywords
Chinese word segmentation
joint decoding
language model
conditional random field model
分类号
TP301
[自动化与计算机技术—计算机系统结构]
题名 基于知网的中文问题自动分类
被引量:41
18
作者
孙景广
蔡东风
吕德新
董燕举
机构
沈阳航空工业学院自然语言处理研究室
出处
《中文信息学报》
CSCD
北大核心
2007年第1期90-95,共6页
基金
国家航空基金(05J54011)
辽宁省自然科学基金(20042004)
文摘
问答系统应能用准确、简洁的答案回答用户用自然语言提出的问题。问题分类是问答系统所要处理的第一步,分类结果的正确率直接影响后续工作的进行。本文提出了一种使用知网作为语义资源选取分类特征,并使用最大熵模型进行分类的新方法。该方法以问题的疑问词、句法结构、疑问意向词、疑问意向词在知网中的首义原作为分类特征。实验结果表明,在知网中选取的首义原能很好的表达问题焦点词的语义信息,可作为问题分类的一个主要特征。该方法能显著地提高问题分类的精度,大类和小类的分类精度分别达到了92.18%和83.86%。
关键词
计算机应用
中文信息处理
问答系统
问题分类
知网
最大熵模型
分类特征
Keywords
computer application
Chinese information processing
question answering system
question classification
HowNet
maximum entropy model
classification feature
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于联合权重的多文档关键词抽取技术
被引量:16
19
作者
杨洁
季铎
蔡东风
林晓庆
白宇
机构
沈阳航空工业学院知识工程中心
辽东学院信息技术学院
出处
《中文信息学报》
CSCD
北大核心
2008年第6期75-79,共5页
基金
教育部科学技术研究重点资助项目(207148)
辽宁省自然科学基金资助项目(1063297-1-01)
文摘
该文提出一种多文档关键词抽取方法,该方法提出ATF×PDF(Average Term Frequency×ProportionalDocument Frequency)来计算词语权重,并根据候选关键词之间的语义相似度,采用联合权重方法重新计算候选关键词的权重来抽取关键词。该方法综合考虑了词语的频率,词性以及词语之间的语义相似性等信息,实验表明,该方法能有效抽取多个文档的关键词,同基于关键词的聚类标记方法相比,其准确率提高3%,召回率提高7%,F-measure提高4.4%。
关键词
计算机应用
中文信息处理
ATF×PDF
联合权重
多文档
语义相似度
Keywords
computer application
Chinese information processing
ATF × PDF
joint weigh
multi-document
semantic similarity
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 从计算机辅助翻译到协同翻译
被引量:23
20
作者
叶娜
张桂平
韩亚冬
蔡东风
机构
沈阳航空航天大学知识工程研究中心
出处
《中文信息学报》
CSCD
北大核心
2012年第6期1-10,共10页
基金
国家自然科学基金资助项目(60842005)
辽宁省教育厅高校科研计划资助项目(L2010422)
文摘
由于机器翻译系统的译文质量仍难以达到实用化要求,计算机辅助翻译技术逐渐成为研究热点,并且取得了很好的实际效果,大大提高了翻译产业的生产率。随着辅助翻译规模的不断扩大,多名在空间上分散的用户被组织起来共同完成一项翻译任务已成为普遍现象,这种新的翻译模式称为协同翻译。该文对计算机辅助翻译和协同翻译技术进行综述,首先从辅助译文生成、译后编辑和系统反馈学习等方面介绍了计算机辅助翻译技术的常用方法和研究进展,随后讨论了计算机辅助翻译与协同翻译之间的联系和区别,分析了协同翻译技术所面临的主要问题,并介绍了现有研究的解决方法。最后对协同翻译的未来发展方向进行了展望。
关键词
计算机辅助翻译
协同翻译
用户
辅助译文
译后编辑
Keywords
computer-assisted translation
collaborative translation
user
aiding translation
post editing
分类号
TP391
[自动化与计算机技术—计算机应用技术]