期刊文献+
共找到45篇文章
< 1 2 3 >
每页显示 20 50 100
Deep convolutional adversarial graph autoencoder using positive pointwise mutual information for graph embedding
1
作者 MA Xiuhui WANG Rong +3 位作者 CHEN Shudong DU Rong ZHU Danyang ZHAO Hua 《High Technology Letters》 EI CAS 2022年第1期98-106,共9页
Graph embedding aims to map the high-dimensional nodes to a low-dimensional space and learns the graph relationship from its latent representations.Most existing graph embedding methods focus on the topological struct... Graph embedding aims to map the high-dimensional nodes to a low-dimensional space and learns the graph relationship from its latent representations.Most existing graph embedding methods focus on the topological structure of graph data,but ignore the semantic information of graph data,which results in the unsatisfied performance in practical applications.To overcome the problem,this paper proposes a novel deep convolutional adversarial graph autoencoder(GAE)model.To embed the semantic information between nodes in the graph data,the random walk strategy is first used to construct the positive pointwise mutual information(PPMI)matrix,then,graph convolutional net-work(GCN)is employed to encode the PPMI matrix and node content into the latent representation.Finally,the learned latent representation is used to reconstruct the topological structure of the graph data by decoder.Furthermore,the deep convolutional adversarial training algorithm is introduced to make the learned latent representation conform to the prior distribution better.The state-of-the-art experimental results on the graph data validate the effectiveness of the proposed model in the link prediction,node clustering and graph visualization tasks for three standard datasets,Cora,Citeseer and Pubmed. 展开更多
关键词 graph autoencoder(GAE) positive pointwise mutual information(Ppmi) deep convolutional generative adversarial network(DCGAN) graph convolutional network(GCN) se-mantic information
下载PDF
基于改进TF-IDF与BERT的领域情感词典构建方法 被引量:1
2
作者 蒋昊达 赵春蕾 +1 位作者 陈瀚 王春东 《计算机科学》 CSCD 北大核心 2024年第S01期150-158,共9页
领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于... 领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于改进词频-逆文档频率(TF-IDF)与BERT的领域情感词典构建方法。该方法在筛选领域候选情感词阶段对TF-IDF算法进行改进,将隐含狄利克雷分布(LDA)算法与改进后的TF-IDF算法结合,进行领域性修正,提升了所筛选候选情感词的领域性;在候选情感词极性判断阶段,将情感倾向点互信息算法(SO-PMI)与BERT结合,利用领域情感词微调BERT分类模型,提高了判断领域候选情感词情感极性的准确程度。在不同领域的用户评论数据集上进行实验,结果表明,该方法可以提高所构建领域情感词典的质量,使用该方法构建的领域情感词典用于汽车领域和手机领域文本情感分析的F1值分别达到78.02%和88.35%。 展开更多
关键词 情感分析 领域情感词典 词频-逆文档频率 隐含狄利克雷分布 情感倾向点互信息算法 BERT模型
下载PDF
基于HowNet和PMI的词语情感极性计算 被引量:32
3
作者 王振宇 吴泽衡 胡方涛 《计算机工程》 CAS CSCD 2012年第15期187-189,193,共4页
基于语料库的点互信息(PMI)计算方法依赖于语料库的完善性,基于HowNet的计算方法则依赖于知网相似度计算的准确性。为克服2种方法的局限性,提出一种HowNet和PMI相融合的词语极性计算方法,利用知网进行同义词扩展,降低情感词在语料库中... 基于语料库的点互信息(PMI)计算方法依赖于语料库的完善性,基于HowNet的计算方法则依赖于知网相似度计算的准确性。为克服2种方法的局限性,提出一种HowNet和PMI相融合的词语极性计算方法,利用知网进行同义词扩展,降低情感词在语料库中出现频率低所带来的问题。实验结果表明,该方法的微平均和宏平均性能比传统方法提升约5%。 展开更多
关键词 情感分析 点互信息 知网 同义词扩展 相似度
下载PDF
基于改进SO-PMI的藏文情感词典自动构建方法 被引量:3
4
作者 单睿康 江涛 +2 位作者 张婷婷 李多吉草 索南达杰 《高原科学研究》 CSCD 2022年第1期104-112,共9页
情感词典是舆情分析、情感计算等领域非常重要的知识资源。针对藏文情感标注资源匮乏的情况,提出一种基于改进SO-PMI的藏文情感词典自动构建方法。该方法使用情感关联修正对点互信息计算方式进行改进,提升了SO-PMI方法从复杂句式中抽取... 情感词典是舆情分析、情感计算等领域非常重要的知识资源。针对藏文情感标注资源匮乏的情况,提出一种基于改进SO-PMI的藏文情感词典自动构建方法。该方法使用情感关联修正对点互信息计算方式进行改进,提升了SO-PMI方法从复杂句式中抽取情感词的准确率,实现从藏文句子级文本中自动构建情感词典。在藏文微信评论文本数据集上将所提方法与传统SO-PMI方法以及改进的标签传播法进行对比,实验结果表明,该方法在情感词识别准确率上分别提高了20.38%和2.34%,生成的词典能够包含语料领域的情感词,可用于不同领域的藏文情感分析研究。 展开更多
关键词 藏文情感词典 SO-pmi 点互信息 舆情分析 情感分析
下载PDF
基于时空特征融合的短时交通流预测 被引量:2
5
作者 刘雄 李桂梅 +3 位作者 吴学琛 蔡小雨 黄佳辉 周诗怡 《湖南师范大学自然科学学报》 CAS 北大核心 2023年第2期140-145,共6页
城市道路交通拥堵加大碳排放和空气环境污染问题,短时交通流量预测能够有效缓解交通堵塞。本文提出一种基于时空特征融合的短时交通流预测模型。该模型通过点互信息(PMI)算法对监测站点做相关性分析,确定相关性较高站点,并将其交通数据... 城市道路交通拥堵加大碳排放和空气环境污染问题,短时交通流量预测能够有效缓解交通堵塞。本文提出一种基于时空特征融合的短时交通流预测模型。该模型通过点互信息(PMI)算法对监测站点做相关性分析,确定相关性较高站点,并将其交通数据处理成周期性序列和邻近序列;引入长短时记忆(LSTM)网络提取时间特征构建相关模型,完成时间和空间特征的融合;引进绝对误差序列分析优化模型,得到最终预测结果。本研究以长沙橘子洲大桥作为目标站点,大桥两端各个主要交通路口作为监测站点,利用各个站点的交通流数据集对模型进行验证。研究结果表明:该预测模型优于传统反向传播神经(BP)网络模型和LSTM模型,在平均绝对百分误差(MAPE)指标上,该模型相较于BP和LSTM分别降低3.12%和1.58%,在均方根误差(RMSE)指标上,该模型分别降低了8.45和3.34,为解决交通拥堵和减少碳排放问题提供了一定的参考。 展开更多
关键词 短时交通流预测 时空特征融合 点互信息 长短时记忆网络
下载PDF
中文文本情感词典构建方法 被引量:37
6
作者 阳爱民 林江豪 周咏梅 《计算机科学与探索》 CSCD 2013年第11期1033-1039,共7页
互联网海量文本的情感分析是当前的一个研究热点。介绍了一种中文文本情感词典构建方法,该方法选用若干个情感种子词,利用搜索引擎返回的共现数,通过改进的PMI(pointwise mutual information)算法计算情感词的情感权值。将构建的情感词... 互联网海量文本的情感分析是当前的一个研究热点。介绍了一种中文文本情感词典构建方法,该方法选用若干个情感种子词,利用搜索引擎返回的共现数,通过改进的PMI(pointwise mutual information)算法计算情感词的情感权值。将构建的情感词典应用到文本情感分类实验中,在不同的语料环境下,对比基于情感词典和朴素贝叶斯分类器下的文本情感分类效果,实验结果表明,构建的情感词典,可有效用于情感特征选择和直接用于情感分类,并且分类性能稳定。 展开更多
关键词 情感词典 情感分类 pmi算法 朴素贝叶斯
下载PDF
互信息改进方法在术语抽取中的应用 被引量:19
7
作者 杜丽萍 李晓戈 +1 位作者 周元哲 邵春昌 《计算机应用》 CSCD 北大核心 2015年第4期996-1000,1005,共6页
为了确定改进互信息(PMIk)方法的参数k取何值时能够克服互信息(PMI)方法过高估计两个低频且总是一起出现的字串间结合强度的缺点,解决术语抽取系统采用经过分词的语料库时由于分词错误导致的某些术语无法抽取的问题,以及改善术语抽取系... 为了确定改进互信息(PMIk)方法的参数k取何值时能够克服互信息(PMI)方法过高估计两个低频且总是一起出现的字串间结合强度的缺点,解决术语抽取系统采用经过分词的语料库时由于分词错误导致的某些术语无法抽取的问题,以及改善术语抽取系统的可移植性,提出了一种结合PMIk和两个基本过滤规则从未经过分词的语料库中进行术语抽取的算法。首先,利用PMIk方法计算两个字之间的结合强度,确定2元待扩展种子;其次,利用PMIk方法计算2元待扩展种子分别和其左边、右边的字的结合强度,确定2元是否能扩展为3元,如此迭代扩展出多元的候选术语;最后,利用两个基本过滤规则过滤候选术语中的垃圾串,得到最终结果。理论分析表明,当k≥3(k∈N+)时,PMIk方法能克服PMI方法的缺点。在1 GB的新浪财经博客语料库和300 MB百度贴吧语料库上的实验验证了理论分析的正确性,且PMIk方法获得了比PMI方法更高的精度,算法有良好的可移植性。 展开更多
关键词 术语抽取 专业术语 知识获取 互信息
下载PDF
利用复杂网络与点式互信息法分析挖掘名老中医用药经验研究 被引量:30
8
作者 王映辉 周雪忠 +8 位作者 张润顺 刘保延 姚乃礼 薛燕星 饶向荣 李文泉 吴洁 郑红刚 谢京红 《中国数字医学》 2011年第4期76-80,共5页
介绍了利用复杂网络与点式互信息法分析挖掘名老中医用药经验。复杂网络方法主要用于总结名老中医临床核心处方及常用药物配伍特点,点式互信息法用于分析临床随症、随证、随病加减变化规律,两法结合,可较完整地总结名老中医处方用药规律。
关键词 用药经验 数据挖掘 复杂网络 点式互信息法 加减变化
下载PDF
基于特征选择和点互信息剪枝的产品属性提取方法 被引量:3
9
作者 高磊 戴新宇 +1 位作者 黄书剑 陈家骏 《模式识别与人工智能》 EI CSCD 北大核心 2015年第2期187-192,共6页
产品属性的自动抽取是情感分析中的重要研究内容.文中提出一种基于特征选择和词频及点互信息剪枝的产品属性提取方法.首先引入在分类任务中常用的l1-norm正则化(Lasso)方法,将产品属性抽取问题转换为分类中的特征选择问题,利用Lasso生... 产品属性的自动抽取是情感分析中的重要研究内容.文中提出一种基于特征选择和词频及点互信息剪枝的产品属性提取方法.首先引入在分类任务中常用的l1-norm正则化(Lasso)方法,将产品属性抽取问题转换为分类中的特征选择问题,利用Lasso生成稀疏模型的特性,将模型中少量的特征作为产品特征属性候选集.然后根据候选特征属性集中的特征属性在文本中出现的频率进行排序并剪枝.最后经过进一步合并和点互信息剪枝处理,得到最终的产品属性集.在中文产品评论集上的实验证实文中方法的有效性. 展开更多
关键词 情感分析 产品属性提取 l1-norm正则化 点互信息剪枝
下载PDF
基于资源内容聚类的社会化标签聚类方法 被引量:3
10
作者 王向前 李慧宗 《情报杂志》 CSSCI 北大核心 2016年第11期141-145,150,共6页
[目的/意义]标签聚类能够发现标签群体中蕴含的知识和语义结构,从而缓解标签所面临的歧义、模糊等问题,对于提升资源的检索效率、改善用户的使用体验、促进社会化标注系统的深化应用具有十分重要的意义。[过程/方法]提出一种基于资源内... [目的/意义]标签聚类能够发现标签群体中蕴含的知识和语义结构,从而缓解标签所面临的歧义、模糊等问题,对于提升资源的检索效率、改善用户的使用体验、促进社会化标注系统的深化应用具有十分重要的意义。[过程/方法]提出一种基于资源内容聚类的标签聚类方法,该方法首先利用谱聚类算法对资源的词特征进行聚类,获取资源内容的K个特征簇,然后利用点互信息测量标签与这K特征簇的相关性,最后依据最大相关性原则将标签全体聚类成K个类簇。[结果/结论]实验结果表明,由于有效利用了资源的内容这一重要信息,提出的方法与基于VSM的K-M eans聚类方法和基于VSM的凝聚式层次聚类方法相比,获取了更好的聚类效果。 展开更多
关键词 社会化标注系统 标签聚类 资源内容 点互信息
下载PDF
一种基于平均互信息的预编码矩阵选择方法 被引量:2
11
作者 张玉 田玮 钟子发 《计算机工程》 CAS CSCD 2013年第11期65-67,73,共4页
在长期演进系统下行链路闭环传输模式中,当子载波数较大时,会造成计算量和反馈量过大。为解决该问题,提出一种基于平均互信息的预编码矩阵选择方法。将K个子载波划分成D个子载波组,对每一个子载波组的信道矩阵进行算术平均,利用信道均... 在长期演进系统下行链路闭环传输模式中,当子载波数较大时,会造成计算量和反馈量过大。为解决该问题,提出一种基于平均互信息的预编码矩阵选择方法。将K个子载波划分成D个子载波组,对每一个子载波组的信道矩阵进行算术平均,利用信道均值选择一个预编码矩阵,使K个子载波上的和速率最大。仿真结果表明,该方法与已有的预编码矩阵选择方法相比,在误块性能和容量性能基本不变的前提下,计算复杂度明显降低。 展开更多
关键词 预编码 预编码矩阵索引 子载波 反馈 平均互信息 误块率
下载PDF
基于LS-SO算法的情感文本分类方法 被引量:8
12
作者 姚艳秋 郑雅雯 吕妍欣 《吉林大学学报(理学版)》 CAS 北大核心 2019年第2期375-379,共5页
首先,基于点互信息与信息检索(PMI-IR)算法,提出一种Laplace平滑情感判定(LS-SO)算法,对情感词典与表情符号情感词典进行自动扩充,得到了具有一定规模、高质量的情感词典,包括基础情感词典、目标情感词典、网络用语情感词典、表情符号... 首先,基于点互信息与信息检索(PMI-IR)算法,提出一种Laplace平滑情感判定(LS-SO)算法,对情感词典与表情符号情感词典进行自动扩充,得到了具有一定规模、高质量的情感词典,包括基础情感词典、目标情感词典、网络用语情感词典、表情符号情感词典、否定词词典、疑问词词典、程度副词词典和连词词典.其次,通过细化文本语义分析规则计算文本情感值.实验结果验证了该方法的有效性. 展开更多
关键词 情感文本分类 情感词典 点互信息与信息检索(pmi-IR)算法 Laplace平滑情感判定(LS-SO)算法
下载PDF
基于网格聚类的情感分析研究 被引量:5
13
作者 缪裕青 高韩 +1 位作者 刘同来 文益民 《中国科学技术大学学报》 CAS CSCD 北大核心 2016年第10期874-882,共9页
传统基于语义词典和基于机器学习的中文情感分析方法,其情感分析结果受人的主观因素影响较大,在一定程度上依赖于人工建立的词典,词典的可扩展性不强.本文对于不被包括在知网情感词典中但又含有一定情感倾向的词语,使用点互信息PMI算法... 传统基于语义词典和基于机器学习的中文情感分析方法,其情感分析结果受人的主观因素影响较大,在一定程度上依赖于人工建立的词典,词典的可扩展性不强.本文对于不被包括在知网情感词典中但又含有一定情感倾向的词语,使用点互信息PMI算法、设置参数阈值等方法,进行自动识别、提取和分类,从而达到扩充词典的目的.在此基础上,建立商品评论的特征向量模型,提出情感分类算法SCG,通过网格聚类算法建立分类模型,在网格聚类过程中引入动态衰减因子,周期性地移除稀疏网格,减少计算量.实验结果表明,相比Naive Bayes,SMO(sequential minimal optimization)等分类算法,SCG算法具有更高的准确率和领域适应性. 展开更多
关键词 情感分析 网格 聚类 点互信息 分类
下载PDF
结合语境与布朗聚类特征的上下位关系验证 被引量:1
14
作者 张志昌 陈松毅 +1 位作者 刘鑫 马慧芳 《计算机工程》 CAS CSCD 北大核心 2015年第2期145-150,共6页
对海量文本语料进行上下位语义关系自动抽取是自然语言处理的重要内容,利用简单模式匹配方法抽取得到候选上下位关系后,对其进行验证过滤是难点问题。为此,分别通过对词汇语境相似度与布朗聚类相似度计算,提出一种结合语境相似度和布朗... 对海量文本语料进行上下位语义关系自动抽取是自然语言处理的重要内容,利用简单模式匹配方法抽取得到候选上下位关系后,对其进行验证过滤是难点问题。为此,分别通过对词汇语境相似度与布朗聚类相似度计算,提出一种结合语境相似度和布朗聚类相似度特征对候选下位词集合进行聚类的上下位关系验证方法。通过对少量已标注训练语料的语境相似度和布朗聚类相似度进行计算,得到验证模型和2种相似度的结合权重系数。该方法无需借助现有的词汇关系词典和知识库,可对上下位关系抽取结果进行有效过滤。在CCF NLP&2012词汇语义关系评测语料上进行实验,结果表明,与模式匹配和上下文比较等方法相比,该方法可使F值指标得到明显提升。 展开更多
关键词 上下位关系 语境相似度 布朗聚类相似度 点互信息 模式匹配 聚类验证
下载PDF
基于极性强度度量中文情感文摘中的情感信息
15
作者 潘敏 陈水利 《集美大学学报(自然科学版)》 CAS 2013年第6期461-466,共6页
情感文摘旨在提取出文本中具有明显倾向性的情感信息,同时尽可能使得句子与句子之间的衔接连贯通顺.由于极性强度不一样,评论者表达观点的情感强弱就不一样,导致情感信息也不一样.提出了一种新的方法来度量情感文摘中的情感信息量,引入... 情感文摘旨在提取出文本中具有明显倾向性的情感信息,同时尽可能使得句子与句子之间的衔接连贯通顺.由于极性强度不一样,评论者表达观点的情感强弱就不一样,导致情感信息也不一样.提出了一种新的方法来度量情感文摘中的情感信息量,引入了极性强度概念,并利用点交互信息的原理,综合考虑其与评论者、评价对象、评价短语三者之间的关系.实验结果表明,新方法与未考虑极性强度的方法相比,评价指标ROUGE-2提升了2.21%,ROUGE-SU4提升了2.01%,ROUGE-SU9提升了2.45%. 展开更多
关键词 情感文摘 点交互信息 极性强度
下载PDF
面向建筑领域的中文分词方法研究 被引量:2
16
作者 李鹏 光永星 +1 位作者 乔天玲 操峻岩 《电脑与信息技术》 2021年第5期67-72,共6页
中文分词技术目前存在的一个问题是针对特定领域未登录词识别效率较低的问题。建筑类文本分词由于受到专业本身词语的特点等限制,分词时对未登录词的识别效果不太好。提出一种非监督的基于改进算法与邻接熵结合的方法来进行未登录词的... 中文分词技术目前存在的一个问题是针对特定领域未登录词识别效率较低的问题。建筑类文本分词由于受到专业本身词语的特点等限制,分词时对未登录词的识别效果不太好。提出一种非监督的基于改进算法与邻接熵结合的方法来进行未登录词的识别。首先通过算法对文本间相互依赖值比较大的字串进行识别,然后通过停用词表和语料库进行筛选过滤得到候选词典,计算候选词典之间的邻接熵,设定阈值确定最后的未登录词,最后将识别的未登录词作为加入到专业词典进行分词。通过实验证明建筑领域文本在使用提出的算法时对于未登录词有较好的识别效果,准确率较算法提高了15.92%,召回率提高了7.61%,因此最终的分词效果在准确率和召回率分别可达到82.15%、80.45%。 展开更多
关键词 新词识别 互信息 中文分词
下载PDF
自动获取不同义项的相似词算法
17
作者 王永生 《计算机应用与软件》 CSCD 2015年第3期258-260,288,共4页
词汇相似度广泛应用于自然语言处理的多个领域。然而词汇相似度的计算一般都是基于词而不是基于词的义项来进行的。针对这种情况,提出一种相似词的分类算法。算法首先采用PMImax工具来计算目标词的相似词,然后以Word Net的义项为参照,... 词汇相似度广泛应用于自然语言处理的多个领域。然而词汇相似度的计算一般都是基于词而不是基于词的义项来进行的。针对这种情况,提出一种相似词的分类算法。算法首先采用PMImax工具来计算目标词的相似词,然后以Word Net的义项为参照,采用一种改进后的Lesk算法自动将这些相似词按照不同的义项进行分类,每一类相似词只跟对应的义项相似。实验结果表示,该算法的分类正确率可达到84.27%。 展开更多
关键词 词汇相似度 点互信息 Lesk算法 WORDNET
下载PDF
利用效用度挖掘核心药物及配伍规律 被引量:5
18
作者 周伟 王峰 +1 位作者 王崇骏 谢俊元 《计算机科学与探索》 CSCD 2013年第11期994-1001,共8页
中药方剂(traditional Chinese medicine formula,TCMF)是中医治疗的一种主要手段。然而一首方剂往往包含多种草药,这其中只有几种草药对治疗特定的病症起重要作用。因此,找出方剂中的核心药物和其配伍规律对研究中药方剂有非常重要的... 中药方剂(traditional Chinese medicine formula,TCMF)是中医治疗的一种主要手段。然而一首方剂往往包含多种草药,这其中只有几种草药对治疗特定的病症起重要作用。因此,找出方剂中的核心药物和其配伍规律对研究中药方剂有非常重要的意义。针对该问题,提出了一种基于效用度(effect degree,ED)的核心药物及配伍规律发现方法。该方法包含三个主要步骤,分别是基于药物效用度的核心药物发现算法、基于带药对效用度的点式互信息(pointwise mutual information with herb pair ED,PMIED)的药物组网算法、基于重叠社团的高效药物配伍规律发现算法。通过实验,发现了肺痿方剂的42种核心药物和30种药物配伍,经分析和中医专家确认,42种核心药物对肺痿确有良好疗效,30组药物配伍中有26组符合药物配伍关系且对肺痿有良好疗效。 展开更多
关键词 中药方剂(TCMF) 核心药物 药物配伍规律 效用度(ED) 带效用度的点式互信息(pmiED) 重叠社团
下载PDF
基于超像素的点互信息边界检测算法 被引量:6
19
作者 刘胜男 宁纪锋 《计算机应用》 CSCD 北大核心 2016年第8期2296-2300,共5页
点互信息(PMI)边界检测算法能准确检测图像中的边界,但算法效率受制于采样点的提取。针对采样过程中存在随机性和信息冗余的问题,提出一种利用超像素分割提供的中层结构信息来指导点对选取的方法。首先使用超像素算法对图像进行初始分割... 点互信息(PMI)边界检测算法能准确检测图像中的边界,但算法效率受制于采样点的提取。针对采样过程中存在随机性和信息冗余的问题,提出一种利用超像素分割提供的中层结构信息来指导点对选取的方法。首先使用超像素算法对图像进行初始分割,将图像划分成大小形状近似的像素块;然后选取落在相邻超像素中的像素点对,从而使样本点的选取更有目的性,在采样点数目较少时,保证样本点仍能有效完整地获取图像信息。实验通过与原始的PMI边界检测算法在伯克利分割数据库(BSDS)上进行比对验证得出,基于超像素的PMI边界检测算法在采样点对为3 500时,平均精准度(AP)达到0.791 7,而原始算法则需要6 000个同样环境下的采样点对。基于超像素的PMI边界检测算法在保证了检测精度的同时减少了所需的采样点数目,从而能有效提高算法的实时性。 展开更多
关键词 边界检测 超像素 点互信息 相似度衡量 样点选取
下载PDF
基于归一化点向互信息的低资源平行语料过滤方法
20
作者 吴霖 章浩然 《通信技术》 2021年第12期2606-2613,共8页
神经机器翻译的效果严重依赖于平行语料的规模和质量,而当前的平行语料抽取方法和生成方法只能提供规模足够但质量不佳的平行语料。因此,要在这些大规模低质平行语料上训练高质量的神经机器翻译系统,需要对这些平行语料进行有效过滤。... 神经机器翻译的效果严重依赖于平行语料的规模和质量,而当前的平行语料抽取方法和生成方法只能提供规模足够但质量不佳的平行语料。因此,要在这些大规模低质平行语料上训练高质量的神经机器翻译系统,需要对这些平行语料进行有效过滤。针对这一问题,引入了归一化点向互信息算法来抽取噪声语料中的对齐信息,利用其中可靠性高的对齐信息来过滤噪声语料。利用该方法在OpenSubtitles的泰语—汉语翻译方向上提高了5.8个双语评估替补(Bilingual Evaluation Understudy,BLEU)值,汉语—泰语翻译方向上提高了10个BLEU值。此外,该方法在2020年国际机器翻译大赛给出的柬埔寨语—英语单向翻译任务中实验,得到的结果比基线高了0.4个BLEU值。 展开更多
关键词 神经机器翻译 过滤 归一化点向互信息算法 平行语料 对齐信息
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部