期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
Discriminative Latent Model Based Chinese Multiword Expression Extraction 被引量:2
1
作者 Xiao, Sun 《China Communications》 SCIE CSCD 2012年第3期124-133,共10页
Discriminative Latent Model(DLM) is proposed for Multiword Expressions(MWEs) extraction in Chinese text to improve the performance of Machine Translation(MT) system such as Template Based MT(TBMT).For MT systems to be... Discriminative Latent Model(DLM) is proposed for Multiword Expressions(MWEs) extraction in Chinese text to improve the performance of Machine Translation(MT) system such as Template Based MT(TBMT).For MT systems to become of further practical use,they need to be enhanced with MWEs processing capability.As our study towards this goal,we propose DLM,which is developed for sequence labeling task including hidden structures,to extract MWEs for MT systems.DLM combines the advantages of existing discriminative models,which can learn hidden structures in sequence labeling task.In our evaluations,DLM achieves precisions ranging up to 90.73% for some type of MWEs,which is higher than state-of-the-art discriminative models.Such results demonstrate that it is feasible to automatically identify many Chinese MWEs using our DLM tool.With MWEs processing model,BLEU score of MT system has also been increased by up to 0.3 in close test. 展开更多
关键词 模型基 提取 中国 机器翻译系统 DLM 中文文本 判别模型 自动识别
下载PDF
Approach for Multiword Expression Identification in Natural Language Processing
2
作者 Deepak Sharma Prakash R. Devale Akhil K. Khare 《Computer Technology and Application》 2011年第8期663-666,共4页
关键词 自然语言处理 识别方法 表情 标准系列 语料库 候选人 表面形式 消除噪声
下载PDF
A New Multiword Expression Metric and Its Applications
3
作者 布凡 朱小燕 李明 《Journal of Computer Science & Technology》 SCIE EI CSCD 2011年第1期3-13,共11页
Multiword Expressions (MWEs) appear frequently and ungrammatically in natural languages. Identifying MWEs in free texts is a very challenging problem. This paper proposes a knowledge-free, unsupervised, and language... Multiword Expressions (MWEs) appear frequently and ungrammatically in natural languages. Identifying MWEs in free texts is a very challenging problem. This paper proposes a knowledge-free, unsupervised, and languageindependent Multiword Expression Distance (MED). The new metric is derived from an accepted physical principle, measures the distance from an n-gram to its semantics, and outperforms other state-of-the-art methods on MWEs in two applications: question answering and named entity extraction. 展开更多
关键词 multiword expressions information distance question answering named entity extraction
原文传递
基于词汇迁移的跨语言形态复用
4
作者 刘伍颖 王琳 《中文信息学报》 CSCD 北大核心 2023年第8期18-24,共7页
良好结构化语言资源的稀缺导致一些自然语言处理算法无法在低资源语言上获得更高的性能。据此,针对两种语言之间的形态复用科学问题,该文提出一种形态迁移率评估指标用以评估迁移效果,并验证了形态复用在低资源语言的语言资源建设和语... 良好结构化语言资源的稀缺导致一些自然语言处理算法无法在低资源语言上获得更高的性能。据此,针对两种语言之间的形态复用科学问题,该文提出一种形态迁移率评估指标用以评估迁移效果,并验证了形态复用在低资源语言的语言资源建设和语义转述应用任务中的有效性。在语言资源建设实验中,该文从马来语语料库提取印尼语多词表示,并从印尼语语料库提取马来语多词表示。在语义转述应用实验中,该文通过马来语资源增强的印尼语-汉语平行句库训练出印尼语-汉语神经机器翻译模型,并通过印尼语资源增强的马来语-汉语平行句库训练出马来语-汉语神经机器翻译模型。实验结果证明,由于同语族的形态同源性和相似性,同语族跨语言形态复用具有很强的可迁移性和可计算性。 展开更多
关键词 形态复用 形态迁移率 低资源语言 多词表示提取 神经机器翻译
下载PDF
英中可比语料库中多词表达自动提取与对齐 被引量:12
5
作者 肖健 徐建 +1 位作者 徐晓兰 袁琦 《计算机工程与应用》 CSCD 北大核心 2010年第31期130-134,187,共6页
多词表达(MWE)不仅用来提高当前机器翻译系统质量,而且也用于跨语言检索和数据挖掘等其他自然语言处理领域。为此,提出了基于语义模板与基于统计工具相结合的方法从三元组可比语料库中自动提取本族英语MWE。采用基于词表和分布方法计算... 多词表达(MWE)不仅用来提高当前机器翻译系统质量,而且也用于跨语言检索和数据挖掘等其他自然语言处理领域。为此,提出了基于语义模板与基于统计工具相结合的方法从三元组可比语料库中自动提取本族英语MWE。采用基于词表和分布方法计算词语间的相似度,扩大MWE覆盖范围。利用GIZA++对齐算法提取对译的中文MWE,依据统计方法计算互译概率信息,根据概率大小,选择最佳英汉MWE互译对。实验结果表明上述方法可以有效提高MWE提取和对齐的准确率。 展开更多
关键词 三元组可比语料库 多词表达(MwE) 语义模板
下载PDF
利用高频词和互信息面向特定领域提取多字词表达 被引量:4
6
作者 刘荣 王丽娟 +1 位作者 张志平 赵小兵 《太原理工大学学报》 CAS 北大核心 2009年第3期210-214,共5页
在阐述了多字词表达定义的基础上,对面向特定领域的多字词表达提取的技术路线进行了详细说明。以大规模的真实文本为研究对象,利用领域高频词和互信息统计量提取多字词表达,确定了多字词表达的最大提取长度,并通过停用词表法对候选多字... 在阐述了多字词表达定义的基础上,对面向特定领域的多字词表达提取的技术路线进行了详细说明。以大规模的真实文本为研究对象,利用领域高频词和互信息统计量提取多字词表达,确定了多字词表达的最大提取长度,并通过停用词表法对候选多字词表达进行噪声处理。实验结果表明:笔者提出的方法在处理对象规模、效率等方面均有所提高。 展开更多
关键词 多字词表达 特定领域 高频词 互信息
下载PDF
基于双语语料的单个源语词汇和目标语多词单元的对齐 被引量:6
7
作者 陈博兴 杜利民 《中文信息学报》 CSCD 北大核心 2003年第1期13-19,共7页
多词单元包括固定搭配、多词习语和多词术语等。本文提供了一个基于双语口语语料库的自动对齐单个源语词汇和目标语多词单元的算法 ,算法一方面通过计算对应于同一个源语词汇 ,多个目标语词汇之间的互信息和t值的归一化差值的大小来衡... 多词单元包括固定搭配、多词习语和多词术语等。本文提供了一个基于双语口语语料库的自动对齐单个源语词汇和目标语多词单元的算法 ,算法一方面通过计算对应于同一个源语词汇 ,多个目标语词汇之间的互信息和t值的归一化差值的大小来衡量目标语多个词语之间的关联程度以提取多词单元 ,另一方面通过计算互信息和t值的平均值作为多词单元和单个源语词汇之间互为相互翻译的衡量程度 ,用局部最优、首尾禁用词过滤以及长词优先等策略很好地解决了这个问题。另外 ,对短语翻译词典的分级 ,有效地减少了高级别词典中非正确翻译项的数目 ,使得翻译词典具有更好的实用性。 展开更多
关键词 双语语料 源语词汇 目标语 人工智能 机器翻译 双语对齐 多词单元 翻译词典
下载PDF
基于多词共现模型的灾害应急任务提取方法 被引量:3
8
作者 邬群勇 方祺伟 孙振海 《自然灾害学报》 CSCD 北大核心 2016年第5期1-8,共8页
为了将灾害应急任务从非结构化的文本型应急预案中自动化提取出来,提高灾害应急决策系统的自动化程度,提出了一种利用词共现模型将灾害应急任务从应急预案文本中提取出来的方法。即利用关联规则挖掘中的频繁项集抽取方法,提取应急案例... 为了将灾害应急任务从非结构化的文本型应急预案中自动化提取出来,提高灾害应急决策系统的自动化程度,提出了一种利用词共现模型将灾害应急任务从应急预案文本中提取出来的方法。即利用关联规则挖掘中的频繁项集抽取方法,提取应急案例文本中的共现词集,分析解释共现词集与应急任务之间的关系,并将有意义的共现词集作为提取应急任务的规则知识,应用于应急任务的提取中。以突发性大气环境污染事故应急预案为例,对该方法进行了实验,结果表明该方法能将突发性大气环境污染事故应急预案中主要的应急任务提取出来,较好地满足突发性大气环境污染应急预案应急任务的提取工作。 展开更多
关键词 灾害应急任务 应急预案 多词共现 关联规则挖掘 文本挖掘
下载PDF
东北方言之多字俗语说略 被引量:1
9
作者 王洪杰 原永海 王晓霞 《通化师范学院学报》 2008年第11期69-71,共3页
俗语是一种具有民俗性,多样性与相对定型化和特定表现手法的语言单位,是方言的有机组成部分之一。尤其是在东北方言当中,俗语的存在和使用,不仅丰富了东北方言,而且使东北方言更具表现力,本文从俗语的语法、修辞、构成材料等方面对其进... 俗语是一种具有民俗性,多样性与相对定型化和特定表现手法的语言单位,是方言的有机组成部分之一。尤其是在东北方言当中,俗语的存在和使用,不仅丰富了东北方言,而且使东北方言更具表现力,本文从俗语的语法、修辞、构成材料等方面对其进行了阐释。 展开更多
关键词 多字俗语 语法 修辞 构成材料
下载PDF
文献校释中的周代多字谥省称问题 被引量:2
10
作者 马卫东 《古代文明》 CSSCI 2013年第3期59-63,113,共5页
周代天子、诸侯使用多字谥并不少见,文献记载周代同一历史人物的谥号,有时是多字谥,有时是多字谥的省称。由于对多字谥省称现象缺乏足够认识,一些学者在校释文献时,对于同一人物的不同谥号,或认定其中必有误载,或改动原作中的谥号,这种... 周代天子、诸侯使用多字谥并不少见,文献记载周代同一历史人物的谥号,有时是多字谥,有时是多字谥的省称。由于对多字谥省称现象缺乏足够认识,一些学者在校释文献时,对于同一人物的不同谥号,或认定其中必有误载,或改动原作中的谥号,这种做法值得商榷。这些不同的谥号,并不能完全排除其为多字谥省称的可能。在没有更多的确切材料予以证明之前,仍需阙疑待考。 展开更多
关键词 周代 多字谥 省称
下载PDF
紧凑结构多词表达抽取技术综述 被引量:2
11
作者 梁颖红 《苏州市职业大学学报》 2013年第3期1-6,共6页
总结紧凑结构多词表达抽取的国内外研究现状,指出汉语多词表达抽取存在的语料构建和特征选择的困难,同时分析目前的解决方法.展望多词表达抽取研究的未来发展趋势.
关键词 多词表达 语料构建 特征选择
下载PDF
青铜器复合族徽与甲骨文多字族名比较研究 被引量:1
12
作者 雒有仓 《古代文明》 CSSCI 2014年第4期61-69,111,共9页
青铜器复合族徽的类型结构与甲骨文多字族名多有相似之处,但不见同名重合事例,说明作为族组织的复合族徽实际上不见于甲骨文记载,因而复合族徽应当不代表族组织实体,而是几个关系亲近的族氏共同作器的表示,其用法类似于甲骨文多字族名... 青铜器复合族徽的类型结构与甲骨文多字族名多有相似之处,但不见同名重合事例,说明作为族组织的复合族徽实际上不见于甲骨文记载,因而复合族徽应当不代表族组织实体,而是几个关系亲近的族氏共同作器的表示,其用法类似于甲骨文多字族名的连称。 展开更多
关键词 青铜器复合族徽 甲骨文多字族名 类型结构 用法与含义
下载PDF
基于互联网1至5元文法语料库的多词表达自动提取
13
作者 李康熙 李为山 《科技通报》 北大核心 2013年第10期171-173,共3页
多词表达是自然语言中的常见现象,其自动提取对很多自然语言处理任务有着举足轻重的作用。本研究以Google公司发布的基于公共网页的1至5元文法语料库作为词频统计的依据,同时结合自动词性标注的信息,对英国国家语料库的书面语材料部分... 多词表达是自然语言中的常见现象,其自动提取对很多自然语言处理任务有着举足轻重的作用。本研究以Google公司发布的基于公共网页的1至5元文法语料库作为词频统计的依据,同时结合自动词性标注的信息,对英国国家语料库的书面语材料部分进行多词表达的自动提取。研究结果表明,该方法能够充分利用Google语料库的精确词频信息,从而提高了多词表达抽取的准确率,并且能够较好地缓解数据稀疏现象带来问题。 展开更多
关键词 多词表达 自然语言处理 数据稀疏
下载PDF
语块的特点与外语教学 被引量:1
14
作者 计道宏 《郧阳师范高等专科学校学报》 2013年第4期125-127,共3页
语块是外语学习的基本单位,是真实外语交际中高频率出现的大于单个单词的多词单位。越来越多的学者认为,语块将取代孤立的词汇或复杂的语法成为外语学习的中心,因为语块教学对外语学习者的外语流利程度和地道程度作用很大,是融词汇教学... 语块是外语学习的基本单位,是真实外语交际中高频率出现的大于单个单词的多词单位。越来越多的学者认为,语块将取代孤立的词汇或复杂的语法成为外语学习的中心,因为语块教学对外语学习者的外语流利程度和地道程度作用很大,是融词汇教学、语法教学、语用教学、语义教学和语篇教学为一体的整体性教学。 展开更多
关键词 语块 预制语块 外语教学 多词单位
下载PDF
基于DSP的广播节目抗干扰系统的设计
15
作者 吴义炳 刘银春 《漳州师范学院学报(自然科学版)》 2010年第2期72-77,共6页
针对广播节目在传输过程中易受干扰的问题,提出了基于动态时间轴归整(DTW)算法的多词判别法语音识别技术,根据该方法通过提取Mel尺度倒谱参数,设计出基于DSP的广播节目抗干扰系统,实现广播信号的自动判别,实验表明该系统抗干扰能力显著... 针对广播节目在传输过程中易受干扰的问题,提出了基于动态时间轴归整(DTW)算法的多词判别法语音识别技术,根据该方法通过提取Mel尺度倒谱参数,设计出基于DSP的广播节目抗干扰系统,实现广播信号的自动判别,实验表明该系统抗干扰能力显著增强. 展开更多
关键词 语音识别 MEL频率倒谱系数 动态时间轴归整算法 多词判别法
下载PDF
“一X就Y”格式的多词表达敏感特征提取和选择
16
作者 郭翠珍 《苏州市职业大学学报》 2013年第4期11-13,共3页
主要研究如何选择和动态使用各自的敏感特征来抽取"一X就Y"结构的MWEs.分析了多词表达研究的现状,参考汉语言学相关专家的研究对"一X就Y"格式进行大致分类,针对该格式采用分词的方法提取特征集,并在训练集中按类别... 主要研究如何选择和动态使用各自的敏感特征来抽取"一X就Y"结构的MWEs.分析了多词表达研究的现状,参考汉语言学相关专家的研究对"一X就Y"格式进行大致分类,针对该格式采用分词的方法提取特征集,并在训练集中按类别进行敏感特征的选择. 展开更多
关键词 多词表达 敏感特征 “一X就Y”格式
下载PDF
问答社区问句中多字词表达提取
17
作者 吴瑞红 吕学强 +1 位作者 李卓 舒燕 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2014年第6期1230-1238,共9页
基于互动问答社区问句中多字词表达和问句理解的关系,提出针对互动问答社区问句进行多字词表达抽取,并基于互动问答社区问句中多字词表达的特点,提出适用于互动问答社区的多字词表达提取方法.该方法在利用互信息和停用词表的方法从问句... 基于互动问答社区问句中多字词表达和问句理解的关系,提出针对互动问答社区问句进行多字词表达抽取,并基于互动问答社区问句中多字词表达的特点,提出适用于互动问答社区的多字词表达提取方法.该方法在利用互信息和停用词表的方法从问句中抽取候选多字词表达的基础上,将候选多字词表达分为正确串、残缺串、冗余串和错误串4类,借助搜索引擎对查询串的优化和候选多字词表达在互联网上的检索结果,设计候选多字词表达校正方法,实现对多字词表达的提取.以新浪爱问知识人问题库中的问句进行实验,结果表明,多字词表达抽取的准确率、召回率和F值分别达到84%,52%和0.64,验证了该方法的有效性. 展开更多
关键词 多字词表达 问句理解 互信息 搜索引擎
下载PDF
基于改进互信息的微博新情感词提取 被引量:2
18
作者 柳文婷 《延边大学学报(自然科学版)》 CAS 2019年第4期349-355,共7页
针对微博新词的情感倾向分析问题,提出了一种改进互信息的微博新情感词提取方法.首先,对预处理后的微博数据进行N元切分,以此得到候选字串;然后,通过计算多字互信息(multiword mutual information,MMI)和左右侧邻接熵对候选字串进行扩... 针对微博新词的情感倾向分析问题,提出了一种改进互信息的微博新情感词提取方法.首先,对预处理后的微博数据进行N元切分,以此得到候选字串;然后,通过计算多字互信息(multiword mutual information,MMI)和左右侧邻接熵对候选字串进行扩展和过滤得到候选新词,再将候选新词与相应词典进行对比得到新词;最后,通过词间情感相似度(sentiment similarity between the words,SW)计算出新词的情感倾向值,从而得到新情感词.实验结果显示,该方法对新词情感倾向识别的准确率、召回率和F1值比文献[4]方法分别提高了13.14%、5.81%和8.59%,因此该方法具有很好的应用价值. 展开更多
关键词 微博 新情感词 N元切分 多字互信息 词间情感相似度
下载PDF
马来语领域多词组无监督识别
19
作者 王琳 刘伍颖 《中国科学技术大学学报》 CAS CSCD 北大核心 2019年第7期517-523,共7页
多词组是一种优化的语言复用粒度.,由于一些非通用语言的多词组与词之间缺乏显式形态边界,导致多词组自动识别困难.针对马来语领域多词组识别问题,提出一种基于自然标注的无监督抽取与聚类算法.算法首先采用空格符二值分类实现变长马来... 多词组是一种优化的语言复用粒度.,由于一些非通用语言的多词组与词之间缺乏显式形态边界,导致多词组自动识别困难.针对马来语领域多词组识别问题,提出一种基于自然标注的无监督抽取与聚类算法.算法首先采用空格符二值分类实现变长马来语多词组抽取;然后将文档级的自然类别标注迁移到多词组级类别聚类;最后过滤掉通用多词组,萃取多个领域多词组数据集.在272 783马来语文本文档数据集上的实验结果表明,提出的算法不但能够精准地抽取多词组,而且能够高效地实现多词组领域词典聚类. 展开更多
关键词 无监督识别 多词组 领域词典 自然标注 马来语
下载PDF
中国英语新闻报刊中的词簇 被引量:35
20
作者 李文中 《中国外语》 2007年第3期38-43,共6页
为先导研究之目的,建立一个“中国英语新闻语料库”(CENAC),并提取各种长度的词簇,通过与对应的“英国英语新闻语料库”(BENAC)对比分析,调查中国语境中词簇的分布特征及语用功能。研究发现CENAC中使用更多的长词簇,这些词簇结构固定,... 为先导研究之目的,建立一个“中国英语新闻语料库”(CENAC),并提取各种长度的词簇,通过与对应的“英国英语新闻语料库”(BENAC)对比分析,调查中国语境中词簇的分布特征及语用功能。研究发现CENAC中使用更多的长词簇,这些词簇结构固定,意义具体,具有很强的表达能力。同时,这些词簇在语言和社会文化方面本土化特征明显,但不易为国际读者所理解。对外语学习者而言,充分掌握现成的模块化表达,有助于提高学习者的交际信心和流利程度。 展开更多
关键词 多词单位 词簇 CENAC 中国英语
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部