期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于词汇迁移的跨语言形态复用
1
作者 刘伍颖 王琳 《中文信息学报》 CSCD 北大核心 2023年第8期18-24,共7页
良好结构化语言资源的稀缺导致一些自然语言处理算法无法在低资源语言上获得更高的性能。据此,针对两种语言之间的形态复用科学问题,该文提出一种形态迁移率评估指标用以评估迁移效果,并验证了形态复用在低资源语言的语言资源建设和语... 良好结构化语言资源的稀缺导致一些自然语言处理算法无法在低资源语言上获得更高的性能。据此,针对两种语言之间的形态复用科学问题,该文提出一种形态迁移率评估指标用以评估迁移效果,并验证了形态复用在低资源语言的语言资源建设和语义转述应用任务中的有效性。在语言资源建设实验中,该文从马来语语料库提取印尼语多词表示,并从印尼语语料库提取马来语多词表示。在语义转述应用实验中,该文通过马来语资源增强的印尼语-汉语平行句库训练出印尼语-汉语神经机器翻译模型,并通过印尼语资源增强的马来语-汉语平行句库训练出马来语-汉语神经机器翻译模型。实验结果证明,由于同语族的形态同源性和相似性,同语族跨语言形态复用具有很强的可迁移性和可计算性。 展开更多
关键词 形态复用 形态迁移率 低资源语言 多词表示提取 神经机器翻译
下载PDF
英中可比语料库中多词表达自动提取与对齐 被引量:12
2
作者 肖健 徐建 +1 位作者 徐晓兰 袁琦 《计算机工程与应用》 CSCD 北大核心 2010年第31期130-134,187,共6页
多词表达(MWE)不仅用来提高当前机器翻译系统质量,而且也用于跨语言检索和数据挖掘等其他自然语言处理领域。为此,提出了基于语义模板与基于统计工具相结合的方法从三元组可比语料库中自动提取本族英语MWE。采用基于词表和分布方法计算... 多词表达(MWE)不仅用来提高当前机器翻译系统质量,而且也用于跨语言检索和数据挖掘等其他自然语言处理领域。为此,提出了基于语义模板与基于统计工具相结合的方法从三元组可比语料库中自动提取本族英语MWE。采用基于词表和分布方法计算词语间的相似度,扩大MWE覆盖范围。利用GIZA++对齐算法提取对译的中文MWE,依据统计方法计算互译概率信息,根据概率大小,选择最佳英汉MWE互译对。实验结果表明上述方法可以有效提高MWE提取和对齐的准确率。 展开更多
关键词 三元组可比语料库 多词表达(mwe) 语义模板
下载PDF
利用高频词和互信息面向特定领域提取多字词表达 被引量:4
3
作者 刘荣 王丽娟 +1 位作者 张志平 赵小兵 《太原理工大学学报》 CAS 北大核心 2009年第3期210-214,共5页
在阐述了多字词表达定义的基础上,对面向特定领域的多字词表达提取的技术路线进行了详细说明。以大规模的真实文本为研究对象,利用领域高频词和互信息统计量提取多字词表达,确定了多字词表达的最大提取长度,并通过停用词表法对候选多字... 在阐述了多字词表达定义的基础上,对面向特定领域的多字词表达提取的技术路线进行了详细说明。以大规模的真实文本为研究对象,利用领域高频词和互信息统计量提取多字词表达,确定了多字词表达的最大提取长度,并通过停用词表法对候选多字词表达进行噪声处理。实验结果表明:笔者提出的方法在处理对象规模、效率等方面均有所提高。 展开更多
关键词 多字词表达 特定领域 高频词 互信息
下载PDF
紧凑结构多词表达抽取技术综述 被引量:2
4
作者 梁颖红 《苏州市职业大学学报》 2013年第3期1-6,共6页
总结紧凑结构多词表达抽取的国内外研究现状,指出汉语多词表达抽取存在的语料构建和特征选择的困难,同时分析目前的解决方法.展望多词表达抽取研究的未来发展趋势.
关键词 多词表达 语料构建 特征选择
下载PDF
基于互联网1至5元文法语料库的多词表达自动提取
5
作者 李康熙 李为山 《科技通报》 北大核心 2013年第10期171-173,共3页
多词表达是自然语言中的常见现象,其自动提取对很多自然语言处理任务有着举足轻重的作用。本研究以Google公司发布的基于公共网页的1至5元文法语料库作为词频统计的依据,同时结合自动词性标注的信息,对英国国家语料库的书面语材料部分... 多词表达是自然语言中的常见现象,其自动提取对很多自然语言处理任务有着举足轻重的作用。本研究以Google公司发布的基于公共网页的1至5元文法语料库作为词频统计的依据,同时结合自动词性标注的信息,对英国国家语料库的书面语材料部分进行多词表达的自动提取。研究结果表明,该方法能够充分利用Google语料库的精确词频信息,从而提高了多词表达抽取的准确率,并且能够较好地缓解数据稀疏现象带来问题。 展开更多
关键词 多词表达 自然语言处理 数据稀疏
下载PDF
“一X就Y”格式的多词表达敏感特征提取和选择
6
作者 郭翠珍 《苏州市职业大学学报》 2013年第4期11-13,共3页
主要研究如何选择和动态使用各自的敏感特征来抽取"一X就Y"结构的MWEs.分析了多词表达研究的现状,参考汉语言学相关专家的研究对"一X就Y"格式进行大致分类,针对该格式采用分词的方法提取特征集,并在训练集中按类别... 主要研究如何选择和动态使用各自的敏感特征来抽取"一X就Y"结构的MWEs.分析了多词表达研究的现状,参考汉语言学相关专家的研究对"一X就Y"格式进行大致分类,针对该格式采用分词的方法提取特征集,并在训练集中按类别进行敏感特征的选择. 展开更多
关键词 多词表达 敏感特征 “一X就Y”格式
下载PDF
问答社区问句中多字词表达提取
7
作者 吴瑞红 吕学强 +1 位作者 李卓 舒燕 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2014年第6期1230-1238,共9页
基于互动问答社区问句中多字词表达和问句理解的关系,提出针对互动问答社区问句进行多字词表达抽取,并基于互动问答社区问句中多字词表达的特点,提出适用于互动问答社区的多字词表达提取方法.该方法在利用互信息和停用词表的方法从问句... 基于互动问答社区问句中多字词表达和问句理解的关系,提出针对互动问答社区问句进行多字词表达抽取,并基于互动问答社区问句中多字词表达的特点,提出适用于互动问答社区的多字词表达提取方法.该方法在利用互信息和停用词表的方法从问句中抽取候选多字词表达的基础上,将候选多字词表达分为正确串、残缺串、冗余串和错误串4类,借助搜索引擎对查询串的优化和候选多字词表达在互联网上的检索结果,设计候选多字词表达校正方法,实现对多字词表达的提取.以新浪爱问知识人问题库中的问句进行实验,结果表明,多字词表达抽取的准确率、召回率和F值分别达到84%,52%和0.64,验证了该方法的有效性. 展开更多
关键词 多字词表达 问句理解 互信息 搜索引擎
下载PDF
A New Multiword Expression Metric and Its Applications
8
作者 布凡 朱小燕 李明 《Journal of Computer Science & Technology》 SCIE EI CSCD 2011年第1期3-13,共11页
Multiword Expressions (MWEs) appear frequently and ungrammatically in natural languages. Identifying MWEs in free texts is a very challenging problem. This paper proposes a knowledge-free, unsupervised, and language... Multiword Expressions (MWEs) appear frequently and ungrammatically in natural languages. Identifying MWEs in free texts is a very challenging problem. This paper proposes a knowledge-free, unsupervised, and languageindependent Multiword Expression Distance (MED). The new metric is derived from an accepted physical principle, measures the distance from an n-gram to its semantics, and outperforms other state-of-the-art methods on MWEs in two applications: question answering and named entity extraction. 展开更多
关键词 multiword expressions information distance question answering named entity extraction
原文传递
马来语领域多词组无监督识别
9
作者 王琳 刘伍颖 《中国科学技术大学学报》 CAS CSCD 北大核心 2019年第7期517-523,共7页
多词组是一种优化的语言复用粒度.,由于一些非通用语言的多词组与词之间缺乏显式形态边界,导致多词组自动识别困难.针对马来语领域多词组识别问题,提出一种基于自然标注的无监督抽取与聚类算法.算法首先采用空格符二值分类实现变长马来... 多词组是一种优化的语言复用粒度.,由于一些非通用语言的多词组与词之间缺乏显式形态边界,导致多词组自动识别困难.针对马来语领域多词组识别问题,提出一种基于自然标注的无监督抽取与聚类算法.算法首先采用空格符二值分类实现变长马来语多词组抽取;然后将文档级的自然类别标注迁移到多词组级类别聚类;最后过滤掉通用多词组,萃取多个领域多词组数据集.在272 783马来语文本文档数据集上的实验结果表明,提出的算法不但能够精准地抽取多词组,而且能够高效地实现多词组领域词典聚类. 展开更多
关键词 无监督识别 多词组 领域词典 自然标注 马来语
下载PDF
多词单位的描写识别与词典编纂 被引量:3
10
作者 邢富坤 《当代语言学》 CSSCI 北大核心 2012年第4期407-417,438,共11页
多词单位负载的意义稳定,在信息检索、机器翻译、自动问答等语言应用系统和语言研究中日益受到重视,但由于其类型多样、构成复杂、变化灵活,较难给出形式化表达,进而造成其在语言研究和实际应用中面临诸多困难。当前,多词单位的研究集... 多词单位负载的意义稳定,在信息检索、机器翻译、自动问答等语言应用系统和语言研究中日益受到重视,但由于其类型多样、构成复杂、变化灵活,较难给出形式化表达,进而造成其在语言研究和实际应用中面临诸多困难。当前,多词单位的研究集中在描写分类、识别算法、词典建设等方面,并逐渐从研究领域走向实用领域。本文重点讨论与词典编纂相关的多词单位描写与识别问题,为构建以多词单位为主体的词典资源提供参考。 展开更多
关键词 多词单位 描写分类 识别算法 词典编纂
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部