期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于双语协同训练的最大名词短语识别研究 被引量:5
1
作者 李业刚 黄河燕 +2 位作者 史树敏 鉴萍 苏超 《软件学报》 EI CSCD 北大核心 2015年第7期1615-1625,共11页
针对传统方法对双语最大名词短语识别一致性差以及跨领域识别能力弱的缺点,提出一种基于半监督学习的双语最大名词短语识别算法.利用汉英最大名词短语的互译性和识别的互补性,把平行的汉语句子和英语句子这两个数据集看作一个数据集的... 针对传统方法对双语最大名词短语识别一致性差以及跨领域识别能力弱的缺点,提出一种基于半监督学习的双语最大名词短语识别算法.利用汉英最大名词短语的互译性和识别的互补性,把平行的汉语句子和英语句子这两个数据集看作一个数据集的两个不同的视图进行双语协同训练.在协同训练中,把双语对齐标注一致率作为标记置信度估计依据,进行增量标记数据的选择.实验结果表明:该算法显著提高了双语最大名词短语的识别能力,在跨领域测试和同领域测试中,F值分别比目前最好的最大名词短语识别模型提高了4.52%和3.08%. 展开更多
关键词 最大名词短语 半监督学习 标注投射 双语协同训练 短语识别
下载PDF
三字词中的类词缀 被引量:23
2
作者 曾立英 《语言文字应用》 CSSCI 北大核心 2008年第2期32-40,共9页
本文基于《现代汉语语法信息词典》8万词词库中的三字词,着力讨论三字词中的类词缀。首先通过类词缀在三字词与二字词中的功能对比来说明类词缀在构成三字词时规则性比较强,其次从词库中统计出现代汉语的类前缀和类后缀,最后探讨了类词... 本文基于《现代汉语语法信息词典》8万词词库中的三字词,着力讨论三字词中的类词缀。首先通过类词缀在三字词与二字词中的功能对比来说明类词缀在构成三字词时规则性比较强,其次从词库中统计出现代汉语的类前缀和类后缀,最后探讨了类词缀的领域特征以及类词缀在未登录词中的识别问题。 展开更多
关键词 三字词 类前缀 类后缀 领域特征
下载PDF
从量变到质变的“有机成长”——音乐作品结构中的规模等级
3
作者 姚恒璐 《星海音乐学院学报》 2016年第4期80-100,共21页
在曲式分析当中,人们最常遇到的问题就是对作品规模等级分析的困惑,不是将乐句划分短了,就是把乐段划分长了,由此导致认定曲式性质的各种"争议"。在教学中更有依据"小节数"来判定乐句、乐段,这显然是特别不合理的... 在曲式分析当中,人们最常遇到的问题就是对作品规模等级分析的困惑,不是将乐句划分短了,就是把乐段划分长了,由此导致认定曲式性质的各种"争议"。在教学中更有依据"小节数"来判定乐句、乐段,这显然是特别不合理的作法。文章的观点是:乐句乐段的确认,应当从最小单位"乐汇"的累积形成,也就是要以音乐材料的"有机成长"关系来看待曲式规模的成长壮大,曲式规模的大小是由规模等级的累积形成,而不能是人为的概念规定,因而在读谱过程中,音响感受与理性划分等级相互作用、同等重要。文章指出,在规范曲式的等级单位中,乐汇-乐节-乐句-乐段的等级排列,决定了曲式的规模形成。其最小单位乐汇与动机间的关系,既是音乐作品展开手法的依据,也是看待音乐作品规模认定的出发点。同时,论文以各种谱例来比较印证曲式规模形成的重要作用,强调一些分析原则:重复不增加规模,重视和声手法中"延伸""预示"等分析视角,在判定规范的曲式规模及其种种曲式变体的形式中,都是有效的认识途径。 展开更多
关键词 句法结构 曲式等级 动机 乐汇 乐节 乐段 曲式规模 延伸
下载PDF
结合统计特征和图模型的半监督式中文关键短语抽取方法 被引量:2
4
作者 谢海华 陈雪飞 +2 位作者 都仪敏 吕肖庆 汤帜 《中文信息学报》 CSCD 北大核心 2022年第4期57-65,共9页
关键短语抽取,即从文档中抽取能够表达文档主题和内容的关键短语集合,对于信息检索和文档分类等文本处理任务具有重要意义。然而,现有文献缺乏针对中文特点的关键短语抽取算法的研究。为此,该文提出了一种半监督式中文关键短语抽取模型... 关键短语抽取,即从文档中抽取能够表达文档主题和内容的关键短语集合,对于信息检索和文档分类等文本处理任务具有重要意义。然而,现有文献缺乏针对中文特点的关键短语抽取算法的研究。为此,该文提出了一种半监督式中文关键短语抽取模型,该模型采用预训练语言模型来表征短语及文章,以减少算法对大量标注训练数据的依赖;进而提出图模型描述候选短语间的相似性空间并迭代计算各短语的重要度;同时结合了多项统计特征来进一步提高短语评估的准确率。对比实验表明,该文提出的方法在中文关键短语抽取方面比基线方法具有明显的提升效果。 展开更多
关键词 中文关键短语抽取 半监督式方法 图模型 统计特征
下载PDF
结合半监督与主动学习的复杂名词短语识别 被引量:1
5
作者 姜亚辉 姬东鸿 《计算机工程与设计》 北大核心 2015年第2期498-501,506,共5页
为克服传统的全监督机器学习模型的训练依赖于大量的标注样本的弱点,给出一种半监督学习和主动学习相结合的算法。根据主动学习选择策略选择最有价值的句子来标注,结合半监督来充分利用未标注的句子。结合汉语语料的特点,改进主动学习... 为克服传统的全监督机器学习模型的训练依赖于大量的标注样本的弱点,给出一种半监督学习和主动学习相结合的算法。根据主动学习选择策略选择最有价值的句子来标注,结合半监督来充分利用未标注的句子。结合汉语语料的特点,改进主动学习选择策略。实验结果表明,与采用随机选择标注样本相比,在使用相同数目的训练样本的情况下,该算法可以使学习器的F-score调高10.2%,在分类器到达相同性能的情况下,人工标注量可以减少32%,学习器对标注样本的需求得到了有效降低。 展开更多
关键词 复杂名词短语 主动学习 半监督学习 条件随机域 选择策略
下载PDF
融合上下文语义信息的汉越平行短语对抽取方法
6
作者 杨舰 高盛祥 +2 位作者 余正涛 朱浩东 文永华 《云南民族大学学报(自然科学版)》 CAS 2021年第3期264-271,共8页
越南语是一种典型的资源稀缺型语言,汉越平行语料较为稀少,但在如维基百科、双语新闻等网站上存在大量的汉越可比语料.而从可比语料中抽取平行短语对任务能够有效缓解低资源机器翻译中面临的数据稀疏性问题.考虑到上下文语义信息对抽取... 越南语是一种典型的资源稀缺型语言,汉越平行语料较为稀少,但在如维基百科、双语新闻等网站上存在大量的汉越可比语料.而从可比语料中抽取平行短语对任务能够有效缓解低资源机器翻译中面临的数据稀疏性问题.考虑到上下文语义信息对抽取高质量的双语短语对有重要支撑.提出了融合上下文语义信息的汉越平行短语对抽取方法.首先使用汉、越单语语料训练汉、越向量矩阵;然后预训练编码器,通过注意力机制将句子编码信息和短语编码信息进行结合,生成含有上下文语义信息的单语短语向量,同时将平行短语对作为约束,使汉越短语向量在语义空间中距离最小化,非平行短语对的距离最大化,得到汉越双语短语向量表示;最后利用预训练好的编码器来对平行短语对分类器进行训练.实验结果证明,所训练的分类器的准确度达到75.62%,同时,为了检测抽取出来的平行短语对质量,将其添加到SMT的训练语料中,与基线系统相比,提升了0.93Bleu. 展开更多
关键词 上下文语义信息 半监督自编码器 平行短语对抽取 汉-越 可比语料
下载PDF
语义韵属性再探究--基于汉语语料库的分析 被引量:4
7
作者 李芳兰 卫乃兴 《广西民族大学学报(哲学社会科学版)》 CSSCI 北大核心 2015年第4期171-176,共6页
语义韵是语料库语言学的一个重要概念。以"往往容易""容易产生""连续出现"三个半固定短语序列为研究单位,探讨语义韵的三个基本属性:语义韵的短语属性;语义韵的强度测量;语义韵的隐匿性。
关键词 语义韵 半固定短语序列 隐匿性 强度 态度
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部