期刊文献+
共找到49篇文章
< 1 2 3 >
每页显示 20 50 100
韩国语名词短语结构特征分析及自动提取 被引量:6
1
作者 安帅飞 毕玉德 《中文信息学报》 CSCD 北大核心 2013年第5期205-210,共6页
名词短语作为语言中一种普遍的语法现象,在自然语言处理领域日益受到了研究人员的关注。目前,对其研究范围主要集中在边界识别、语法分析、语义分析及其分类等方面。该文通过研究分析韩国语书面语名词短语的左右边界规则,从大规模标注... 名词短语作为语言中一种普遍的语法现象,在自然语言处理领域日益受到了研究人员的关注。目前,对其研究范围主要集中在边界识别、语法分析、语义分析及其分类等方面。该文通过研究分析韩国语书面语名词短语的左右边界规则,从大规模标注语料库中自动提取出名词短语。实验结果表明:语料中的高频名词短语相对集中于8个类型之中。根据提取结果分别建立不同类型的名词短语库,为进一步建立双语平行短语语料库打下基础,以便于以后的机器翻译、信息检索等自然语言信息处理工作。 展开更多
关键词 韩国语 名词短语 标注语料库 边界界定 自动提取
下载PDF
基于语言知识的韩国语复句自动识别策略及实现 被引量:2
2
作者 刘洋 毕玉德 李健 《东北亚外语研究》 2017年第2期42-49,共8页
韩国语复句结构复杂,使用比例高,是自然语言处理面临的难题。为解决复句处理中的自动识别问题,本文结合韩国语语法特点和标注特征,分析了4种潜在关系标记,归纳了影响复句识别的130余类连接词尾使用语境,总结了200余条关系标记和5条判别... 韩国语复句结构复杂,使用比例高,是自然语言处理面临的难题。为解决复句处理中的自动识别问题,本文结合韩国语语法特点和标注特征,分析了4种潜在关系标记,归纳了影响复句识别的130余类连接词尾使用语境,总结了200余条关系标记和5条判别规则,依此构建了复句识别特征集,并通过迭代实验分析完善。实验表明,利用特征集的复句自动识别准确率达到了87%以上。 展开更多
关键词 韩国语 复句 特征集 自动识别
下载PDF
计算语义学中的语言子系统理论 被引量:1
3
作者 徐进 易绵竹 《解放军外国语学院学报》 CSSCI 北大核心 2014年第3期84-91,共8页
语言子系统理论是由美籍俄裔计算语言学家拉斯金所创立的一套针对受限语言的计算语义学理论。该理论首次提出语言子系统的概念并定义了语言子系统的区别性特征。基于区别性特征可以将语言子系统进行分类,而微型语言子系统就是其中较为... 语言子系统理论是由美籍俄裔计算语言学家拉斯金所创立的一套针对受限语言的计算语义学理论。该理论首次提出语言子系统的概念并定义了语言子系统的区别性特征。基于区别性特征可以将语言子系统进行分类,而微型语言子系统就是其中较为特殊的一类。语言子系统理论设计了一套适用于任何微型语言子系统的标准算法,该算法基于微型语言子系统的非精细化特征,提出了一个针对句子的通用模式,使计算机可以忽略句子的表层结构,根据词汇的语义属性对句子进行自动分析。可以说,语言子系统理论对于更加全面地研究受限语言的自动处理具有重要的启示和参考作用。 展开更多
关键词 计算语义学 语言子系统 区别性特征
下载PDF
认知无线电网络信道交汇研究综述 被引量:17
4
作者 刘权 赵光胜 +1 位作者 王晓东 周兴铭 《软件学报》 EI CSCD 北大核心 2014年第3期606-630,共25页
认知无线电技术被认为是解决目前频谱资源利用率低下问题最有前景的技术,基于该技术,认知无线电网络采用动态频谱接入方式有效地提高了授权频段的利用率.然而,动态变化的信道可用性极大地增加了认知无线电网络组网的难度.信道交汇旨在... 认知无线电技术被认为是解决目前频谱资源利用率低下问题最有前景的技术,基于该技术,认知无线电网络采用动态频谱接入方式有效地提高了授权频段的利用率.然而,动态变化的信道可用性极大地增加了认知无线电网络组网的难度.信道交汇旨在为用户通信提供公共传输媒介,是实现无线网络组网的基础.介绍了认知无线电网络信道交汇的基本概念和特点,并阐述了信道交汇策略设计面临的挑战以及应考虑的性能指标.提出了信道交汇策略的分类标准和系统模型,根据该分类标准,详细剖析了当前信道交汇策略相关的研究工作.最后,讨论了认知无线电网络信道交汇研究的开放性问题,以期为未来的研究指出可能的方向和重点. 展开更多
关键词 认知无线电 认知无线电网络 动态频谱接入 信道交汇 组网
下载PDF
藏语口语语音语料库的设计与研究 被引量:8
5
作者 黄晓辉 李京 马睿 《计算机工程与应用》 CSCD 北大核心 2018年第13期231-235,共5页
基于对普通语音语料库构建方法的研究与分析,结合自然口语语音识别研究相关需求以及藏语自然口语语音的基本特点,研究设计了适用于藏语语音识别的口语语音语料库建设方案以及相应的标注规范,并据此构建了时长50小时,包含音素、半音节、... 基于对普通语音语料库构建方法的研究与分析,结合自然口语语音识别研究相关需求以及藏语自然口语语音的基本特点,研究设计了适用于藏语语音识别的口语语音语料库建设方案以及相应的标注规范,并据此构建了时长50小时,包含音素、半音节、音节、藏文字以及语句共5层标注信息的藏语拉萨话口语语音语料库。统计结果显示,该语料库在保留口语语音自然属性的同时,对音素、半音节等常用语音建模单元也有均衡的覆盖,为基于藏语口语语音数据的语音识别技术研究提供了可靠的数据支撑。 展开更多
关键词 语音语料库 口语语音 语音识别 标注规范 藏语拉萨话
下载PDF
变化中的语料库语言学 被引量:31
6
作者 卫乃兴 李文中 +2 位作者 濮建忠 梁茂成 何安平 《解放军外国语学院学报》 CSSCI 北大核心 2014年第1期1-9,159,共9页
本文是第二届中国语料库语言学大会专家论坛发言的节选,围绕语料库语言学的变与不变这一主题展开。变是必然的客观存在:学科队伍快速增长、研究涉入几乎所有的语言学探索领地以及相关社会科学领域、方法愈益多样和迥异。不变的应是位于... 本文是第二届中国语料库语言学大会专家论坛发言的节选,围绕语料库语言学的变与不变这一主题展开。变是必然的客观存在:学科队伍快速增长、研究涉入几乎所有的语言学探索领地以及相关社会科学领域、方法愈益多样和迥异。不变的应是位于底层的某些核心理念和原则:旨在意义探索、立足文本证据、发现新的事实和型式,等等。本文简论了语料库语言学发展过程中出现的"学科论"和"方法论"两种立场的争执以及各自面临的问题;二者的相辅相成关系以及强大工具的作用;"相信文本"原则的要义及其启示;超越核心议题"搭配研究"之外的必要内容拓展。文章还专门讨论了语料库数据与成果在外语教学应用中的现状、问题与前景。 展开更多
关键词 学科 方法论 文本 拓展 教学加工
下载PDF
使用关键词扩展的新闻文本自动摘要方法 被引量:14
7
作者 李峰 黄金柱 +1 位作者 李舟军 杨伟铭 《计算机科学与探索》 CSCD 北大核心 2016年第3期372-380,共9页
提出了使用关键词扩展的新闻文本自动摘要方法。该方法从大规模的语料中提取与输入文档相近主题的文本组成背景语料,并基于背景语料进行关键词的扩展,强化关键词对文摘句的指示作用,从而提高新闻文本摘要抽取质量。研究和实验表明,该方... 提出了使用关键词扩展的新闻文本自动摘要方法。该方法从大规模的语料中提取与输入文档相近主题的文本组成背景语料,并基于背景语料进行关键词的扩展,强化关键词对文摘句的指示作用,从而提高新闻文本摘要抽取质量。研究和实验表明,该方法在Rouge-1,Rouge-2评测中取得了优于基于关键词、基于TextRank和基于Manifold Ranking方法的结果。在研究中组织制定了100篇新闻文本的4份中文新闻文本标准评价集,研制了基于关键词扩展的中文新闻文本自动摘要系统,开发了面向中文的基于ROUGE原理的新闻文本摘要结果自动评测系统,初步实现了从理论到实践的转化。 展开更多
关键词 扩展 相近文本 自动摘要 图算法 系统实现
下载PDF
结构化集成学习垃圾邮件过滤 被引量:13
8
作者 刘伍颖 王挺 《计算机研究与发展》 EI CSCD 北大核心 2012年第3期628-635,共8页
为了解决垃圾邮件过滤算法低计算复杂度与高分类准确率之间的矛盾,在多域学习框架下提出一种结构化集成学习思想,它根据文档结构组合多个基分类器的结果以追求更高分类性能.采用邮件文档的字符串特征生成多个轻量基分类器,并采用字符串... 为了解决垃圾邮件过滤算法低计算复杂度与高分类准确率之间的矛盾,在多域学习框架下提出一种结构化集成学习思想,它根据文档结构组合多个基分类器的结果以追求更高分类性能.采用邮件文档的字符串特征生成多个轻量基分类器,并采用字符串-频率索引存储标注数据,使得每次更新和查询的时间开销是常数量级.根据邮件文档的多域结构特性,提出历史域分类器效力线性组合权和当前域文档分类能力线性组合权.综合考虑历史域分类器效力和当前域文档分类能力,还提出一种能够提高整体分类准确率的综合线性组合权.在TREC立即全反馈垃圾邮件过滤任务上的实验结果表明:基于综合线性组合权的结构化集成学习方法能够在较短的时间(47.24min)内完成过滤任务,整体性能1-ROCA达到参加TREC2007评测的最优过滤器性能(0.005 5). 展开更多
关键词 垃圾邮件过滤 结构化集成学习 多域结构 线性组合权 轻量基分类器 TREC垃圾邮件任务
下载PDF
面向智能搜索的动态知识网络建模 被引量:4
9
作者 刘剑 许洪波 +1 位作者 贾岩涛 程学旗 《电信科学》 北大核心 2014年第10期64-70,共7页
随着互联网数据的爆炸式增长和网民获取信息需求的不断增强,传统的搜索方式在移动搜索领域已经难以满足用户的需求,迫切需要将搜索方式从基于词层面提高到基于语义层面,实现基于语义理解的智能搜索。面向开放的互联网数据资源,提出了&qu... 随着互联网数据的爆炸式增长和网民获取信息需求的不断增强,传统的搜索方式在移动搜索领域已经难以满足用户的需求,迫切需要将搜索方式从基于词层面提高到基于语义层面,实现基于语义理解的智能搜索。面向开放的互联网数据资源,提出了"动态知识网络+计算算子"的智能搜索模式。在此基础上,详细阐述了动态知识网络的理论基础、结构模式、系统模型及其特点,并且给出了基于动态知识网络支撑智能搜索的基本结构框架,从而对面向语义理解的智能搜索提供理论和模型支撑。最后,对未来研究过程中面临的主要问题和挑战进行了展望。 展开更多
关键词 智能搜索 知识网络 超图 语义理解
下载PDF
基于语料库的轻动词结构汉英翻译研究——以“进行”类结构为例 被引量:6
10
作者 王慧兰 张克亮 《解放军外国语学院学报》 CSSCI 北大核心 2014年第2期62-68,144,共8页
汉语多动词句是自然语言理解与处理的难点之一,"轻动词+……+V"结构为汉语多动词结构的一种。论文以"进行"类结构为例,研究轻动词结构的汉英机器翻译问题:利用汉英双语平行语料库对与轻动词结构对译的英语结构进行... 汉语多动词句是自然语言理解与处理的难点之一,"轻动词+……+V"结构为汉语多动词结构的一种。论文以"进行"类结构为例,研究轻动词结构的汉英机器翻译问题:利用汉英双语平行语料库对与轻动词结构对译的英语结构进行分类,并利用语言信息处理技术对各类对译结构的分布进行统计分析。在此基础上在概念层次网络(HNC)理论框架下分析制约对译英语结构选择的3个语言学因素,并尝试制定面向HNC汉英机器翻译引擎的汉英句类句式转换规则。 展开更多
关键词 轻动词结构 平行语料库 机器翻译 概念层次网络理论
下载PDF
语料库驱动的翻译研究:意义单位、翻译单位和对应单位 被引量:27
11
作者 濮建忠 《解放军外国语学院学报》 CSSCI 北大核心 2014年第1期53-63,159-160,共11页
在语料库驱动研究的基础上,本文着重探讨意义单位、翻译单位和对应单位之间的关系。研究表明,确定一个词或组合是否是合理的翻译单位,要根据平行语料库中的对应情况而定。翻译单位最本质的特征是单义,只有具备了单义性,该单位方可翻译... 在语料库驱动研究的基础上,本文着重探讨意义单位、翻译单位和对应单位之间的关系。研究表明,确定一个词或组合是否是合理的翻译单位,要根据平行语料库中的对应情况而定。翻译单位最本质的特征是单义,只有具备了单义性,该单位方可翻译。意义单位的概念虽然是在单语视角下提出来的,但它对双语视角下的翻译对应研究同样具有重要的指导意义,有助于把握在意核基础上所构建的扩展意义单位的内部结构及整个单位的语用功能,从而了解更高层面的翻译对应。 展开更多
关键词 平行语料库 可比语料库 意义单位 翻译单位 对应单位
下载PDF
三次旋转对称Bent函数的构造 被引量:2
12
作者 高光普 程庆丰 王磊 《密码学报》 CSCD 2015年第4期372-380,共9页
近年来,旋转对称布尔函数引起了密码学家的广泛关注.这类布尔函数可以极大地提高密码算法的运算效率,节省资源开销,因此在密码学与编码理论中有着广泛的应用.关于旋转对称函数密码学性质的研究成为该领域的热点问题.Bent函数是一类Wals... 近年来,旋转对称布尔函数引起了密码学家的广泛关注.这类布尔函数可以极大地提高密码算法的运算效率,节省资源开销,因此在密码学与编码理论中有着广泛的应用.关于旋转对称函数密码学性质的研究成为该领域的热点问题.Bent函数是一类Walsh谱均匀的偶变元布尔函数,这类函数不仅具有最高的非线性度,而且具有最优的扩散性.因此Bent函数可以很好地抵抗线性攻击和差分攻击.这些性质使得Bent函数在分组密码S盒的构造、Bent序列的构造、编码理论Kerdock码的构造、组合设计中差集的构造等领域中都有重要的应用.许多密码算法的非线性部件都是通过修改Bent函数得到.然而公开领域中构造旋转对称Bent函数的方法还不多.本文研究了旋转对称Bent函数的构造,给出了一类三次旋转对称布尔函数为Bent函数的充要条件.利用该条件可以非常方便地判断一类给定的旋转对称函数是否为Bent函数.而且本文构造的旋转对称Bent函数的代数表达式非常简单,因此这类函数在密码算法的设计中具有较强的优势. 展开更多
关键词 旋转对称 布尔函数 BENT函数 置换
下载PDF
大数据环境下的动态知识网络模型及构建方法 被引量:1
13
作者 刘剑 许洪波 +2 位作者 唐慧丰 贾岩涛 程学旗 《计算机研究与发展》 EI CSCD 北大核心 2014年第S2期86-93,共8页
针对语义知识库构建方式和语义表达模型研究中的不足,在已有工作的基础上,提出一种新的语义知识模型:动态知识网络,在详细阐述模型组成要素的基础上,进一步研究了该模型的知识表示方法.在语义知识模型的指导下,面向开放的网络数据资源,... 针对语义知识库构建方式和语义表达模型研究中的不足,在已有工作的基础上,提出一种新的语义知识模型:动态知识网络,在详细阐述模型组成要素的基础上,进一步研究了该模型的知识表示方法.在语义知识模型的指导下,面向开放的网络数据资源,研究了动态知识网络的半自动构建方法,并且以360百科和新闻网页数据为基础进行了实验验证,结果表明所提模型和方法能够有效支持动态知识网络的构建. 展开更多
关键词 大数据 知识网络 超图 网络百科
下载PDF
基于维基百科的领域实体发现研究 被引量:5
14
作者 邢富坤 《计算机应用研究》 CSCD 北大核心 2015年第2期347-350,367,共5页
提出一种基于维基百科的领域实体发现方法,该方法将构成领域实体的典型字或词作为种子元素,利用少量种子元素作为实体发现的初始知识,有效地克服了传统方法在获取种子词条时过分依赖领域专家的局限,同时还利用维基百科词条中的分类信息... 提出一种基于维基百科的领域实体发现方法,该方法将构成领域实体的典型字或词作为种子元素,利用少量种子元素作为实体发现的初始知识,有效地克服了传统方法在获取种子词条时过分依赖领域专家的局限,同时还利用维基百科词条中的分类信息,通过计算维基百科类与领域类间的隶属度实现领域实体的有效扩充。人工抽样对实体发现结果进行检验,平均准确率达到80%左右,同时还将构建出的领域实体知识应用到文本分类中,结果显示,当训练集具有一定规模时,以实体为特征的分类模型的准确率较以词为特征分类模型的准确率有显著提高,说明实体知识在实际应用中的有效性。提出的方法具有较好的领域独立性和语种独立性,可较为便捷地移植到其他语种与领域。 展开更多
关键词 领域实体 维基百科 隶属度 自动发现
下载PDF
UC安全有限码长诱骗态协议研究 被引量:1
15
作者 李宏欣 高明 +2 位作者 马智 马传贵 王伟 《密码学报》 2014年第6期589-601,共13页
量子密钥分发是量子密码研究中最为实用的领域,基于量子的物理属性保证通信的无条件安全.针对实际系统中光源等设备的不理想,同时为了抵抗光子数分离攻击和提高安全密钥率,人们提出了诱骗态思想和相关的实用量子密钥分发方案.经过近十... 量子密钥分发是量子密码研究中最为实用的领域,基于量子的物理属性保证通信的无条件安全.针对实际系统中光源等设备的不理想,同时为了抵抗光子数分离攻击和提高安全密钥率,人们提出了诱骗态思想和相关的实用量子密钥分发方案.经过近十年的发展,其安全性分析由无限码长转为更加实用的有限码长条件.本文首先介绍诱骗态量子密钥分发方案安全性分析的相关研究进展,在一些高效安全方案的基础上提出一种通用可组合安全下的诱骗态方案,方案采用弱诱骗态和真空诱骗态模式,主要特点在于利用信号态、诱骗态均成码和偏选基方法提高安全密钥生成率;同时针对与最终码率相关的五个参数,即信号态真空脉冲、信号态单光子脉冲、弱诱骗态真空脉冲、弱诱骗态单光子脉冲的计数率下界和单光子相位误码率的上界,采用大数定律进行有限码长条件下的统计涨落分析,设置相关的安全参数及条件使得方案满足UC安全.在相同安全标准下对比三类典型的方案,我们提出的方案更加高效、安全和实用,具有现实可行性. 展开更多
关键词 量子密码 量子密钥分配 诱骗态 有限码长 通用可组合安全
下载PDF
基于新闻语料库的朝韩词汇对比研究 被引量:5
16
作者 毕玉德 赵岩 《东北亚外语研究》 2016年第3期35-41,共7页
随着计算机技术的飞速发展,语料库在语言学相关研究领域发挥着越来越重要的作用。本文选取朝鲜《劳动新闻》和韩国《中央日报》的新闻语料分别建立朝鲜语和韩国语新闻语料库,对语料库中的高频语节进行统计分析,从语节中实词的词形、词... 随着计算机技术的飞速发展,语料库在语言学相关研究领域发挥着越来越重要的作用。本文选取朝鲜《劳动新闻》和韩国《中央日报》的新闻语料分别建立朝鲜语和韩国语新闻语料库,对语料库中的高频语节进行统计分析,从语节中实词的词形、词源、词义等三个方面对朝韩新闻词汇的使用特点和规律进行描写和阐释。对朝韩新闻语料中的词汇进行对比研究,有助于全面把握现阶段朝韩词汇的实际使用状况并预测词汇未来的发展趋势。 展开更多
关键词 新闻语料库 朝鲜语 韩国语 词汇对比
下载PDF
二分图顶点配对模型下的英汉句子对齐研究 被引量:3
17
作者 严灿勋 《中文信息学报》 CSCD 北大核心 2016年第5期153-159,共7页
英汉平行文本句子对齐可以视为一个二分图顶点配对模型。利用完全基于英汉词典的双语句子相关性评价函数,能够对二分图的"顶点对"进行加权。该文提出的顶点配对句子对齐方法首先获取二分图全局最大权重顶点配对作为临时锚点;... 英汉平行文本句子对齐可以视为一个二分图顶点配对模型。利用完全基于英汉词典的双语句子相关性评价函数,能够对二分图的"顶点对"进行加权。该文提出的顶点配对句子对齐方法首先获取二分图全局最大权重顶点配对作为临时锚点;在此基础上,根据句子先后顺序,局部最大权重顶点配对和英汉句长比的值域范围,纠正临时锚点中的错误,补充锚点序列未覆盖的合法顶点对,同时划分句对,实现句子对齐处理。在对比实验中该句子对齐方法优于Champollion句子对齐系统。从实验对比结果和实践效果看,该句子对齐方法可行。 展开更多
关键词 句子对齐 双语词典 平行文本 二分图 顶点配对 顶点对
下载PDF
VDEA词典的构建及其在情感倾向性分析中的应用 被引量:1
18
作者 黄金柱 李峰 张克亮 《计算机科学》 CSCD 北大核心 2016年第S1期430-434,共5页
配价语法主要以谓词为中心研究句子的深层语义结构,重点描述动词和形容词与搭配成分间的依存关系,是解决语义分析处理这个颈瓶问题的利器。以英语形容词为主体,构建了包含相关配价信息的形容词配价词典,词典包含3170个英语形容词的配价... 配价语法主要以谓词为中心研究句子的深层语义结构,重点描述动词和形容词与搭配成分间的依存关系,是解决语义分析处理这个颈瓶问题的利器。以英语形容词为主体,构建了包含相关配价信息的形容词配价词典,词典包含3170个英语形容词的配价关系、格关系、释义、褒贬义、语义分类、语义特征和相关例句等信息。此外,基于该词典设计了词汇情感倾向性分析模型,取得了很好的实验结果。 展开更多
关键词 配价语法 形容词 知识库 情感倾向性
下载PDF
中文分词中未登录词分布规律及处理方法研究 被引量:2
19
作者 邢富坤 《解放军外国语学院学报》 CSSCI 北大核心 2013年第5期27-32,共6页
本文以较大规模汉语语料库为基础,对中文分词中的未登录词分布规律进行考察,提出了词增长代价、语料效率等评价指标,借此来定量考察语料规模与未登录词之间的内在关系。调查结果显示,随着语料规模的不断扩大,未登录词的覆盖率也随之增大... 本文以较大规模汉语语料库为基础,对中文分词中的未登录词分布规律进行考察,提出了词增长代价、语料效率等评价指标,借此来定量考察语料规模与未登录词之间的内在关系。调查结果显示,随着语料规模的不断扩大,未登录词的覆盖率也随之增大,但同时词增长代价也越来越大,而新增未登录词的词例数占新增总词例数的比例始终保持在一个较低水平,造成语料效率较低。基于该调查结果,提出针对"伪未登录词"使用定向收集语料的方法来扩充训练集,从而在不过分扩大语料规模的前提下,更有针对性地为未登录词识别提供语言知识,提高分词的准确率和领域适应性。本文在SIGHAN组织的第二届中文分词评测语料上进行实验,结果显示该方法能够有效提高分词准确率。 展开更多
关键词 中文分词 机器学习 未登录词 伪未登录词
下载PDF
邢富坤谈语料库语言学与计算机技术 被引量:2
20
作者 邢富坤 《语料库语言学》 2015年第2期26-35,115,共11页
1.您觉得哪些计算机技术与语料库语言学研究密切相关?计算机技术可以分为3个层面来看待,分别是(1)工具;(2)方法;(3)思想。不同层面的计算机技术都与语料库语言学研究有联系。1)工具层面。计算机是用于表示、存储和处理数据的工具。语料... 1.您觉得哪些计算机技术与语料库语言学研究密切相关?计算机技术可以分为3个层面来看待,分别是(1)工具;(2)方法;(3)思想。不同层面的计算机技术都与语料库语言学研究有联系。1)工具层面。计算机是用于表示、存储和处理数据的工具。语料库语言学研究的基本素材是机器可读的语言数据,因此在工具层面,语料库语言学必然与计算机技术之间有着密切联系。首先是数据编码技术。 展开更多
关键词 研究 工具 层面 语言学 语料库 计算机技术
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部