期刊文献+
共找到42篇文章
< 1 2 3 >
每页显示 20 50 100
基于HowNet的航空术语语义知识库的构建 被引量:9
1
作者 张桂平 刁丽娜 王裴岩 《中文信息学报》 CSCD 北大核心 2014年第5期92-101,共10页
语义知识库的构建是自然语言处理基础性工作,对于语言信息的处理有重要的作用,但面向特定领域的语义知识库的构建还是一个难点。该文在分析了航空术语的基本特点的基础上,根据HowNet和KDML描述语言构建了面向航空领域的术语语义知识库,... 语义知识库的构建是自然语言处理基础性工作,对于语言信息的处理有重要的作用,但面向特定领域的语义知识库的构建还是一个难点。该文在分析了航空术语的基本特点的基础上,根据HowNet和KDML描述语言构建了面向航空领域的术语语义知识库,并在构建航空术语知识库的过程中总结形成了构建航空术语知识库的基础规则、动态角色/特征的选择规则。在文章最后对所构建的术语进行了相似度的计算,取得了较好的结果。 展开更多
关键词 航空术语 HOWNET 语义知识库 KDML
下载PDF
面向语义检索的中医理论知识库构建方法的研究 被引量:6
2
作者 王莹莹 白宇 +2 位作者 丁长林 戴俭宇 蔡东风 《中文信息学报》 CSCD 北大核心 2012年第5期72-78,共7页
知识资源的建设在语言信息处理中具有重要作用,中医基础理论知识库建设是进行中医文献处理和语义计算的基础工作。该文在分析中医基础理论术语特点的基础上,借鉴HowNet的构建思想,提出一种基于KDML的中医基础理论知识库构建方法。包括... 知识资源的建设在语言信息处理中具有重要作用,中医基础理论知识库建设是进行中医文献处理和语义计算的基础工作。该文在分析中医基础理论术语特点的基础上,借鉴HowNet的构建思想,提出一种基于KDML的中医基础理论知识库构建方法。包括知识库构建过程中的义原选择方法及关系获取方法。 展开更多
关键词 知识库 KDML 义原选择 关系获取
下载PDF
开放式信息抽取研究进展 被引量:28
3
作者 杨博 蔡东风 杨华 《中文信息学报》 CSCD 北大核心 2014年第4期1-11,36,共12页
从大规模非结构化文本中自动地抽取有用信息是自然语言处理和人工智能的一个重要目标。开放式信息抽取在高效挖掘网络文本信息方面已成为必然趋势,按关系参数可分为二元、多元实体关系抽取,该文按此路线对典型方法的现状和存在问题进行... 从大规模非结构化文本中自动地抽取有用信息是自然语言处理和人工智能的一个重要目标。开放式信息抽取在高效挖掘网络文本信息方面已成为必然趋势,按关系参数可分为二元、多元实体关系抽取,该文按此路线对典型方法的现状和存在问题进行分析与总结。目前多数开放式实体关系抽取仍是浅层语义处理,对隐含关系抽取很少涉及。采用马尔科夫逻辑、本体结构推理等联合推理方法可综合多种特征,有效推断细微完整信息,为深入理解文本打开新局面。 展开更多
关键词 开放式信息抽取 联合推理 文本理解
下载PDF
融合WordNet的无监督语义分析研究 被引量:2
4
作者 杨博 蔡东风 +1 位作者 赵奇猛 杨华 《小型微型计算机系统》 CSCD 北大核心 2014年第2期368-373,共6页
应用机器学习方法处理机器阅读的相关任务是人工智能的长远目标,但通常需要大量的人工监督操作.研究一种无监督学习在机器阅读的一个主要任务-语义分析中的应用,这种无监督方法得益于统计关系学习统一框架-Markov逻辑网.鉴于该方法通过... 应用机器学习方法处理机器阅读的相关任务是人工智能的长远目标,但通常需要大量的人工监督操作.研究一种无监督学习在机器阅读的一个主要任务-语义分析中的应用,这种无监督方法得益于统计关系学习统一框架-Markov逻辑网.鉴于该方法通过依存句法信息无法解析语义分析中普遍存在的反义词、词形变化等语言现象,该文融合WordNet进行改进,促进概念的抽取及合并,并将机器阅读的主要目标-问答作为评价手段,结果表明这种WordNet词典与无监督机器学习相结合的方法可更好地进行语义分析,并且问答正确率可提高至90.6%. 展开更多
关键词 MARKOV逻辑网 无监督学习 开放式信息抽取 WORDNET
下载PDF
基于统计检验的核函数度量方法研究 被引量:2
5
作者 王裴岩 蔡东风 《计算机科学》 CSCD 北大核心 2015年第4期199-205,共7页
将统计检验方法应用于核函数度量。以核函数、规范化核函数、中心化核函数和核距离作为样本在特征空间中的几何关系度量,使用t检验和F检验等7种统计检验方法检验特征空间中同类样本间几何关系度量值与异类样本间几何关系度量值的分布差... 将统计检验方法应用于核函数度量。以核函数、规范化核函数、中心化核函数和核距离作为样本在特征空间中的几何关系度量,使用t检验和F检验等7种统计检验方法检验特征空间中同类样本间几何关系度量值与异类样本间几何关系度量值的分布差异,以此反映特征空间中同类样本间内聚性与异类样本间分离性间的差异。在11个UCI数据集上进行的核函数选择实验表明,基于统计检验的核度量方法达到或超过了核校准与特征空间核度量标准等方法的效果,适用于核函数度量;并且发现两类数据分布差异主要体现在了方差差异上。此外,对核函数的处理(规范化或中心化)会改变特征空间,使得度量结果失真。 展开更多
关键词 核函数 核函数度量 统计检验
下载PDF
基于共享最近邻的专利自动分类技术研究 被引量:6
6
作者 季铎 蔡云雷 +1 位作者 蔡东风 苗雪雷 《沈阳航空工业学院学报》 2010年第4期41-46,共6页
专利文献是一种具有法律效力的科技文献,其内容覆盖了几乎所有的技术领域的最新、最活跃的创新技术信息,因此对专利文献的分类和组织在专利管理中有着重要意义。本文通过对现有的专利自动分类技术的归纳和分析,融合BM25相似度计算方法... 专利文献是一种具有法律效力的科技文献,其内容覆盖了几乎所有的技术领域的最新、最活跃的创新技术信息,因此对专利文献的分类和组织在专利管理中有着重要意义。本文通过对现有的专利自动分类技术的归纳和分析,融合BM25相似度计算方法和样本邻域信息提出一种基于共享最近邻的KNN专利自动分类方法。本方法的有效性在NTCIR-8专利分类评测任务中得到充分验证。 展开更多
关键词 专利分类 BM25 KNN 共享最近邻
下载PDF
知识管理在军工企业中的应用 被引量:3
7
作者 尹宝生 廉鹏 +1 位作者 陈建军 张桂平 《沈阳航空工业学院学报》 2010年第4期47-49,共3页
针对我国军工制造业企业信息化水平并结合未来发展需要,提出基于军工企业信息管理系统构建企业知识管理平台的设计方案。包括知识库总体结构的设计、以及知识积累和共享应用工具包的设计等。目的在于通过对工程数据信息和设计经验知识... 针对我国军工制造业企业信息化水平并结合未来发展需要,提出基于军工企业信息管理系统构建企业知识管理平台的设计方案。包括知识库总体结构的设计、以及知识积累和共享应用工具包的设计等。目的在于通过对工程数据信息和设计经验知识的有效融合,完善设计流程,优化设计方案,加快设计速度,提高设计质量,节约设计成本。 展开更多
关键词 军工企业 知识管理 系统集成
下载PDF
基于子空间优化的潜在语义标引技术研究 被引量:1
8
作者 季铎 常利伟 蔡东风 《沈阳航空航天大学学报》 2013年第2期60-65,共6页
潜在语义标引是一项无监督的特征抽取技术,并且其有效性在信息检索等多个研究领域得到证明。由于该技术的特征抽取效果完全依赖于数据的特征分布,因此对数据的优化能够较好改善技术的有效性。提出了一种潜在语义标引的优化技术-增广空... 潜在语义标引是一项无监督的特征抽取技术,并且其有效性在信息检索等多个研究领域得到证明。由于该技术的特征抽取效果完全依赖于数据的特征分布,因此对数据的优化能够较好改善技术的有效性。提出了一种潜在语义标引的优化技术-增广空间模型,同时提出了基于文档长度和特征DF分布状态的数据分割策略,该策略的提出能够使子空间尽可能继承原始空间的良好结构。实验证明合理的子空间分割策略,不但保证了正确率,同时极大地缩短了算法的运行时间。最后,采用增广空间模型,将不同子空间进行融合,并获得较好的性能。在分类实验中分类正确率已达85.92%。 展开更多
关键词 潜在语义标引 文档频度(DF)值分布分割 增广空间模型 系统融合
下载PDF
协同翻译环境下辅助译文生成技术研究 被引量:1
9
作者 韩亚冬 叶娜 蔡东风 《沈阳航空航天大学学报》 2011年第5期59-62,共4页
在协同翻译过程中,辅助译文的质量是影响协同翻译效率的重要因素,而现有辅助译文生成方法并没有考虑用户对辅助译文的个性化需求。由此,提出了通过建立用户模型来提高辅助译文质量的研究思路,根据翻译知识库与用户知识库的相对熵的大小... 在协同翻译过程中,辅助译文的质量是影响协同翻译效率的重要因素,而现有辅助译文生成方法并没有考虑用户对辅助译文的个性化需求。由此,提出了通过建立用户模型来提高辅助译文质量的研究思路,根据翻译知识库与用户知识库的相对熵的大小来决策为用户提供哪个模板。实验表明:在使用用户模型后,协同翻译的效率有了明显的提高。 展开更多
关键词 协同翻译 用户模型 辅助译文生成 相对熵
下载PDF
面向中文专利SAO结构抽取的文本特征比较研究 被引量:16
10
作者 饶齐 王裴岩 张桂平 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第2期349-356,共8页
针对中文专利文本中SAO结构实体关系抽取问题,使用支持向量机的机器学习方法进行关系抽取实验,分别对基本词法信息、实体间距离信息、最短路径闭包树句法信息以及词向量信息等特征的有效性进行验证分析。实验结果表明,基本的词法信息能... 针对中文专利文本中SAO结构实体关系抽取问题,使用支持向量机的机器学习方法进行关系抽取实验,分别对基本词法信息、实体间距离信息、最短路径闭包树句法信息以及词向量信息等特征的有效性进行验证分析。实验结果表明,基本的词法信息能够明显提高关系抽取性能,而句法信息没有显著提高关系抽取效果。此外,也验证了词向量在SAO结构关系抽取中的可行性。 展开更多
关键词 SAO结构 关系抽取 特征有效性 词向量
下载PDF
面向中文专利的开放式实体关系抽取研究 被引量:3
11
作者 赵奇猛 王裴岩 +1 位作者 冯好国 蔡东风 《计算机工程与应用》 CSCD 北大核心 2015年第1期125-129,171,共6页
针对传统实体关系抽取需要预先指定关系类型和制定抽取规则等无法胜任大规模文本的情况,开放式信息抽取(Open Information Extraction,OIE)在以英语为代表的西方语言中取得了重大进展,但对于汉语的研究却显得不足。为此,研究了在组块层... 针对传统实体关系抽取需要预先指定关系类型和制定抽取规则等无法胜任大规模文本的情况,开放式信息抽取(Open Information Extraction,OIE)在以英语为代表的西方语言中取得了重大进展,但对于汉语的研究却显得不足。为此,研究了在组块层次标注基础上应用马尔可夫逻辑网分层次进行中文专利开放式实体关系抽取的方法。实验表明:以组块为出发点降低了对句子理解的难度,外层和内层组块可以统一处理,减少了工程代价;而且在相同特征条件下与支持向量机相比,基于马尔可夫逻辑网的关系抽取效果更理想,外层和内层识别结果的F值分别可达到77.92%和69.20%。 展开更多
关键词 中文专利依存树库 开放式实体关系抽取 MARKOV逻辑网
下载PDF
基于实体-属性框架的领域知识库构建 被引量:2
12
作者 王迎春 蔡东风 叶娜 《沈阳航空航天大学学报》 2011年第2期69-73,共5页
知识库是进行各种自然语言处理任务不可或缺的一项基础性的资源。而目前知识库的构建还是一个难点问题,尤其是以自动方式构建复杂的领域性知识库系统的研究还处于探索阶段。本文提出一种基于实体-属性框架的领域知识库自动构建方法,致... 知识库是进行各种自然语言处理任务不可或缺的一项基础性的资源。而目前知识库的构建还是一个难点问题,尤其是以自动方式构建复杂的领域性知识库系统的研究还处于探索阶段。本文提出一种基于实体-属性框架的领域知识库自动构建方法,致力于利用航空百科辞典的信息自动获取术语之间的上下位关系及部分实体属性关系,其中,基于多策略的上下位关系术语对提取融合了后缀子串匹配、模板自动构建、实质提取三种方法,分别考虑了辞典中反映上下位关系的不同信息。其中模板自动构建方法,在无需人工标注语料的情况下获得了比较好的效果。属性提取部分采用了以人工标注语料为前提的模板匹配方法。实验表明,本文系统对术语上下位关系抽取的F值达到76.01%,对各个属性的抽取也达到了75%以上。 展开更多
关键词 领域知识库 实体-属性框架 上下位关系 属性 航空百科辞典
下载PDF
基于神经网络的个性化信息检索模型研究 被引量:2
13
作者 胡旷达 《现代计算机(中旬刊)》 2016年第4期18-23,共6页
针对目前企业内部对个性化信息检索需求日益迫切的问题,提出一种基于神经网络的个性化信息检索模型。通过用户行为,神经网络模型可以自动学习用户的兴趣特征,建立用户检索词与用户兴趣之间的联系,得到个性化检索结果。最后,通过计算用... 针对目前企业内部对个性化信息检索需求日益迫切的问题,提出一种基于神经网络的个性化信息检索模型。通过用户行为,神经网络模型可以自动学习用户的兴趣特征,建立用户检索词与用户兴趣之间的联系,得到个性化检索结果。最后,通过计算用户兴趣与文档的相似度,并与BM25模型打分值进行线性加和,重新排序文档。实验结果表明,该方法从效果上优于其他同类个性化检索方法。 展开更多
关键词 个性化信息检索 神经网络 用户行为
下载PDF
从计算机辅助翻译到协同翻译 被引量:23
14
作者 叶娜 张桂平 +1 位作者 韩亚冬 蔡东风 《中文信息学报》 CSCD 北大核心 2012年第6期1-10,共10页
由于机器翻译系统的译文质量仍难以达到实用化要求,计算机辅助翻译技术逐渐成为研究热点,并且取得了很好的实际效果,大大提高了翻译产业的生产率。随着辅助翻译规模的不断扩大,多名在空间上分散的用户被组织起来共同完成一项翻译任务已... 由于机器翻译系统的译文质量仍难以达到实用化要求,计算机辅助翻译技术逐渐成为研究热点,并且取得了很好的实际效果,大大提高了翻译产业的生产率。随着辅助翻译规模的不断扩大,多名在空间上分散的用户被组织起来共同完成一项翻译任务已成为普遍现象,这种新的翻译模式称为协同翻译。该文对计算机辅助翻译和协同翻译技术进行综述,首先从辅助译文生成、译后编辑和系统反馈学习等方面介绍了计算机辅助翻译技术的常用方法和研究进展,随后讨论了计算机辅助翻译与协同翻译之间的联系和区别,分析了协同翻译技术所面临的主要问题,并介绍了现有研究的解决方法。最后对协同翻译的未来发展方向进行了展望。 展开更多
关键词 计算机辅助翻译 协同翻译 用户 辅助译文 译后编辑
下载PDF
基于用户行为模型的计算机辅助翻译方法 被引量:3
15
作者 叶娜 张桂平 +1 位作者 韩亚冬 蔡东风 《中文信息学报》 CSCD 北大核心 2011年第3期98-103,共6页
与全自动机器翻译相比,计算机辅助翻译技术更具实用性,已成为机器翻译领域的一个研究热点。传统的辅助翻译过程中,用户只能被动接受系统提供的辅助译文,并进行翻译后编辑操作。该文提出一种基于用户行为模型的辅助翻译方法,通过实时记... 与全自动机器翻译相比,计算机辅助翻译技术更具实用性,已成为机器翻译领域的一个研究热点。传统的辅助翻译过程中,用户只能被动接受系统提供的辅助译文,并进行翻译后编辑操作。该文提出一种基于用户行为模型的辅助翻译方法,通过实时记录用户的后编辑过程,分析出用户的翻译决策,建立用户行为模型,使得翻译系统能够动态获取和共享用户的翻译知识,从而提高辅助译文的质量。实验结果表明,在同一篇文档前30%文本的后编辑过程中建立的用户行为模型,使余下70%文本的辅助译文的BLEU值平均提高了4.9%,用户模型中翻译知识的准确率达到94.1%。 展开更多
关键词 辅助翻译 后编辑 用户行为模型 翻译知识 BLEU
下载PDF
交互式机器翻译中译文查询行为的预测技术 被引量:4
16
作者 季铎 马斌 叶娜 《计算机应用》 CSCD 北大核心 2015年第4期1009-1012,共4页
以交互式机器翻译(IMT)为研究背景,针对用户在翻译过程中调用双语查词而导致的鼠标-键盘频繁切换的问题,提出了一种面向翻译查词行为的预测模型。该模型将查词行为转化为当前翻译条件下的译文选择问题,利用对齐模型、翻译模型和语言模... 以交互式机器翻译(IMT)为研究背景,针对用户在翻译过程中调用双语查词而导致的鼠标-键盘频繁切换的问题,提出了一种面向翻译查词行为的预测模型。该模型将查词行为转化为当前翻译条件下的译文选择问题,利用对齐模型、翻译模型和语言模型实现了高准确率的查词行为预测。在人工双语对齐语料的测试中,该方法预测准确率约为64.99%,特别对占有比例较高的名词预测正确率可达71.43%,能有效减少人工翻译中的重复性和机械性操作,改善了用户使用交互翻译系统的翻译体验,从而提高翻译效率。 展开更多
关键词 机器翻译 交互式翻译 翻译行为 预测模型
下载PDF
面向中文专利文献的有标记并列结构的统计分析 被引量:4
17
作者 石翠 周俏丽 张桂平 《中文信息学报》 CSCD 北大核心 2013年第5期43-50,59,共9页
该文在中文专利语料的基础上,统计分析了中文专利文献中有标记并列结构的内部特征和外部特征。内部特征主要考察了中文专利文献中有标记并列结构的并列标记、并列结构内部分析和词性分布等。外部特征主要统计了可能的边界特征词,并分析... 该文在中文专利语料的基础上,统计分析了中文专利文献中有标记并列结构的内部特征和外部特征。内部特征主要考察了中文专利文献中有标记并列结构的并列标记、并列结构内部分析和词性分布等。外部特征主要统计了可能的边界特征词,并分析了有标记并列结构在中文专利文献中出现的外部环境。 展开更多
关键词 有标记并列结构 中文专利文献 内部特征 外部特征
下载PDF
基于有监督学习的医古文叙述性术语语义标注 被引量:4
18
作者 丁长林 白宇 蔡东风 《中文信息学报》 CSCD 北大核心 2015年第2期49-57,共9页
对自由文本形式的中医古籍文献(医古文)进行标注,是对其进行深入分析的前提,语义标注技术是实现该目的的方法之一。该文将中医古籍文献中包含的术语分为名称性术语以及叙述性术语。在分析叙述性术语特点的基础上,将对其语义标注转化为... 对自由文本形式的中医古籍文献(医古文)进行标注,是对其进行深入分析的前提,语义标注技术是实现该目的的方法之一。该文将中医古籍文献中包含的术语分为名称性术语以及叙述性术语。在分析叙述性术语特点的基础上,将对其语义标注转化为基于有监督学习的短句序列标注或分类问题,并提出了名词性术语规约操作以及基于知网的替换操作两种预处理方法。最后该文通过实验对比了三种学习模型及四种特征选择算法,并证明了问题转化的可行性以及两种预处理方法的有效性。 展开更多
关键词 语义标注 叙述性术语 有监督学习 中医古籍文献
下载PDF
一种基于核距离的核函数度量方法 被引量:4
19
作者 王裴岩 蔡东风 《计算机科学》 CSCD 北大核心 2014年第2期72-75,共4页
核方法的效果依赖于所使用的核,因此核的选择和其参数的确定是至关重要的。从特定的数据中学习核需要核度量方法评价核的质量。核排列度量核与学习任务的一致性,因为它具有高效性和有效性,是目前应用最为广泛的核度量方法。然而,有研究... 核方法的效果依赖于所使用的核,因此核的选择和其参数的确定是至关重要的。从特定的数据中学习核需要核度量方法评价核的质量。核排列度量核与学习任务的一致性,因为它具有高效性和有效性,是目前应用最为广泛的核度量方法。然而,有研究表明,核排列仅是最优核函数的充分非必要条件。其主要原因是核排列在特征空间中不具有线性变换不变性。提出了一种新的核度量方法用于核选择,称其为核距离排列。该方法能够克服核排列的局限性,并且同样具有高效性和简单的形式。对比实验表明,该方法能够有效地对核进行度量。 展开更多
关键词 核方法 核度量 核距离
下载PDF
基于马尔科夫逻辑网的中文专利最大名词短语识别 被引量:2
20
作者 蔡东风 赵奇猛 +1 位作者 饶齐 王裴岩 《中文信息学报》 CSCD 北大核心 2016年第4期21-28,共8页
缺少标注语料和难以识别动词和名词类是阻碍中文专利最大名词短语识别的主要问题。针对上述问题,该文提出了一种基于马尔科夫逻辑网的中文最大名词短语识别方法。该方法避免对开放类的名词短语的识别,而将主要精力放在了相对封闭的分隔... 缺少标注语料和难以识别动词和名词类是阻碍中文专利最大名词短语识别的主要问题。针对上述问题,该文提出了一种基于马尔科夫逻辑网的中文最大名词短语识别方法。该方法避免对开放类的名词短语的识别,而将主要精力放在了相对封闭的分隔符的识别上,利用句子自身特征、领域迁移特征以及双语对齐特征来识别最大名词短语的边界。结果说明,双语信息较好地促进了动词、介词、连词等MNP边界的识别。MNP识别的F值可达83.27%。 展开更多
关键词 最大名词短语 马尔科夫逻辑网 中文专利
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部