期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
基于高斯分布的簇间距离计算方法 被引量:10
1
作者 季铎 王智超 +1 位作者 蔡东风 张桂平 《中文信息学报》 CSCD 北大核心 2008年第3期50-55,共6页
凝聚的层次聚类算法是一种性能优越的聚类算法,该算法通过不断合并距离相近的簇最终将数据集合划分为用户指定的若干个类别。在聚类的过程中簇间距离计算的准确性是影响算法性能的重要因素。本文提出一种新的基于高斯分布的簇间距离的... 凝聚的层次聚类算法是一种性能优越的聚类算法,该算法通过不断合并距离相近的簇最终将数据集合划分为用户指定的若干个类别。在聚类的过程中簇间距离计算的准确性是影响算法性能的重要因素。本文提出一种新的基于高斯分布的簇间距离的计算方法,该方法通过簇自身的大小、密度分布等因素改进算法的计算准确性,在不同文本集合上与现有的簇间距离计算方法进行了对比实验,实验结果表明该方法有效地改进了层次聚类算法的性能。 展开更多
关键词 计算机应用 中文信息处理 层次聚类 簇间距离计算 文本聚类
下载PDF
潜在语义索引中特征优化技术的研究 被引量:7
2
作者 季铎 郑伟 蔡东风 《中文信息学报》 CSCD 北大核心 2009年第2期69-76,共8页
潜在语义索引被广泛应用于信息检索、文本分类、自动问答等领域中。潜在语义索引是一种降维方法,它把共现特征映射到同一维空间上,而非共现特征映射到不同的空间上。在潜在语义索引的语义空间中,共现特征通过文档内部以及文档之间的... 潜在语义索引被广泛应用于信息检索、文本分类、自动问答等领域中。潜在语义索引是一种降维方法,它把共现特征映射到同一维空间上,而非共现特征映射到不同的空间上。在潜在语义索引的语义空间中,共现特征通过文档内部以及文档之间的特征传递关系获得。该文认为这种特征传递关系会引入一些不存在的共现特征,从而降低潜在语义索引的性能,应该对这种特征传递关系进行一些选择,削除不存在的共现特征信息。该文采用文档频率对文档集合进行特征选择,用Complete—Link聚类算法在两个公开语料上进行三个实验,实验结果显示,保留文档频度的10%~15%时,其F1值分别提高了6.5770%,1.9928%和3.3614%。 展开更多
关键词 计算机应用 中文信息处理 潜在语义索引 共现特征 奇异值分解 特征选择
下载PDF
交互式机器翻译中译文查询行为的预测技术 被引量:4
3
作者 季铎 马斌 叶娜 《计算机应用》 CSCD 北大核心 2015年第4期1009-1012,共4页
以交互式机器翻译(IMT)为研究背景,针对用户在翻译过程中调用双语查词而导致的鼠标-键盘频繁切换的问题,提出了一种面向翻译查词行为的预测模型。该模型将查词行为转化为当前翻译条件下的译文选择问题,利用对齐模型、翻译模型和语言模... 以交互式机器翻译(IMT)为研究背景,针对用户在翻译过程中调用双语查词而导致的鼠标-键盘频繁切换的问题,提出了一种面向翻译查词行为的预测模型。该模型将查词行为转化为当前翻译条件下的译文选择问题,利用对齐模型、翻译模型和语言模型实现了高准确率的查词行为预测。在人工双语对齐语料的测试中,该方法预测准确率约为64.99%,特别对占有比例较高的名词预测正确率可达71.43%,能有效减少人工翻译中的重复性和机械性操作,改善了用户使用交互翻译系统的翻译体验,从而提高翻译效率。 展开更多
关键词 机器翻译 交互式翻译 翻译行为 预测模型
下载PDF
基于类别信息优化的潜在语义分析分类技术 被引量:5
4
作者 季铎 毕臣 蔡东风 《中国科学技术大学学报》 CAS CSCD 北大核心 2015年第4期314-320,共7页
潜在语义索引作为一种公认有效的矩阵降维技术,在关键词检索、文本分类等多种基于统计的机器文本学习任务中被广泛应用.基于专业文献的文本分类任务,结合严格分类体系下同类与不同类文本的特点,以专利文献分类为例,提出了一种基于类别... 潜在语义索引作为一种公认有效的矩阵降维技术,在关键词检索、文本分类等多种基于统计的机器文本学习任务中被广泛应用.基于专业文献的文本分类任务,结合严格分类体系下同类与不同类文本的特点,以专利文献分类为例,提出了一种基于类别信息优化的潜在语义分析分类技术.该方法根据分类文本各类别的特征信息,将原始文档分解为多种伪文档,强化不同分类的专属特征出现频率,进而优化构建潜在语义空间,提升模型分类性能.实验结果证明,专利文本分类任务结合该方法时,可以有效地提高分类的准确性. 展开更多
关键词 潜在语义分析 特征共现 文本分类
下载PDF
基于共享最近邻的专利自动分类技术研究 被引量:6
5
作者 季铎 蔡云雷 +1 位作者 蔡东风 苗雪雷 《沈阳航空工业学院学报》 2010年第4期41-46,共6页
专利文献是一种具有法律效力的科技文献,其内容覆盖了几乎所有的技术领域的最新、最活跃的创新技术信息,因此对专利文献的分类和组织在专利管理中有着重要意义。本文通过对现有的专利自动分类技术的归纳和分析,融合BM25相似度计算方法... 专利文献是一种具有法律效力的科技文献,其内容覆盖了几乎所有的技术领域的最新、最活跃的创新技术信息,因此对专利文献的分类和组织在专利管理中有着重要意义。本文通过对现有的专利自动分类技术的归纳和分析,融合BM25相似度计算方法和样本邻域信息提出一种基于共享最近邻的KNN专利自动分类方法。本方法的有效性在NTCIR-8专利分类评测任务中得到充分验证。 展开更多
关键词 专利分类 BM25 KNN 共享最近邻
下载PDF
基于子空间优化的潜在语义标引技术研究 被引量:1
6
作者 季铎 常利伟 蔡东风 《沈阳航空航天大学学报》 2013年第2期60-65,共6页
潜在语义标引是一项无监督的特征抽取技术,并且其有效性在信息检索等多个研究领域得到证明。由于该技术的特征抽取效果完全依赖于数据的特征分布,因此对数据的优化能够较好改善技术的有效性。提出了一种潜在语义标引的优化技术-增广空... 潜在语义标引是一项无监督的特征抽取技术,并且其有效性在信息检索等多个研究领域得到证明。由于该技术的特征抽取效果完全依赖于数据的特征分布,因此对数据的优化能够较好改善技术的有效性。提出了一种潜在语义标引的优化技术-增广空间模型,同时提出了基于文档长度和特征DF分布状态的数据分割策略,该策略的提出能够使子空间尽可能继承原始空间的良好结构。实验证明合理的子空间分割策略,不但保证了正确率,同时极大地缩短了算法的运行时间。最后,采用增广空间模型,将不同子空间进行融合,并获得较好的性能。在分类实验中分类正确率已达85.92%。 展开更多
关键词 潜在语义标引 文档频度(DF)值分布分割 增广空间模型 系统融合
下载PDF
知识聚类技术
7
作者 季铎 苗雪雷 《沈阳航空工业学院学报》 2008年第5期58-62,共5页
随着知识管理的不断深入,知识库所包容的知识内容越来越多,如何建立知识的分类体系,构建合理的知识关联显得尤为重要。知识聚类是一种无指导的自动分类方法,在知识的组织和管理中发挥着重要作用,不仅可以有效地节约知识库优化的人力资源... 随着知识管理的不断深入,知识库所包容的知识内容越来越多,如何建立知识的分类体系,构建合理的知识关联显得尤为重要。知识聚类是一种无指导的自动分类方法,在知识的组织和管理中发挥着重要作用,不仅可以有效地节约知识库优化的人力资源,而且还可以更有效的反映知识间的本质联系。为此主要探讨了知识聚类的基本过程,包括知识特征的选取、相似度的计算和聚类算法,最后介绍了作者的一些相关工作。 展开更多
关键词 知识管理 知识聚类 知识库
下载PDF
基于反馈学习自适应的中文话题追踪 被引量:17
8
作者 王会珍 朱靖波 +2 位作者 季铎 叶娜 张斌 《中文信息学报》 CSCD 北大核心 2006年第3期92-98,共7页
在话题追踪研究领域,由于话题是动态发展的,在追踪过程中会产生话题漂移的问题。针对该问题以及现有自适应方法的不足,本文提出基于反馈学习的自适应方法。该方法采用增量学习的思想,对话题追踪任务中的自适应学习机制提出了新的算法。... 在话题追踪研究领域,由于话题是动态发展的,在追踪过程中会产生话题漂移的问题。针对该问题以及现有自适应方法的不足,本文提出基于反馈学习的自适应方法。该方法采用增量学习的思想,对话题追踪任务中的自适应学习机制提出了新的算法。该算法能够解决话题漂移现象,并能够弥补现有自适应方法的不足。该算法中还考虑了话题追踪任务的时序性,将时间信息引入到了算法中。本文实验采用TDT4语料中的中文部分作为测试语料,使用TDT2004的评测方法对基于反馈学习的自适应的中文话题追踪系统进行评价,实验数据表明基于反馈学习的自适应方法能够提高话题追踪的性能。 展开更多
关键词 计算机应用 中文信息处理 话题追踪 基于反馈学习的自适应方法 增量学习
下载PDF
基于联合权重的多文档关键词抽取技术 被引量:15
9
作者 杨洁 季铎 +2 位作者 蔡东风 林晓庆 白宇 《中文信息学报》 CSCD 北大核心 2008年第6期75-79,共5页
该文提出一种多文档关键词抽取方法,该方法提出ATF×PDF(Average Term Frequency×ProportionalDocument Frequency)来计算词语权重,并根据候选关键词之间的语义相似度,采用联合权重方法重新计算候选关键词的权重来抽取关键词... 该文提出一种多文档关键词抽取方法,该方法提出ATF×PDF(Average Term Frequency×ProportionalDocument Frequency)来计算词语权重,并根据候选关键词之间的语义相似度,采用联合权重方法重新计算候选关键词的权重来抽取关键词。该方法综合考虑了词语的频率,词性以及词语之间的语义相似性等信息,实验表明,该方法能有效抽取多个文档的关键词,同基于关键词的聚类标记方法相比,其准确率提高3%,召回率提高7%,F-measure提高4.4%。 展开更多
关键词 计算机应用 中文信息处理 ATF×PDF 联合权重 多文档 语义相似度
下载PDF
基于文本最小相似度的中心选取方法 被引量:3
10
作者 郑伟 季铎 +1 位作者 蔡东风 王爽 《广西师范大学学报(自然科学版)》 CAS 北大核心 2008年第3期198-201,共4页
基于划分的聚类算法是一种局部最优算法。聚类初始中心的选择对该聚类算法的收敛速度和聚类的性能都有很大的影响。初始中心点应该选择来自不同的类并且初始中心点文本之间的相似度应尽量小,为此提出了一种新的基于最小相似度的中心选... 基于划分的聚类算法是一种局部最优算法。聚类初始中心的选择对该聚类算法的收敛速度和聚类的性能都有很大的影响。初始中心点应该选择来自不同的类并且初始中心点文本之间的相似度应尽量小,为此提出了一种新的基于最小相似度的中心选取方法,该方法选择相似度最小的两个样本分别作为初始的两个中心,然后依次选择到已知中心相似度最小的样本作为其他类的中心。实验表明该方法能够选出来自不同类的样本作为聚类的初始中心,同其他初始中心选择方法比较,聚类算法的性能有明显提高。 展开更多
关键词 K—Means 最小相似度 文本聚类
下载PDF
大规模无参考译文质量自动评测技术的研究 被引量:3
11
作者 尹宝生 苗雪雷 +2 位作者 季铎 蔡东风 张桂平 《沈阳航空航天大学学报》 2012年第1期70-74,共5页
传统的译文质量自动评测方法主要针对机器自动翻译结果并通过与参考译文的对比实现译文质量的评估。提出一种大规模无参考译文质量自动评测方法,该方法可以在无参考译文的情况下,从正确性、流畅性和忠实度等方面对人工译文进行质量检查... 传统的译文质量自动评测方法主要针对机器自动翻译结果并通过与参考译文的对比实现译文质量的评估。提出一种大规模无参考译文质量自动评测方法,该方法可以在无参考译文的情况下,从正确性、流畅性和忠实度等方面对人工译文进行质量检查并标注可能的错误点,即利用语言规则实现正确性的判断,利用语言模型实现流畅性的判断,利用词对齐结果和词典信息实现忠实度的判断。基于该方法实现的译文质量辅助检查系统在国家知识产权局百万专利翻译项目中的应用效果表明,使用该系统的测试组较未使用该系统的测试组的平均译文质量和终稿完成效率均有明显提升。 展开更多
关键词 译文质量自动评测 语言模型 错误标注
下载PDF
基于边界距离的多向量文本聚类方法
12
作者 蔡东风 王智超 +1 位作者 季铎 张桂平 《计算机工程与应用》 CSCD 北大核心 2008年第3期198-201,共4页
文本聚类是自然语言处理中的一项重要研究课题,主要应用于信息检索和Web挖掘等领域。其中的关键是文本的表示和聚类算法。在层次聚类的基础上,提出了一种新的基于边界距离的层次聚类算法,该方法通过选择两个类间边缘样本点的距离作为类... 文本聚类是自然语言处理中的一项重要研究课题,主要应用于信息检索和Web挖掘等领域。其中的关键是文本的表示和聚类算法。在层次聚类的基础上,提出了一种新的基于边界距离的层次聚类算法,该方法通过选择两个类间边缘样本点的距离作为类间距离,有效地利用类的边界信息,提高类间距离计算的准确性。综合考虑不同词性特征对文本的贡献,采用多向量模型对文本进行表示。不同文本集上的实验表明,基于边界距离的多向量文本聚类算法取得了较好的性能。 展开更多
关键词 距离计算 文本表示 多向量 文本聚类
下载PDF
规则与统计结合的俄语基本名词短语识别
13
作者 刘颖 季铎 +1 位作者 黄海红 蔡东风 《沈阳航空航天大学学报》 2014年第6期66-72,共7页
针对目前国内鲜有研究且语料资源缺乏的俄语基本名词短语(Base Noun Phrase,Base NP)识别,提出一种规则与统计相结合的方法,其优势是在有限资源的基础上,既能充分利用俄语Base NP在词性构成上的规律特点,通过俄汉词典统计得到最佳词性... 针对目前国内鲜有研究且语料资源缺乏的俄语基本名词短语(Base Noun Phrase,Base NP)识别,提出一种规则与统计相结合的方法,其优势是在有限资源的基础上,既能充分利用俄语Base NP在词性构成上的规律特点,通过俄汉词典统计得到最佳词性搭配模式库进行模式匹配;又无需人工标注统计工具所需的训练语料,仅依靠词典和词性搭配模式库自动构建,节省标注代价。规则与统计的结合,既能在很大程度上召回Base NP,又能使用条件随机场(Conditional Random Fields,CRF)纠正规则标注的歧义和错误,处理规则未能覆盖的情况。实验表明,使用该方法实现的俄语基本名词短语识别效果良好,其F值达到了84.14%。 展开更多
关键词 俄语 基本名词短语 词性搭配模式 CRF
下载PDF
面向单一双语网页的双语资源挖掘方法 被引量:5
14
作者 罗阳 季铎 +1 位作者 张桂平 王莹莹 《中文信息学报》 CSCD 北大核心 2011年第1期110-115,共6页
双语资源是机器翻译和跨语言信息检索等领域的重要资源,但是由于语料库真实性、时效性和语种灵活性等问题,使得现有的双语资源的规模很难满足实际应用的需要。该文提出一种面向单一双语网页的双语资源挖掘方法,该方法重点采用了以频繁... 双语资源是机器翻译和跨语言信息检索等领域的重要资源,但是由于语料库真实性、时效性和语种灵活性等问题,使得现有的双语资源的规模很难满足实际应用的需要。该文提出一种面向单一双语网页的双语资源挖掘方法,该方法重点采用了以频繁序列模式为特征的SVM分类方法,实现了包含双语资源的单一双语网页的筛选与识别,并以此为基础挖掘具有对译的双语资源。实验结果表明,该方法能够有效改进双语资源挖掘的质量。 展开更多
关键词 WEB挖掘 网页分类 双语资源 频繁序列模式 支持向量机
下载PDF
基于SAO的专利结构化相似度计算方法 被引量:7
15
作者 杜玉锋 季铎 +1 位作者 姜利雪 张桂平 《中文信息学报》 CSCD 北大核心 2016年第1期30-35,共6页
该文提出了一种基于subject-action-object(SAO)的专利结构化相似度计算方法。传统的基于关键词的定量分析方法没有考虑专利自身的结构特点,忽略了对专利间内在关系的计算,该文弥补了传统的基于关键词的定量方法的不足。在SAO结构抽取... 该文提出了一种基于subject-action-object(SAO)的专利结构化相似度计算方法。传统的基于关键词的定量分析方法没有考虑专利自身的结构特点,忽略了对专利间内在关系的计算,该文弥补了传统的基于关键词的定量方法的不足。在SAO结构抽取过程中,将最新的实体抽取工具OLLIE引入到专利领域,得到了比传统SAO抽取工具更好的抽取结果。和传统的SAO方法相比,对Action元组进行了大量分析,通过重复大量实验,确定了Action元组的结构特征。最后,通过实验验证,将vector space module(VSM)模型和SAO结构进行融合,得到了比仅仅通过VSM模型进行相似度计算更好的结果。 展开更多
关键词 数据挖掘 专利相似度 Subject-Action-Object(SAO)技术 实体抽取工具 OLLIE
下载PDF
基于动态词对齐的交互式机器翻译 被引量:5
16
作者 马斌 蔡东风 +2 位作者 季铎 叶娜 吴闯 《中文信息学报》 CSCD 北大核心 2017年第4期44-49,共6页
在传统的机器翻译(machine translation,MT)与计算机辅助翻译(computer aided translation,CAT)中,译员与翻译引擎之间的交互受到很大限制,于是产生了交互式机器翻译(interactive machine translation,IMT)技术。但传统的模型只考虑当... 在传统的机器翻译(machine translation,MT)与计算机辅助翻译(computer aided translation,CAT)中,译员与翻译引擎之间的交互受到很大限制,于是产生了交互式机器翻译(interactive machine translation,IMT)技术。但传统的模型只考虑当前源语与部分翻译的目标语的信息,没有将用户交互后的对齐信息加入到之后的预测模型中。该文基于词预测交互式机器翻译的研究思路,将用户交互翻译过程中的鼠标点选行为转化为中间译文的词对齐信息,进而在翻译交互过程中实现了对译文的动态词对齐标注,并在词对齐信息和输入译文的约束下提高了传统词预测的准确性。 展开更多
关键词 交互式机器翻译 词对齐 预测模型
下载PDF
结合短语结构句法的语义角色标注 被引量:3
17
作者 杨凤玲 周俏丽 +1 位作者 蔡东风 季铎 《中文信息学报》 CSCD 北大核心 2018年第6期1-11,共11页
该文提出一种结合短语结构句法的语义角色标注方法。结合短语结构句法对句子进行剪枝、子句抽取处理,然后,对处理过的句子进行语义角色分析并还原。最后,结合短语树对还原后的论元边界进行修正。其中,剪枝包括并列结构、插入语的剪枝,... 该文提出一种结合短语结构句法的语义角色标注方法。结合短语结构句法对句子进行剪枝、子句抽取处理,然后,对处理过的句子进行语义角色分析并还原。最后,结合短语树对还原后的论元边界进行修正。其中,剪枝包括并列结构、插入语的剪枝,子句抽取针对不同形式的子句有不同的处理方式。边界修正主要是针对某些类型论元进行修正。该文分别在CoNLL2004与CoNLL2005评测语料中做了实验,在CoNLL2005Shared Task的test_wsj数据集上F值为88.25%,在CoNLL2004Shared Task的test数据集上F值为85.66%。实验结果表明,引入短语结构句法能有效地提升语义角色的识别效果。 展开更多
关键词 语义角色标注 短语结构句法分析 剪枝 子句抽取 边界修正
下载PDF
基于条件随机场的冠词选择研究 被引量:1
18
作者 宁伟 蔡东风 +2 位作者 张桂平 季铎 苗雪雷 《中文信息学报》 CSCD 北大核心 2008年第6期116-122,共7页
冠词选择需要综合考虑语言知识、语义知识以及世界知识,是汉英翻译中的一个难点。针对传统的基于规则和机器学习的方法,只考虑名词短语前冠词选择的问题,该文将冠词看作一种标记,将该问题形式化地描述为一个序列标注任务,提出一种基于... 冠词选择需要综合考虑语言知识、语义知识以及世界知识,是汉英翻译中的一个难点。针对传统的基于规则和机器学习的方法,只考虑名词短语前冠词选择的问题,该文将冠词看作一种标记,将该问题形式化地描述为一个序列标注任务,提出一种基于条件随机场的解决策略,选取特征时充分利用词、词性等多层次资源,并引入前后词的互信息。实验采用包含91 106个冠词的专利摘要做测试语料,F值达到80%。 展开更多
关键词 人工智能 机器翻译 冠词选择 条件随机场 序列标注 互信息
下载PDF
专利中基于语义角色的术语相似度计算方法 被引量:2
19
作者 姜利雪 季铎 蔡东风 《中文信息学报》 CSCD 北大核心 2016年第4期37-43,共7页
术语是由一个到多个单词按照某种语义角色组合而成的,传统的基于统计的相似度计算方法,将术语看作一个基本单元来进行计算,忽略了术语内部的语义角色,且对于上下文信息不丰富的术语,无法利用统计的方法取得理想的效果;基于语义资源的相... 术语是由一个到多个单词按照某种语义角色组合而成的,传统的基于统计的相似度计算方法,将术语看作一个基本单元来进行计算,忽略了术语内部的语义角色,且对于上下文信息不丰富的术语,无法利用统计的方法取得理想的效果;基于语义资源的相似度计算方法,所涵盖的词语有限,因此不包含在语义资源中的术语便无法计算相似度。针对这些问题,该文针对专利提出了基于语义角色的术语相似度计算方法,该方法弥补了传统方法的不足。该文对术语内部的单词进行语义角色标注,通过共享最近邻方法计算单词的相似度,然后根据不同的语义角色,利用单词相似度来计算术语相似度。实验表明,该方法与传统方法相比,取得了较好的效果。 展开更多
关键词 术语 内部语义角色 共享最近邻 术语相似度 专利文本
下载PDF
基于通用攻击树的脆弱性评估与风险概率研究 被引量:2
20
作者 黄波 秦玉海 +1 位作者 刘旸 季铎 《信息网络安全》 CSCD 北大核心 2022年第10期39-44,共6页
通用攻击树模型以各分支节点为单位对网络安全脆弱性进行层次分析并计算其风险概率。文章采用通用攻击树模型描述网络攻击各节点,分析各节点的脆弱性评估要素,计算各节点的风险概率,并结合实例分析模型在网络攻击事件中的脆弱性评估与... 通用攻击树模型以各分支节点为单位对网络安全脆弱性进行层次分析并计算其风险概率。文章采用通用攻击树模型描述网络攻击各节点,分析各节点的脆弱性评估要素,计算各节点的风险概率,并结合实例分析模型在网络攻击事件中的脆弱性评估与风险概率的应用过程。 展开更多
关键词 攻击树 脆弱性评估 风险评估 风险概率
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部