期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于一种混合语言模型的自动文本分类技术研究 被引量:2
1
作者 郑德权 李生 +1 位作者 赵铁军 于浩 《电子与信息学报》 EI CSCD 北大核心 2007年第3期601-605,共5页
随着Internet以及Intranet中大量可利用信息的爆炸式增长,文本分类成为处理和组织大量文档数据的关键技术之一。该文提出一种本体论和统计方法相结合的混合语言模型,用以解决自动文本分类问题。首先,通过学习不同类别的训练语料,分别获... 随着Internet以及Intranet中大量可利用信息的爆炸式增长,文本分类成为处理和组织大量文档数据的关键技术之一。该文提出一种本体论和统计方法相结合的混合语言模型,用以解决自动文本分类问题。首先,通过学习不同类别的训练语料,分别获得各自类别的语言本体知识库,构造成为不同类别的分类器。对于实际文档,将基于不同类别的语言本体知识库分别获得对文档的评价值,并以所获得的最高评价值决定该文档的类别归属。与Bayes,k-nearest neighbor,support vector machine等3种典型的文本分类器进行了比较。实验结果表明,该文方法的分类性能均胜于其上述3种方法。 展开更多
关键词 文本分类 水体 混合语言模型 上下文 多元信息
下载PDF
基于上下文的查询扩展 被引量:32
2
作者 李卫疆 赵铁军 王宪刚 《计算机研究与发展》 EI CSCD 北大核心 2010年第2期300-304,共5页
针对信息检索查询所使用的词可能与文档集中使用的词不匹配从而影响检索效果这一信息检索关键问题,提出了一种基于上下文的查询扩展方法,该方法根据查询的上下文信息对扩展词进行选择,同时考虑到扩展词与整个查询句以及与查询词的位置关... 针对信息检索查询所使用的词可能与文档集中使用的词不匹配从而影响检索效果这一信息检索关键问题,提出了一种基于上下文的查询扩展方法,该方法根据查询的上下文信息对扩展词进行选择,同时考虑到扩展词与整个查询句以及与查询词的位置关系.在TREC信息检索测试集上进行的实验表明,相对于通常简单的语言模型,方法取得了5%~19%的提高.与流行的基于伪反馈的查询扩展方法相比,提出的方法也具有相当的平均准确率. 展开更多
关键词 信息检索 查询扩展 上下文 语言模型 伪反馈
下载PDF
短语统计机器翻译的句法调序模型 被引量:6
3
作者 薛永增 李生 +1 位作者 赵铁军 杨沐昀 《通信学报》 EI CSCD 北大核心 2008年第1期7-14,共8页
为了处理统计机器翻译中的长距离调序,在基于短语的统计翻译模型的基础上提出了句法调序模型。该模型按照短语切分来分割句法树结构,从而能够避免短语和句法结构的不一致性。在该模型中依据短语对齐和短语内词对齐确定句法树部分结构的... 为了处理统计机器翻译中的长距离调序,在基于短语的统计翻译模型的基础上提出了句法调序模型。该模型按照短语切分来分割句法树结构,从而能够避免短语和句法结构的不一致性。在该模型中依据短语对齐和短语内词对齐确定句法树部分结构的调序顺序,依据各个节点上的调序概率计算子结构的调序概率,作为对数线性模型的特征函数。该模型的实验结果比经典的短语统计翻译模型的BLEU评分有明显提高。结果表明句法调序模型对于基于短语的统计机器翻译是有效的,能够较好地将句法知识和短语翻译过程结合起来。 展开更多
关键词 人工智能 统计翻译模型 句法调序 短语
下载PDF
基于浅层分析的多文档自动文摘技术 被引量:5
4
作者 张姝 赵铁军 +1 位作者 郑德权 杨沐昀 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2007年第7期1102-1105,共4页
提出一种基于浅层分析的多文档文摘方法,该方法分析了单文档的结构信息,多文档的统计信息,并利用改进的MMR方法动态地计算文摘候选句子的加入对文摘的贡献,去除冗余信息,最终按照一定时间顺序输出多文档文摘.对生成的英文文摘进行基于n-... 提出一种基于浅层分析的多文档文摘方法,该方法分析了单文档的结构信息,多文档的统计信息,并利用改进的MMR方法动态地计算文摘候选句子的加入对文摘的贡献,去除冗余信息,最终按照一定时间顺序输出多文档文摘.对生成的英文文摘进行基于n-gram方法的自动评测,结果表明该方法具有较好的信息覆盖率,具有一定的实用价值. 展开更多
关键词 多文档文摘 浅层分析 MMR方法 自动评测
下载PDF
Blog网页分类与识别技术研究 被引量:6
5
作者 郑德权 张迪 +1 位作者 赵铁军 于浩 《通信学报》 EI CSCD 北大核心 2007年第12期156-160,共5页
为了找到一种自动将Blog网页区别于其他Web页面的方法,以便针对Blog语料进行内容抽取、对Blog社区进行规律性研究和发现等,针对Blog网页的特点与规律,提出一种根据网页结构和关键字计算相似度的方法识别Blog网页,初步的实验结果表明,达... 为了找到一种自动将Blog网页区别于其他Web页面的方法,以便针对Blog语料进行内容抽取、对Blog社区进行规律性研究和发现等,针对Blog网页的特点与规律,提出一种根据网页结构和关键字计算相似度的方法识别Blog网页,初步的实验结果表明,达到了较高的识别正确率。 展开更多
关键词 Blog网页识别 相似度计算 网页分类
下载PDF
基于关联度评价的中心词扩展的英文文本语块识别 被引量:3
6
作者 梁颖红 赵铁军 +1 位作者 刘博 杨沐昀 《计算机研究与发展》 EI CSCD 北大核心 2006年第1期153-158,共6页
传统的英文文本语块识别的方法大多是通过设定相应的短语标识符号,最终把语块识别问题转化成词性标注问题来解决·实验表明,这种方法不能充分考虑相邻词性的关系和每种短语的内部组成规律·关联度评价中心词扩展的英文文本语块... 传统的英文文本语块识别的方法大多是通过设定相应的短语标识符号,最终把语块识别问题转化成词性标注问题来解决·实验表明,这种方法不能充分考虑相邻词性的关系和每种短语的内部组成规律·关联度评价中心词扩展的英文文本语块识别方法从另外一个角度来识别英文文本语块·它具有以下特点:①把每个短语看成是以中心词为核心的聚簇,充分考虑每种短语的内部组成规律;②使用关联度和可信度动态地评价得到的结果·通过对公共测试集的测试,此方法识别的速度较快,而且英语语块识别的F测度值达到了94·05%,与目前的最好结果相当· 展开更多
关键词 中心词扩展 关联度 怀疑度 可信度
下载PDF
基于中心驱动模型的宾州中文树库(CTB)句法分析 被引量:3
7
作者 曹海龙 赵铁军 李生 《高技术通讯》 CAS CSCD 北大核心 2007年第1期15-20,共6页
报告了依托宾州中文树库进行句法分析研究的最新进展。以著名的中心驱动模型为基础,首次在宾州中文树库5.0上进行了句法分析实验。同前人的工作相比,这次实验取得了更加成功的结果,极大缩小了中、英文句法分析的差距。在公共的测试... 报告了依托宾州中文树库进行句法分析研究的最新进展。以著名的中心驱动模型为基础,首次在宾州中文树库5.0上进行了句法分析实验。同前人的工作相比,这次实验取得了更加成功的结果,极大缩小了中、英文句法分析的差距。在公共的测试集上对句法分析器的性能进行了评价,对于正确分词和词性标注的句子,句法分析的精确率和召回率分别达到85.89%和85.61%。介绍了模型的实现过程,并进一步分析了模型中决策表和基本名词短语(BNP)两个关键环节在句法分析器中所起到的作用。本文的工作对于研制实用化句法分析系统具有一定参考价值。 展开更多
关键词 中心驱动模型 宾州中文树库 句法分析 结构模式识别
下载PDF
基于词汇化模型的汉语句法分析 被引量:2
8
作者 曹海龙 赵铁军 李生 《电子与信息学报》 EI CSCD 北大核心 2007年第9期2082-2085,共4页
该文以处理大规模真实文本为目标,把句法分析分解为分词/词性标注、短语识别两个部分。首先提出了一个一体化的分词/词性标注方法,该方法在隐马尔科夫模型(HMM)的基础上引入词汇信息,既保留了HMM简单快速的特点,又有效提高了标注精度;... 该文以处理大规模真实文本为目标,把句法分析分解为分词/词性标注、短语识别两个部分。首先提出了一个一体化的分词/词性标注方法,该方法在隐马尔科夫模型(HMM)的基础上引入词汇信息,既保留了HMM简单快速的特点,又有效提高了标注精度;然后应用中心驱动模型进行短语识别,这是一个词汇化的英文句法分析模型,该文将其同分词/词性标注模型结合进行汉语句法分析。在公共的测试集上对句法分析器的性能进行了评价,精确率和召回率分别为77.57%和74.96%,这一结果要明显好于目前唯一可比的工作。 展开更多
关键词 句法分析 隐马尔科夫模型 中心驱动模型 结构模式识别
下载PDF
树-串句法统计翻译模型的正向贪心解码算法
9
作者 薛永增 李生 +1 位作者 赵铁军 杨沐昀 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第5期803-807,共5页
为了有效利用句法信息指导翻译过程,提出了基于贪心搜索的树-串句法统计翻译模型的正向解码算法.该算法以对数线性模型为整体框架,采用翻译模型概率、语言模型概率和空译文罚分作为特征函数.在解码过程中首先生成初始译文,然后通过遍历... 为了有效利用句法信息指导翻译过程,提出了基于贪心搜索的树-串句法统计翻译模型的正向解码算法.该算法以对数线性模型为整体框架,采用翻译模型概率、语言模型概率和空译文罚分作为特征函数.在解码过程中首先生成初始译文,然后通过遍历句法分析树反复迭代来改进译文.重点研究了解码过程中译文片断的打分方法.实验在IW SLT2004数据集上进行并采用BLEU方法评价翻译结果.实验结果表明正向贪心解码算法在翻译质量和速度上均好于现有的反向解码算法,这说明正向贪心解码算法能够更为有效地利用句法结构信息,更适合于树-串统计翻译模型. 展开更多
关键词 统计机器翻译 句法 贪心 解码
下载PDF
树-串句法统计翻译模型的正向解码算法
10
作者 薛永增 李生 +1 位作者 赵铁军 杨沐昀 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2008年第4期54-57,共4页
针对树-串句法统计翻译模型提出了基于对数线性模型的正向解码算法.该解码算法直接对句法树进行操作,能够简单有效地利用句法信息.在对数线性模型中定义了翻译模型概率、语言模型概率和空译文罚分3个特征函数.采用集束搜索算法搜索假设... 针对树-串句法统计翻译模型提出了基于对数线性模型的正向解码算法.该解码算法直接对句法树进行操作,能够简单有效地利用句法信息.在对数线性模型中定义了翻译模型概率、语言模型概率和空译文罚分3个特征函数.采用集束搜索算法搜索假设空间,采用多栈存储假设,依据启发式策略进行假设打分.研究了假设的扩展方法,特别是树节点上不同操作对位置有效性的影响.在IWSLT2004数据集上进行了对比实验.实验结果表明正向解码算法译文的BLEU评分高于传统解码算法,说明正向解码算法能够克服传统解码算法的不足,有效利用句法结构信息,比传统解码算法更适合于树-串统计翻译模型. 展开更多
关键词 自然语言处理 统计机器翻译 句法 正向解码 启发式算法
下载PDF
基于中心语块扩展的短语翻译对自动获取
11
作者 张春祥 李生 赵铁军 《高技术通讯》 CAS CSCD 北大核心 2006年第9期893-898,共6页
提出了一种短语翻译对获取方法.该方法使用完全基于词典的对齐结果来确定源语言短语的译文中心语块,依据完全基于词典和多策略相融合的对齐结果的并集来确定其译文最大边界.从中心语块出发,结合译文最大边界生成源语言短语的所有候选译... 提出了一种短语翻译对获取方法.该方法使用完全基于词典的对齐结果来确定源语言短语的译文中心语块,依据完全基于词典和多策略相融合的对齐结果的并集来确定其译文最大边界.从中心语块出发,结合译文最大边界生成源语言短语的所有候选译文.同时对其进行评价,从中选出对应的目标语译文.实验结果表明:在开放测试中,这种方法的正确率达到了81.53%,性能好于其它方法. 展开更多
关键词 短语翻译对 译文中心语块 译文最大边界
下载PDF
词汇相似度约束的短语抽取 被引量:2
12
作者 梁华参 赵铁军 +1 位作者 薛永增 孙加东 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2010年第5期775-778,共4页
为克服传统的短语抽取方法对词对齐信息的依赖性强,抗噪声能力差这一缺陷,提出基于词汇相似度约束的短语抽取策略;在此框架下,提出了3种基于词汇相似度的约束方法:Dice系数、Phi平方系数和对数似然比.在IWSLT2004语料上进行的实验表明,... 为克服传统的短语抽取方法对词对齐信息的依赖性强,抗噪声能力差这一缺陷,提出基于词汇相似度约束的短语抽取策略;在此框架下,提出了3种基于词汇相似度的约束方法:Dice系数、Phi平方系数和对数似然比.在IWSLT2004语料上进行的实验表明,3种基于词汇相似度的约束方法的翻译系统的BLEU评分均优于传统的翻译系统;其中基于对数似然比方法得到的翻译模型比基线系统Pharaoh的BLEU-4评分提高了15.14%. 展开更多
关键词 机器翻译 统计机器翻译 短语抽取 词汇相似度
下载PDF
基于结构对齐的统计机器翻译模型 被引量:2
13
作者 孙加东 赵铁军 梁华参 《通信学报》 EI CSCD 北大核心 2009年第7期124-129,共6页
从图同构角度给出树同构的性质,并阐述了结构异构与结构对齐之间的关系。在此基础上为建立结构映射关系,以及在翻译过程中融入句法结构信息,提出元结构、互译结构组概念及多层次结构对齐的体系。最后利用对数线性模型,给出基于元结构对... 从图同构角度给出树同构的性质,并阐述了结构异构与结构对齐之间的关系。在此基础上为建立结构映射关系,以及在翻译过程中融入句法结构信息,提出元结构、互译结构组概念及多层次结构对齐的体系。最后利用对数线性模型,给出基于元结构对齐的统计机器翻译模型。模型的翻译过程中,源语言句法树以元结构为单位进行分解,利用互译结构组映射知识,转换为目标语言句法树结构序列,从而根据结构模型信息对目标语实施调序和译文的生成。实验结果表明,本模型在对于翻译知识的泛化能力和翻译结果方面都优于基于短语的统计机器翻译模型。 展开更多
关键词 统计机器翻译 结构异构 结构对齐 对数线性模型
下载PDF
统计机器翻译中双语语料的过滤及词对齐的改进 被引量:3
14
作者 梁华参 赵铁军 《智能计算机与应用》 2013年第4期10-13,17,共5页
词对齐是统计机器翻译系统中最重要的一个环节,统计机器翻译中的翻译模型和调序模型都是在词对齐结果的基础上构造的,词对齐阶段出现的错误,会延续到这些模型中,甚至会因为词对齐的错误而在这些模型中引发更大的错误。为减少词对齐阶段... 词对齐是统计机器翻译系统中最重要的一个环节,统计机器翻译中的翻译模型和调序模型都是在词对齐结果的基础上构造的,词对齐阶段出现的错误,会延续到这些模型中,甚至会因为词对齐的错误而在这些模型中引发更大的错误。为减少词对齐阶段的错误,提出一种基于对齐困惑度的双语语料过滤方法和一种改进的判别式词对齐算法,语料过滤方法可以将词对齐阶段有严重错误的双语句对过滤掉,判别式词对齐算法与传统的自动词对齐算法相比,可以得到对齐错误率更低的词对齐结果。 展开更多
关键词 词对齐 统计机器翻译 对齐困惑度 对齐错误率
下载PDF
Web数据反馈的搭配抽取方法
15
作者 林建方 牛成 +1 位作者 李生 郑德权 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2010年第2期281-285,共5页
为了提高搭配(Collocation)抽取的精度,提出一种新的互联网数据的搭配抽取方法.传统的搭配抽取统计方法都是基于语料库的,常受到语料库规模的影响和制约,而在互联网数据中蕴含着丰富的知识和信息,基于Web的词汇相关性度量方法,充分利用... 为了提高搭配(Collocation)抽取的精度,提出一种新的互联网数据的搭配抽取方法.传统的搭配抽取统计方法都是基于语料库的,常受到语料库规模的影响和制约,而在互联网数据中蕴含着丰富的知识和信息,基于Web的词汇相关性度量方法,充分利用搭配在谷歌中的页面数模拟其对应语料库的词频数,并分别选取共现频率、互信息、卡方检验3种经典统计关联度量方法.实验结果表明召回率、精确率均好于对应的基于语料库的方法,这说明互联网中大量数据应用于自然语言处理各种任务的可行性. 展开更多
关键词 搭配 共现频率 互信息 卡方检验 语料库 WEB
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部