期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
18
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
因特网上的写作风格鉴别
被引量:
8
1
作者
金奕江
孙晓明
马少平
《广西师范大学学报(自然科学版)》
CAS
2003年第1期62-66,共5页
根据写作风格来鉴别作者这一问题在国外很早就已经开始研究了,并有很多成功应用.而针对中文的研究却非常少.首次提出了使用文章中虚词频率分布作为特征来研究这一问题,采用了两种不同的规格化方法来消除文章长度的差异,并采用了多种不...
根据写作风格来鉴别作者这一问题在国外很早就已经开始研究了,并有很多成功应用.而针对中文的研究却非常少.首次提出了使用文章中虚词频率分布作为特征来研究这一问题,采用了两种不同的规格化方法来消除文章长度的差异,并采用了多种不同的分类方法.实验结果表明采用虚词频率作为特征是行之有效的,即使采用最简单的模板匹配的识别方法都能够取得很好的识别效果,采用SVM等方法可以进一步提高识别率.此外可以在一定范围内减少使用的虚词的数量,而不损失识别效果.
展开更多
关键词
因特网
写作风格
文本分类
虚词频率
作者鉴别
特征选择
身份识别
下载PDF
职称材料
汉字的线性分类实验
被引量:
1
2
作者
金奕江
马少平
《中文信息学报》
CSCD
北大核心
2000年第2期55-59,共5页
本文通过实验研究了在汉字识别中应用线性分类器的可能性 ,考察了汉字之间的线性可分性。实验使用了两种主要的线性分类器 :Fisher线性判别和感知器。实验检验每一对汉字的线性可分性。实验结果表明 ,汉字之间的线性分类性是相当好的。...
本文通过实验研究了在汉字识别中应用线性分类器的可能性 ,考察了汉字之间的线性可分性。实验使用了两种主要的线性分类器 :Fisher线性判别和感知器。实验检验每一对汉字的线性可分性。实验结果表明 ,汉字之间的线性分类性是相当好的。尤其是Fisher线性判别 ,不能成功线性分类的汉字仅占百万分之 4.2 5。这显示了在汉字识别中应用线性分类器是有着巨大的潜力的。同时 ,线性分类实验结果还可用来检验所选取特征的好坏 ,有利于客观的评价特征。
展开更多
关键词
汉字识别
线性分类器
模式识别
下载PDF
职称材料
一种基于文档相似度的检索结果重排序方法
被引量:
9
3
作者
周博
岑荣伟
+3 位作者
刘奕群
张敏
金奕江
马少平
《中文信息学报》
CSCD
北大核心
2010年第3期19-23,36,共6页
对相关反馈问题的研究已有近30年的历史,相关反馈也被证明可以大程度稳定地提升检索系统的性能。当前网络环境下相关反馈的应用以及用户提供反馈信息的方式已经发生了明显的变化,因此相关反馈研究又一次引起了研究界的注意。该文提出了...
对相关反馈问题的研究已有近30年的历史,相关反馈也被证明可以大程度稳定地提升检索系统的性能。当前网络环境下相关反馈的应用以及用户提供反馈信息的方式已经发生了明显的变化,因此相关反馈研究又一次引起了研究界的注意。该文提出了一种基于文档相似度的搜索结果重排序方法,该方法同时利用了反馈信息中的相关文档与不相关文档。在大规模网络信息检索标准实验数据上的实验结果表明:该方法不仅可以稳定地提高系统的检索性能,并且相较于经典的查询扩展方法有着明显的优势。
展开更多
关键词
计算机应用
中文信息处理
相关反馈
文档重排序
信息检索
下载PDF
职称材料
基于统计与神经元方法相结合的手写体相似字识别
被引量:
12
4
作者
张德喜
马少平
+1 位作者
朱绍文
金奕江
《中文信息学报》
CSCD
北大核心
1999年第3期33-39,共7页
本文提出了一种基于统计识别方法与人工神经元网络相结合的手写体相似汉字识别方法。该方法充分利用了统计识别方法和神经元网络识别方法的优点,不仅显著地提高了相似字的识别率,而且有效地提高了系统的整体性能。对相似字的识别率由...
本文提出了一种基于统计识别方法与人工神经元网络相结合的手写体相似汉字识别方法。该方法充分利用了统计识别方法和神经元网络识别方法的优点,不仅显著地提高了相似字的识别率,而且有效地提高了系统的整体性能。对相似字的识别率由79.02%提高到84.32%,提高了五个百分点,整体识别率提高了1.3个百分点。
展开更多
关键词
神经元
汉字识别
相似字识别
手写体
统计识别
下载PDF
职称材料
利用上下文相关信息的汉字文本识别
被引量:
7
5
作者
夏莹
常新功
+2 位作者
马少平
朱小燕
金奕江
《中文信息学报》
CSCD
1996年第1期23-30,共8页
为了改善汉字文本识别率,本文提出了一种基于语料库统计概率的后处理方法,该方法利用上下文相关信息,超过词汇。对于汉字文本识别,把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现...
为了改善汉字文本识别率,本文提出了一种基于语料库统计概率的后处理方法,该方法利用上下文相关信息,超过词汇。对于汉字文本识别,把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现概率,采用动态规划方法,获得了令人满意的效果。
展开更多
关键词
汉字识别
语料库语言学
汉字文本识别
下载PDF
职称材料
锚文本检索有效性分析
被引量:
3
6
作者
周博
刘奕群
+2 位作者
张敏
金奕江
马少平
《软件学报》
EI
CSCD
北大核心
2011年第8期1714-1724,共11页
锚文本对网络信息检索性能的提升作用已经得到验证,并被广泛地应用于商用网络搜索引擎.然而,锚文本制作的不可控性导致其中蕴含大量与目标网页不相关或具有作弊倾向的无用信息.另外,对于需要衡量检索结果服务质量的事务类查询,原始锚文...
锚文本对网络信息检索性能的提升作用已经得到验证,并被广泛地应用于商用网络搜索引擎.然而,锚文本制作的不可控性导致其中蕴含大量与目标网页不相关或具有作弊倾向的无用信息.另外,对于需要衡量检索结果服务质量的事务类查询,原始锚文本推荐的目标网页也往往与真实的用户体验不一致.为了解决上述问题,基于大规模真实用户的互联网浏览行为日志展开研究.首先提出了锚文本检索有效性的评估框架,然后分析了用户网络浏览点击行为与锚文本检索有效性之间的联系,挖掘了用户网络浏览点击行为中有助于筛选高质量锚文本的特征.基于这些特征,提出了两种超链接文档生成方法.实验结果表明,基于用户网络浏览点击行为特征筛选出的锚文本,与原始锚文本相比,能够明显地提升网络检索的性能.
展开更多
关键词
用户网络浏览行为
锚文本
网络信息检索
下载PDF
职称材料
基于硬件抽象技术的全协议栈网络路由器设计
被引量:
2
7
作者
全成斌
陈嘉杰
+3 位作者
郑宁汉
李山山
陈永强
金奕江
《实验技术与管理》
CAS
北大核心
2022年第4期111-115,共5页
计算机网络是计算机大类专业的核心课,是培养学生系统设计能力的关键课程。为了让学生更直观地理解网络不同层次间的关系,并得到系统的训练,提高系统设计能力,提出采用硬件抽象技术的实验框架(避免直接采用套接字调用)和以协议栈构造路...
计算机网络是计算机大类专业的核心课,是培养学生系统设计能力的关键课程。为了让学生更直观地理解网络不同层次间的关系,并得到系统的训练,提高系统设计能力,提出采用硬件抽象技术的实验框架(避免直接采用套接字调用)和以协议栈构造路由器系统的实验课程设计。实验简化了硬件接口设计方法、采用在线评测方式以及先分后总的模块化设计方案,构造出一套路由器系统。通过该实验,训练了学生综合实验能力,加深了对计算机网络原理的系统认识。
展开更多
关键词
计算机网络
实验
系统设计能力
硬件抽象
路由器设计
下载PDF
职称材料
使用基于SVM的否定概率和法的图像标注
被引量:
2
8
作者
路晶
金奕江
+1 位作者
马少平
茹立云
《智能系统学报》
2006年第1期62-66,共5页
在基于内容的图像检索中,建立图像底层视觉特征与高层语义的联系是个难题.对此提出了一种为图像提供语义标签的标注方法.先建立小规模图像库为训练集,库中每个图像标有单一的语义标签,再利用其底层特征,以SVM为子分类器,“否定概率和”...
在基于内容的图像检索中,建立图像底层视觉特征与高层语义的联系是个难题.对此提出了一种为图像提供语义标签的标注方法.先建立小规模图像库为训练集,库中每个图像标有单一的语义标签,再利用其底层特征,以SVM为子分类器,“否定概率和”法为合成方法构建基于成对耦合方式(PWC)的多类分类器,并对未标注的图像进行分类,结果以N维标注向量表示,实验表明,与一对多方式(OPC)的多类分类器及使用概率和法的PWC相比,“否定概率和”法性能更好.
展开更多
关键词
语义标签
否定概率和法
成对耦合
标注向量
下载PDF
职称材料
汉字文本识别的自动后处理
被引量:
1
9
作者
夏莹
马少平
+3 位作者
孙茂松
朱小燕
金奕江
常新功
《语言文字应用》
CSSCI
北大核心
1997年第2期101-107,共7页
在汉字识别率不是很高时,可利用上下文相关信息(词汇及字字相邻出现概率),把一个汉语句子或短语作为一个处理单元,利用词匹配信息修改汉字识别的可信度,再用动态规划方法找到最佳结果。这种基于统计概率和词汇匹配相结合的方法,...
在汉字识别率不是很高时,可利用上下文相关信息(词汇及字字相邻出现概率),把一个汉语句子或短语作为一个处理单元,利用词匹配信息修改汉字识别的可信度,再用动态规划方法找到最佳结果。这种基于统计概率和词汇匹配相结合的方法,对脱机手写汉字识别文本进行自动后处理。
展开更多
关键词
汉字识别后处理
文本识别
出现概率
会议论文集
手写汉字识别
后处理方法
正确率
词匹配
计算机
基于统计
下载PDF
职称材料
计算机语言学方法在中文文字识别后处理中的应用
被引量:
1
10
作者
夏莹
马少平
+3 位作者
孙茂松
朱小燕
金奕江
李国华
《中文信息》
1996年第2期50-51,共2页
近年来,脱机手写汉字识别[OCR]研究取得了很大进步,识别率在提高,前十选识别可达95%以上,但第选识别率仍不够高。OCR 的研究者们已看到单纯的单字(Isolatedcharacter)识别的方法对整个文本识别是不够的。
关键词
汉字识别
文字识别
汉字处理
计算机语言学
下载PDF
职称材料
Web信息检索结果融合中的按位加权插入合并算法
11
作者
张敏
金奕江
马少平
《中文信息学报》
CSCD
北大核心
2004年第2期8-14,共7页
在Internet中 ,由于海量数据的多样性 ,在分布式数据集合上进行有效的检索就成为Web信息检索的一种必要方式。由此 ,引出多个检索结果的融合问题。对不同检索结果的相似度评分可能完全不可比的情况 ,本文给出一种新的解决方案 :按位加...
在Internet中 ,由于海量数据的多样性 ,在分布式数据集合上进行有效的检索就成为Web信息检索的一种必要方式。由此 ,引出多个检索结果的融合问题。对不同检索结果的相似度评分可能完全不可比的情况 ,本文给出一种新的解决方案 :按位加权插入合并算法。在 18GB的大规模web标准测试集上的实验证明 ,该算法始终能够提高综合检索性能 ,且分布数据集检索结果越好 ,则合并后性能改善越多。其中系统平均精度提高接近 10 %,突破了传统方法对分布数据集结果合并的综合效果总是低于使用集中数据集检索的性能局限。
展开更多
关键词
计算机应用
中文信息处理
WEB信息检索
数据集选择
结果融合
排序
下载PDF
职称材料
长尾查询搜索性能评价方法的研究
12
作者
霍帅
张敏
+3 位作者
刘奕群
马少平
金奕江
茹立云
《中文信息学报》
CSCD
北大核心
2014年第3期75-80,98,共7页
各大搜索引擎公司都致力于准确而快速的帮助用户找到信息目标,搜索性能评价变得非常重要,而目前尚无对长尾查询性能评价的方法。该文通过分析长尾查询结果数据,提取了长尾查询三种类型特征,并对特征进行叠加分析。进一步地针对数据集的...
各大搜索引擎公司都致力于准确而快速的帮助用户找到信息目标,搜索性能评价变得非常重要,而目前尚无对长尾查询性能评价的方法。该文通过分析长尾查询结果数据,提取了长尾查询三种类型特征,并对特征进行叠加分析。进一步地针对数据集的严重不平衡问题提出两种数据平衡方法。最后提出并改进了长尾查询评价方法。在真实搜索引擎结果数据集上的实验验证了所提出的评价方法取得一定的评价效果,其中对不相关文档的评价取得较高的准确率。
展开更多
关键词
长尾查询
搜索引擎性能评价
自动评价方法
下载PDF
职称材料
基于多Agent系统的脱机手写体汉字识别
13
作者
马少平
金奕江
《智能系统学报》
2009年第5期398-405,共8页
由于脱机手写体汉字的多样性和随意性,识别起来具有很大的难度,依靠单一的特征很难实现高准确率的识别.引入多Agent的概念,将多种知识统一于多Agent系统之中,给出了一个面向脱机手写体汉字识别的多Agent类市场模型,提出了一种模糊综合...
由于脱机手写体汉字的多样性和随意性,识别起来具有很大的难度,依靠单一的特征很难实现高准确率的识别.引入多Agent的概念,将多种知识统一于多Agent系统之中,给出了一个面向脱机手写体汉字识别的多Agent类市场模型,提出了一种模糊综合方法和辩论协商规则,实现了一个基于多Agent系统的脱机手写体汉字识别系统.初步测试结果显示出系统的有效性.
展开更多
关键词
汉字识别
多AGENT系统
类市场模型
模糊综合
辩论协商规则
下载PDF
职称材料
手写体汉字在特征空间的可视化分析
被引量:
1
14
作者
陈津颖
金奕江
马少平
《中文信息学报》
CSCD
北大核心
2000年第5期42-48,共7页
手写体汉字特征一般在几百维以上 ,在这样的高维空间中 ,汉字样本是如何分布的 ?本文从可视化的角度对这一问题进行了探讨。论文首先给出了所选用的汉字特征的定义 ,然后对一些具有代表性的汉字实例 ,从K L变换法、线性投影法和非线性...
手写体汉字特征一般在几百维以上 ,在这样的高维空间中 ,汉字样本是如何分布的 ?本文从可视化的角度对这一问题进行了探讨。论文首先给出了所选用的汉字特征的定义 ,然后对一些具有代表性的汉字实例 ,从K L变换法、线性投影法和非线性投影法三个方面 ,对汉字在特征空间的分布问题进行了可视化分析 ,结果表明 ,可视化分析可以帮助人们了解汉字在特征空间的分布情况 ,对改进识别器的性能具有指导意义。
展开更多
关键词
汉字识别
可视化分析
特征空间
手写体汉字
下载PDF
职称材料
面向用户行为的页面质量评估
15
作者
王晓光
刘奕群
+3 位作者
金奕江
岑荣伟
马少平
茹立云
《计算机科学与探索》
CSCD
2010年第7期589-598,共10页
页面质量评估在搜索引擎系统中具有极其关键的作用,传统的方法是基于页面链接关系进行页面质量评估。但由于当前Web环境的复杂性,传统方法已经难以适应当前的Web环境,近年来,用户行为被用来弥补完全依赖链接关系方法的不足。用户行为可...
页面质量评估在搜索引擎系统中具有极其关键的作用,传统的方法是基于页面链接关系进行页面质量评估。但由于当前Web环境的复杂性,传统方法已经难以适应当前的Web环境,近年来,用户行为被用来弥补完全依赖链接关系方法的不足。用户行为可以分为两类:浏览行为和搜索行为。利用浏览行为构造了用户浏览图;提出了一种利用用户搜索行为的新方法,此方法构造了用户搜索图;合并用户浏览图和用户搜索图得到用户浏览搜索图。实验表明用户浏览搜索图的性能比较接近用户浏览图的性能,并超过全网的性能,同时用户浏览搜索图能够评价的页面数要大于用户浏览图。
展开更多
关键词
页面质量评估
用户行为
用户浏览图
用户搜索图
用户浏览搜索图
下载PDF
职称材料
清华THUIR2005年863信息检索评测
16
作者
赵乐
岑荣伟
+4 位作者
王灿辉
齐伟
金奕江
张敏
马少平
《中文信息学报》
CSCD
北大核心
2006年第B03期91-95,共5页
在2005年863信息检索评测中,我们主要尝试了采用入链接描述文字。以及我们在去年已使用的词对检索方法。由于只能提交一组自动方法检索的结果。我们的手工查询以及自动处理查询两组结果,都采用了比较稳定的词对检索参数。以及有比较...
在2005年863信息检索评测中,我们主要尝试了采用入链接描述文字。以及我们在去年已使用的词对检索方法。由于只能提交一组自动方法检索的结果。我们的手工查询以及自动处理查询两组结果,都采用了比较稳定的词对检索参数。以及有比较一致的良好效果的八链接描述方法。就我们在自己构建的训练集以及提交的两组结果的实际效果的评测来看,我们的方法对用户查询词的精确性有比较高的要求,并且词对和入链接描述文字都能提高检索的效果。
展开更多
关键词
计算机应用
中文信息检索
词对检索
入链接描述文字
检索评测
下载PDF
职称材料
基于统计的汉字识别文本自动后处理方法
被引量:
14
17
作者
夏莹
马少平
+2 位作者
常新功
朱小燕
金奕江
《模式识别与人工智能》
EI
CSCD
北大核心
1996年第2期172-178,共7页
为了改善汉字文本的识别率,本文提出了一种基于语料库统计概率的汉字识别文本自动后处理方法.对该方法利用的上下文相关的信息.数据量很大的字字同现概率统计方法和统计结果作了介绍,把具有确定性边界的一个汉字序列(多数情况为一个句子...
为了改善汉字文本的识别率,本文提出了一种基于语料库统计概率的汉字识别文本自动后处理方法.对该方法利用的上下文相关的信息.数据量很大的字字同现概率统计方法和统计结果作了介绍,把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现概率,采用动态规划方法,对汉字识别文本进行自动后处理,获得了今人满意的效果.
展开更多
关键词
汉字识别
MARKOV模型
文本处理
原文传递
国际能源电力统计分析大数据平台构建及应用
被引量:
1
18
作者
谢国辉
汪晓露
+5 位作者
刘佳宁
金奕江
宋卫东
李娜娜
肖婉婷
冯凯辉
《中国科技成果》
2018年第24期61-63,共3页
随着国家“一带一路”建设进程加快,中国与沿线国家将开展更为全面深入的能源合作,需要站在国际视野,纵观全球能源电力变革,聚焦我国与世界领先国家能源电力发展成效的对比分析。本项目基于大数据分析技术,开发了国际能源电力统计分析...
随着国家“一带一路”建设进程加快,中国与沿线国家将开展更为全面深入的能源合作,需要站在国际视野,纵观全球能源电力变革,聚焦我国与世界领先国家能源电力发展成效的对比分析。本项目基于大数据分析技术,开发了国际能源电力统计分析大数据平台,填补了我国在构建一整套系统全面的国际能源电力统计指标体系及统计数据库的空白,并应用平台对国际能源电力最新动态、国家能源转型、新能源开发利用水平等开展对比分析,为我国能源电力发展规划编制、“一带一路”国际能源合作以及开展能源电力重大问题研究提供及时有效的国内外统计数据支撑和分析参考。
展开更多
关键词
能源电力
统计分析
大数据平台
原文传递
题名
因特网上的写作风格鉴别
被引量:
8
1
作者
金奕江
孙晓明
马少平
机构
清华大学
出处
《广西师范大学学报(自然科学版)》
CAS
2003年第1期62-66,共5页
基金
国家高技术研究发展计划(863计划),清华大学校科研和教改项目
文摘
根据写作风格来鉴别作者这一问题在国外很早就已经开始研究了,并有很多成功应用.而针对中文的研究却非常少.首次提出了使用文章中虚词频率分布作为特征来研究这一问题,采用了两种不同的规格化方法来消除文章长度的差异,并采用了多种不同的分类方法.实验结果表明采用虚词频率作为特征是行之有效的,即使采用最简单的模板匹配的识别方法都能够取得很好的识别效果,采用SVM等方法可以进一步提高识别率.此外可以在一定范围内减少使用的虚词的数量,而不损失识别效果.
关键词
因特网
写作风格
文本分类
虚词频率
作者鉴别
特征选择
身份识别
分类号
H151 [语言文字—汉语]
TP393.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
汉字的线性分类实验
被引量:
1
2
作者
金奕江
马少平
机构
智能技术与系统国家重点实验室清华大学计算机系
出处
《中文信息学报》
CSCD
北大核心
2000年第2期55-59,共5页
基金
国家自然科学基金
"86 3"高技术项目资助
文摘
本文通过实验研究了在汉字识别中应用线性分类器的可能性 ,考察了汉字之间的线性可分性。实验使用了两种主要的线性分类器 :Fisher线性判别和感知器。实验检验每一对汉字的线性可分性。实验结果表明 ,汉字之间的线性分类性是相当好的。尤其是Fisher线性判别 ,不能成功线性分类的汉字仅占百万分之 4.2 5。这显示了在汉字识别中应用线性分类器是有着巨大的潜力的。同时 ,线性分类实验结果还可用来检验所选取特征的好坏 ,有利于客观的评价特征。
关键词
汉字识别
线性分类器
模式识别
Keywords
Chinese character recognition Linear Classification Fisher Linear Discriminant Perceptron
分类号
H123 [语言文字—汉语]
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于文档相似度的检索结果重排序方法
被引量:
9
3
作者
周博
岑荣伟
刘奕群
张敏
金奕江
马少平
机构
智能技术与系统国家重点实验室清华大学计算机科学与技术系
出处
《中文信息学报》
CSCD
北大核心
2010年第3期19-23,36,共6页
基金
国家自然科学基金资助项目(60736044
60903107)
+2 种基金
高等学校博士学科点专项科研基金资助项目(20090002120005)
973国家重点基础研究资助项目(2004CB318108)
863计划高科技资助项目(2006AA01Z141)
文摘
对相关反馈问题的研究已有近30年的历史,相关反馈也被证明可以大程度稳定地提升检索系统的性能。当前网络环境下相关反馈的应用以及用户提供反馈信息的方式已经发生了明显的变化,因此相关反馈研究又一次引起了研究界的注意。该文提出了一种基于文档相似度的搜索结果重排序方法,该方法同时利用了反馈信息中的相关文档与不相关文档。在大规模网络信息检索标准实验数据上的实验结果表明:该方法不仅可以稳定地提高系统的检索性能,并且相较于经典的查询扩展方法有着明显的优势。
关键词
计算机应用
中文信息处理
相关反馈
文档重排序
信息检索
Keywords
computer application
Chinese information processing
relevance feedback
document re-ranking
search engine
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于统计与神经元方法相结合的手写体相似字识别
被引量:
12
4
作者
张德喜
马少平
朱绍文
金奕江
机构
华中师范大学电子与计算机研究所
清华大学计算机科学与技术系
智能技术与系统国家重点实验室
出处
《中文信息学报》
CSCD
北大核心
1999年第3期33-39,共7页
基金
国家自然科学基金
国家863高科技项目
文摘
本文提出了一种基于统计识别方法与人工神经元网络相结合的手写体相似汉字识别方法。该方法充分利用了统计识别方法和神经元网络识别方法的优点,不仅显著地提高了相似字的识别率,而且有效地提高了系统的整体性能。对相似字的识别率由79.02%提高到84.32%,提高了五个百分点,整体识别率提高了1.3个百分点。
关键词
神经元
汉字识别
相似字识别
手写体
统计识别
Keywords
neural networksChinese characters recognitionsimilar Chinese characters recognition
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
利用上下文相关信息的汉字文本识别
被引量:
7
5
作者
夏莹
常新功
马少平
朱小燕
金奕江
机构
清华大学计算机系
出处
《中文信息学报》
CSCD
1996年第1期23-30,共8页
文摘
为了改善汉字文本识别率,本文提出了一种基于语料库统计概率的后处理方法,该方法利用上下文相关信息,超过词汇。对于汉字文本识别,把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现概率,采用动态规划方法,获得了令人满意的效果。
关键词
汉字识别
语料库语言学
汉字文本识别
Keywords
Chinese Characters Recognition, Corpus Linguistics, Markov Model, Post processing
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
锚文本检索有效性分析
被引量:
3
6
作者
周博
刘奕群
张敏
金奕江
马少平
机构
清华大学智能技术与系统国家重点实验室
清华大学清华信息科学与技术国家实验室(筹)
清华大学计算机科学与技术系
出处
《软件学报》
EI
CSCD
北大核心
2011年第8期1714-1724,共11页
基金
国家自然科学基金(60736044
60903107)
高等学校博士学科点专项科研基金(20090002120005)
文摘
锚文本对网络信息检索性能的提升作用已经得到验证,并被广泛地应用于商用网络搜索引擎.然而,锚文本制作的不可控性导致其中蕴含大量与目标网页不相关或具有作弊倾向的无用信息.另外,对于需要衡量检索结果服务质量的事务类查询,原始锚文本推荐的目标网页也往往与真实的用户体验不一致.为了解决上述问题,基于大规模真实用户的互联网浏览行为日志展开研究.首先提出了锚文本检索有效性的评估框架,然后分析了用户网络浏览点击行为与锚文本检索有效性之间的联系,挖掘了用户网络浏览点击行为中有助于筛选高质量锚文本的特征.基于这些特征,提出了两种超链接文档生成方法.实验结果表明,基于用户网络浏览点击行为特征筛选出的锚文本,与原始锚文本相比,能够明显地提升网络检索的性能.
关键词
用户网络浏览行为
锚文本
网络信息检索
Keywords
user Web browsing behavior
anchor text
Web information retrieval
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于硬件抽象技术的全协议栈网络路由器设计
被引量:
2
7
作者
全成斌
陈嘉杰
郑宁汉
李山山
陈永强
金奕江
机构
清华大学计算机科学与技术系
出处
《实验技术与管理》
CAS
北大核心
2022年第4期111-115,共5页
基金
清华大学本科教学改革项目(ZY01_02_2021)。
文摘
计算机网络是计算机大类专业的核心课,是培养学生系统设计能力的关键课程。为了让学生更直观地理解网络不同层次间的关系,并得到系统的训练,提高系统设计能力,提出采用硬件抽象技术的实验框架(避免直接采用套接字调用)和以协议栈构造路由器系统的实验课程设计。实验简化了硬件接口设计方法、采用在线评测方式以及先分后总的模块化设计方案,构造出一套路由器系统。通过该实验,训练了学生综合实验能力,加深了对计算机网络原理的系统认识。
关键词
计算机网络
实验
系统设计能力
硬件抽象
路由器设计
Keywords
computer network
experiment
system design ability
hardware abstraction
router design
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
使用基于SVM的否定概率和法的图像标注
被引量:
2
8
作者
路晶
金奕江
马少平
茹立云
机构
清华大学计算机科学与技术系
出处
《智能系统学报》
2006年第1期62-66,共5页
基金
国家重点基础研究基金资助项目(2004CB318108)
国家自然科学基金资助项目(60223004
+3 种基金
60321002
60503064
60303005)
教育部科学技术研究重点项目(104236).
文摘
在基于内容的图像检索中,建立图像底层视觉特征与高层语义的联系是个难题.对此提出了一种为图像提供语义标签的标注方法.先建立小规模图像库为训练集,库中每个图像标有单一的语义标签,再利用其底层特征,以SVM为子分类器,“否定概率和”法为合成方法构建基于成对耦合方式(PWC)的多类分类器,并对未标注的图像进行分类,结果以N维标注向量表示,实验表明,与一对多方式(OPC)的多类分类器及使用概率和法的PWC相比,“否定概率和”法性能更好.
关键词
语义标签
否定概率和法
成对耦合
标注向量
Keywords
semantic label
the summation of negative probability
pairwise coupling
label-vector
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
汉字文本识别的自动后处理
被引量:
1
9
作者
夏莹
马少平
孙茂松
朱小燕
金奕江
常新功
机构
清华大学计算机系
出处
《语言文字应用》
CSSCI
北大核心
1997年第2期101-107,共7页
基金
国家自然科学基金
文摘
在汉字识别率不是很高时,可利用上下文相关信息(词汇及字字相邻出现概率),把一个汉语句子或短语作为一个处理单元,利用词匹配信息修改汉字识别的可信度,再用动态规划方法找到最佳结果。这种基于统计概率和词汇匹配相结合的方法,对脱机手写汉字识别文本进行自动后处理。
关键词
汉字识别后处理
文本识别
出现概率
会议论文集
手写汉字识别
后处理方法
正确率
词匹配
计算机
基于统计
分类号
H123.9 [语言文字—汉语]
下载PDF
职称材料
题名
计算机语言学方法在中文文字识别后处理中的应用
被引量:
1
10
作者
夏莹
马少平
孙茂松
朱小燕
金奕江
李国华
机构
清华大学计算机系
出处
《中文信息》
1996年第2期50-51,共2页
文摘
近年来,脱机手写汉字识别[OCR]研究取得了很大进步,识别率在提高,前十选识别可达95%以上,但第选识别率仍不够高。OCR 的研究者们已看到单纯的单字(Isolatedcharacter)识别的方法对整个文本识别是不够的。
关键词
汉字识别
文字识别
汉字处理
计算机语言学
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Web信息检索结果融合中的按位加权插入合并算法
11
作者
张敏
金奕江
马少平
机构
清华大学计算机系智能技术与系统国家重点实验室
出处
《中文信息学报》
CSCD
北大核心
2004年第2期8-14,共7页
基金
国家重点基础研究 (973)资助项目 (G19980 30 5 0 9)
自然科学基金资助项目 (6 0 2 2 30 0 4 )
国家86 3高科技资助项目 (2 0 0 1AA114 0 82 )
文摘
在Internet中 ,由于海量数据的多样性 ,在分布式数据集合上进行有效的检索就成为Web信息检索的一种必要方式。由此 ,引出多个检索结果的融合问题。对不同检索结果的相似度评分可能完全不可比的情况 ,本文给出一种新的解决方案 :按位加权插入合并算法。在 18GB的大规模web标准测试集上的实验证明 ,该算法始终能够提高综合检索性能 ,且分布数据集检索结果越好 ,则合并后性能改善越多。其中系统平均精度提高接近 10 %,突破了传统方法对分布数据集结果合并的综合效果总是低于使用集中数据集检索的性能局限。
关键词
计算机应用
中文信息处理
WEB信息检索
数据集选择
结果融合
排序
Keywords
computer application
Chinese information processing
Web IR
collection selection
result fusion
rank-based fusion
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
长尾查询搜索性能评价方法的研究
12
作者
霍帅
张敏
刘奕群
马少平
金奕江
茹立云
机构
智能技术与系统国家重点实验室
清华信息科学与技术国家实验室(筹)
清华大学计算机系
出处
《中文信息学报》
CSCD
北大核心
2014年第3期75-80,98,共7页
基金
国家863高科技项目(2011AA01A205)
自然科学基金(60903107,61073071)
文摘
各大搜索引擎公司都致力于准确而快速的帮助用户找到信息目标,搜索性能评价变得非常重要,而目前尚无对长尾查询性能评价的方法。该文通过分析长尾查询结果数据,提取了长尾查询三种类型特征,并对特征进行叠加分析。进一步地针对数据集的严重不平衡问题提出两种数据平衡方法。最后提出并改进了长尾查询评价方法。在真实搜索引擎结果数据集上的实验验证了所提出的评价方法取得一定的评价效果,其中对不相关文档的评价取得较高的准确率。
关键词
长尾查询
搜索引擎性能评价
自动评价方法
Keywords
tail query
search engine performance evaluation
automatic evaluation method
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于多Agent系统的脱机手写体汉字识别
13
作者
马少平
金奕江
机构
清华大学计算机科学与技术系
清华大学智能技术与系统国家重点实验室
清华大学清华信息科学与技术国家实验室(筹)
出处
《智能系统学报》
2009年第5期398-405,共8页
基金
国家自然科学基金创新研究群体科学基金资助项目(60621062)
文摘
由于脱机手写体汉字的多样性和随意性,识别起来具有很大的难度,依靠单一的特征很难实现高准确率的识别.引入多Agent的概念,将多种知识统一于多Agent系统之中,给出了一个面向脱机手写体汉字识别的多Agent类市场模型,提出了一种模糊综合方法和辩论协商规则,实现了一个基于多Agent系统的脱机手写体汉字识别系统.初步测试结果显示出系统的有效性.
关键词
汉字识别
多AGENT系统
类市场模型
模糊综合
辩论协商规则
Keywords
hand-written chinese character
multi-Agent system
market-like model
fuzzy synthetic
debate-negotiation rules
分类号
TP391.43 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
手写体汉字在特征空间的可视化分析
被引量:
1
14
作者
陈津颖
金奕江
马少平
机构
清华大学计算机系智能技术与系统国家重点实验室
出处
《中文信息学报》
CSCD
北大核心
2000年第5期42-48,共7页
基金
国家重点基础研究! (G19980 30 5 0 9)
自然科学基金 (6 96 75 0 0 4
+1 种基金
6 9836 0 40 )
86 3高技术资助!项目 (86 3- 30 6-ZD0 3- 0
文摘
手写体汉字特征一般在几百维以上 ,在这样的高维空间中 ,汉字样本是如何分布的 ?本文从可视化的角度对这一问题进行了探讨。论文首先给出了所选用的汉字特征的定义 ,然后对一些具有代表性的汉字实例 ,从K L变换法、线性投影法和非线性投影法三个方面 ,对汉字在特征空间的分布问题进行了可视化分析 ,结果表明 ,可视化分析可以帮助人们了解汉字在特征空间的分布情况 ,对改进识别器的性能具有指导意义。
关键词
汉字识别
可视化分析
特征空间
手写体汉字
Keywords
recognition of Chinese characters
visualization analysis
feature space
分类号
TP391.43 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
面向用户行为的页面质量评估
15
作者
王晓光
刘奕群
金奕江
岑荣伟
马少平
茹立云
机构
清华大学计算机系智能技术与系统国家重点实验室清华信息科学与技术国家实验室(筹)
出处
《计算机科学与探索》
CSCD
2010年第7期589-598,共10页
基金
国家自然科学基金No.60736044
60903107
高等院校博士学科点专项科研基金No.20090002120005~~
文摘
页面质量评估在搜索引擎系统中具有极其关键的作用,传统的方法是基于页面链接关系进行页面质量评估。但由于当前Web环境的复杂性,传统方法已经难以适应当前的Web环境,近年来,用户行为被用来弥补完全依赖链接关系方法的不足。用户行为可以分为两类:浏览行为和搜索行为。利用浏览行为构造了用户浏览图;提出了一种利用用户搜索行为的新方法,此方法构造了用户搜索图;合并用户浏览图和用户搜索图得到用户浏览搜索图。实验表明用户浏览搜索图的性能比较接近用户浏览图的性能,并超过全网的性能,同时用户浏览搜索图能够评价的页面数要大于用户浏览图。
关键词
页面质量评估
用户行为
用户浏览图
用户搜索图
用户浏览搜索图
Keywords
page quality estimation
user behavior
user browsing graph
user searching graph
user browsing- searching graph
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
清华THUIR2005年863信息检索评测
16
作者
赵乐
岑荣伟
王灿辉
齐伟
金奕江
张敏
马少平
机构
清华大学智能技术与系统国家重点实验室
出处
《中文信息学报》
CSCD
北大核心
2006年第B03期91-95,共5页
基金
国家重点基础研究973资助项目(2004CB318108)
国家自然科学基金资助项目(60223004
+3 种基金
60321002
60303005
60503064)
教育部科学技术研究重点资助项目(104236)
文摘
在2005年863信息检索评测中,我们主要尝试了采用入链接描述文字。以及我们在去年已使用的词对检索方法。由于只能提交一组自动方法检索的结果。我们的手工查询以及自动处理查询两组结果,都采用了比较稳定的词对检索参数。以及有比较一致的良好效果的八链接描述方法。就我们在自己构建的训练集以及提交的两组结果的实际效果的评测来看,我们的方法对用户查询词的精确性有比较高的要求,并且词对和入链接描述文字都能提高检索的效果。
关键词
计算机应用
中文信息检索
词对检索
入链接描述文字
检索评测
Keywords
computer application
Chinese information retrieval
word-pair retrieval
in-link anchor
evaluation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于统计的汉字识别文本自动后处理方法
被引量:
14
17
作者
夏莹
马少平
常新功
朱小燕
金奕江
机构
清华大学计算机系
出处
《模式识别与人工智能》
EI
CSCD
北大核心
1996年第2期172-178,共7页
文摘
为了改善汉字文本的识别率,本文提出了一种基于语料库统计概率的汉字识别文本自动后处理方法.对该方法利用的上下文相关的信息.数据量很大的字字同现概率统计方法和统计结果作了介绍,把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现概率,采用动态规划方法,对汉字识别文本进行自动后处理,获得了今人满意的效果.
关键词
汉字识别
MARKOV模型
文本处理
Keywords
Chinese Characters Recognition, Corpus Linguistics, Markov Model, Post-Processing.
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
原文传递
题名
国际能源电力统计分析大数据平台构建及应用
被引量:
1
18
作者
谢国辉
汪晓露
刘佳宁
金奕江
宋卫东
李娜娜
肖婉婷
冯凯辉
机构
国网能源研究院有限公司
清华大学
出处
《中国科技成果》
2018年第24期61-63,共3页
文摘
随着国家“一带一路”建设进程加快,中国与沿线国家将开展更为全面深入的能源合作,需要站在国际视野,纵观全球能源电力变革,聚焦我国与世界领先国家能源电力发展成效的对比分析。本项目基于大数据分析技术,开发了国际能源电力统计分析大数据平台,填补了我国在构建一整套系统全面的国际能源电力统计指标体系及统计数据库的空白,并应用平台对国际能源电力最新动态、国家能源转型、新能源开发利用水平等开展对比分析,为我国能源电力发展规划编制、“一带一路”国际能源合作以及开展能源电力重大问题研究提供及时有效的国内外统计数据支撑和分析参考。
关键词
能源电力
统计分析
大数据平台
分类号
TP393.18 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
因特网上的写作风格鉴别
金奕江
孙晓明
马少平
《广西师范大学学报(自然科学版)》
CAS
2003
8
下载PDF
职称材料
2
汉字的线性分类实验
金奕江
马少平
《中文信息学报》
CSCD
北大核心
2000
1
下载PDF
职称材料
3
一种基于文档相似度的检索结果重排序方法
周博
岑荣伟
刘奕群
张敏
金奕江
马少平
《中文信息学报》
CSCD
北大核心
2010
9
下载PDF
职称材料
4
基于统计与神经元方法相结合的手写体相似字识别
张德喜
马少平
朱绍文
金奕江
《中文信息学报》
CSCD
北大核心
1999
12
下载PDF
职称材料
5
利用上下文相关信息的汉字文本识别
夏莹
常新功
马少平
朱小燕
金奕江
《中文信息学报》
CSCD
1996
7
下载PDF
职称材料
6
锚文本检索有效性分析
周博
刘奕群
张敏
金奕江
马少平
《软件学报》
EI
CSCD
北大核心
2011
3
下载PDF
职称材料
7
基于硬件抽象技术的全协议栈网络路由器设计
全成斌
陈嘉杰
郑宁汉
李山山
陈永强
金奕江
《实验技术与管理》
CAS
北大核心
2022
2
下载PDF
职称材料
8
使用基于SVM的否定概率和法的图像标注
路晶
金奕江
马少平
茹立云
《智能系统学报》
2006
2
下载PDF
职称材料
9
汉字文本识别的自动后处理
夏莹
马少平
孙茂松
朱小燕
金奕江
常新功
《语言文字应用》
CSSCI
北大核心
1997
1
下载PDF
职称材料
10
计算机语言学方法在中文文字识别后处理中的应用
夏莹
马少平
孙茂松
朱小燕
金奕江
李国华
《中文信息》
1996
1
下载PDF
职称材料
11
Web信息检索结果融合中的按位加权插入合并算法
张敏
金奕江
马少平
《中文信息学报》
CSCD
北大核心
2004
0
下载PDF
职称材料
12
长尾查询搜索性能评价方法的研究
霍帅
张敏
刘奕群
马少平
金奕江
茹立云
《中文信息学报》
CSCD
北大核心
2014
0
下载PDF
职称材料
13
基于多Agent系统的脱机手写体汉字识别
马少平
金奕江
《智能系统学报》
2009
0
下载PDF
职称材料
14
手写体汉字在特征空间的可视化分析
陈津颖
金奕江
马少平
《中文信息学报》
CSCD
北大核心
2000
1
下载PDF
职称材料
15
面向用户行为的页面质量评估
王晓光
刘奕群
金奕江
岑荣伟
马少平
茹立云
《计算机科学与探索》
CSCD
2010
0
下载PDF
职称材料
16
清华THUIR2005年863信息检索评测
赵乐
岑荣伟
王灿辉
齐伟
金奕江
张敏
马少平
《中文信息学报》
CSCD
北大核心
2006
0
下载PDF
职称材料
17
基于统计的汉字识别文本自动后处理方法
夏莹
马少平
常新功
朱小燕
金奕江
《模式识别与人工智能》
EI
CSCD
北大核心
1996
14
原文传递
18
国际能源电力统计分析大数据平台构建及应用
谢国辉
汪晓露
刘佳宁
金奕江
宋卫东
李娜娜
肖婉婷
冯凯辉
《中国科技成果》
2018
1
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部