期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
利用串匹配技术实现网上新闻的主题提取(英文) 被引量:11
1
作者 尹中航 王永成 +1 位作者 蔡巍 韩客松 《软件学报》 EI CSCD 北大核心 2002年第2期159-167,共9页
从文本中提取主题串是自然语言处理的重要基础之一.传统的提取方法主要是依据“词典加匹配”的模式.由于词典的更新速度无法同步于网上新闻中新词汇涌现的速度,而且词典的内容也无法完全涵盖网上新闻的范围, 因此这种方法不适用于网上... 从文本中提取主题串是自然语言处理的重要基础之一.传统的提取方法主要是依据“词典加匹配”的模式.由于词典的更新速度无法同步于网上新闻中新词汇涌现的速度,而且词典的内容也无法完全涵盖网上新闻的范围, 因此这种方法不适用于网上新闻的主题提取.提出并实现了一种不用词典即可提取新闻主题的新方法.该方法利用网上新闻的特殊结构,在标题和正文间寻找重复的字串.经过简单地处理,这些字串能够较好地反映新闻的主题.实验结果显示该方法能够准确、有效地提取出绝大部分网上新闻的主题,满足新闻自动处理的需要.该方法同样适用于其它亚洲语言和西方语言. 展开更多
关键词 网页 信息处理 网上新闻 主题提取 自然语言处理 串匹配技术
下载PDF
自动分类中的过学习问题与支持向量机 被引量:4
2
作者 尹中航 王永成 蔡巍 《计算机工程》 CAS CSCD 北大核心 2000年第S1期726-730,共5页
由于网上信息的迅速增长,文本分类已经成为网上信息管理中的热点研究课题.现今流行方法的重要基础是传统的统计学,前提是要有足够的样本,当样本数目有限时容易出现过学习的问题,导致分类效果不理想。本文首先从理论上分析了这种出... 由于网上信息的迅速增长,文本分类已经成为网上信息管理中的热点研究课题.现今流行方法的重要基础是传统的统计学,前提是要有足够的样本,当样本数目有限时容易出现过学习的问题,导致分类效果不理想。本文首先从理论上分析了这种出现过学习的原因,然后介绍了出现过学习现象的条件和解决办法,最后介绍了一种研究小样本情况下机器学习规律、可以较好地克服过学习问题的分类方法--支持向量机方法。 展开更多
关键词 过学习 支持向量机 自动分类
下载PDF
应用支持向量机进行网上信息自动分类 被引量:2
3
作者 尹中航 王永成 蔡巍 《高技术通讯》 EI CAS CSCD 2001年第11期107-110,共4页
从SVMs的原理出发 ,介绍了用SVMs对网上信息进行自动分类的方法 ,分析了它能够防止出现“过学习”现象的原因以及对网上信息分类的适应性 ,并讨论了它的不足和可改进之处。
关键词 支持向量机 自动分类 机器学习 因特网 SVMS 信息管理
下载PDF
一种基于频次统计的兼类噪声消除方法
4
作者 尹中航 王永成 +1 位作者 宋聚平 蔡巍 《上海交通大学学报》 EI CAS CSCD 北大核心 2003年第3期408-410,共3页
分析了自动分类知识库中的文本兼类噪声 ,提出借助于频次统计特性来减少兼类噪声的新算法 .在进行理论分析的基础上 ,讨论了具体的实现步骤 ,并通过对新闻语料的分类实验 ,检验了降噪效果 .结果表明 ,该方法可以减少兼类概念在知识库中... 分析了自动分类知识库中的文本兼类噪声 ,提出借助于频次统计特性来减少兼类噪声的新算法 .在进行理论分析的基础上 ,讨论了具体的实现步骤 ,并通过对新闻语料的分类实验 ,检验了降噪效果 .结果表明 ,该方法可以减少兼类概念在知识库中的冗余次数 。 展开更多
关键词 知识库 降噪 自然语言处理
下载PDF
对网页PageRank算法的改进 被引量:39
5
作者 宋聚平 王永成 +1 位作者 尹中航 滕伟 《上海交通大学学报》 EI CAS CSCD 北大核心 2003年第3期397-400,共4页
分析了著名搜索引擎 Google采用的 Page Rank算法 ,指出其偏重旧网页、忽视专业站点以及对网页中的超链接评估不恰当等不足之处 .改进算法考虑了网页日期这一重要因素 ,并重新计算网页中超链接对网页的影响 .网页结构中蕴涵着丰富的信... 分析了著名搜索引擎 Google采用的 Page Rank算法 ,指出其偏重旧网页、忽视专业站点以及对网页中的超链接评估不恰当等不足之处 .改进算法考虑了网页日期这一重要因素 ,并重新计算网页中超链接对网页的影响 .网页结构中蕴涵着丰富的信息 ,在 href、title等标记中文字对网页主题有重要作用 ,利用结构标记可以辅助判断网页的主题内容 .试验结果表明 。 展开更多
关键词 搜索引擎 网页 超链分析 PAGERANK
下载PDF
面向主题的网页搜索系统 被引量:12
6
作者 宋聚平 王永成 +1 位作者 尹中航 滕伟 《上海交通大学学报》 EI CAS CSCD 北大核心 2003年第3期401-403,共3页
论述一个面向主题的网页搜索系统 (SATWP) ,该系统在智能代理的辅助下具有搜索、导航、以及信息反馈等功能 .在判断网页与查询主题的相关度时改变了单纯的从网页内容上考虑的方法 ,即从网页自身的 URL、网页间的关系以及网页的内容来判... 论述一个面向主题的网页搜索系统 (SATWP) ,该系统在智能代理的辅助下具有搜索、导航、以及信息反馈等功能 .在判断网页与查询主题的相关度时改变了单纯的从网页内容上考虑的方法 ,即从网页自身的 URL、网页间的关系以及网页的内容来判断 .SATWP采用在客户端的智能代理记录用户的浏览行为 ,并把有关信息反馈给服务器 ,服务器根据这些信息随时调整数据库中相关网页的重要性顺序 ,增加了自身的学习功能 .试验结果表明 。 展开更多
关键词 定题搜索 搜索引擎 网页重要性 超链分析
下载PDF
Relief算法在笔迹识别中的应用 被引量:18
7
作者 吴浩苗 尹中航 孙富春 《计算机应用》 CSCD 北大核心 2006年第1期174-176,共3页
Relief及其扩展算法是基于最大化假设间隔的特征选择算法,能够快速进行高维度的特征选择。该文围绕汉字笔迹识别,探讨了多类别、样本数量偏差情况对算法过程的影响。文中提出了一种有效应对数量偏差的算法过程,并成功运用于约简高维的... Relief及其扩展算法是基于最大化假设间隔的特征选择算法,能够快速进行高维度的特征选择。该文围绕汉字笔迹识别,探讨了多类别、样本数量偏差情况对算法过程的影响。文中提出了一种有效应对数量偏差的算法过程,并成功运用于约简高维的笔迹特征。实验表明,改进后的算法不仅节约了处理时间,也进一步改进了特征选择的有效性。 展开更多
关键词 特征选择 笔迹识别 假设间隔
下载PDF
三种分类算法的实验比较 被引量:2
8
作者 蔡巍 王永成 +1 位作者 李伟 尹中航 《上海交通大学学报》 EI CAS CSCD 北大核心 2004年第4期510-512,共3页
对文本自动分类算中的k最近邻算法、向量空间模型算法以及混合分类算法进行了比较分析,在构造分类用知识库的主题抽取方法相同的条件下,使用中国资讯行提供的2000篇网上新闻语料分别对3种分类算法作了实验研究.实验结果表明,针对网上新... 对文本自动分类算中的k最近邻算法、向量空间模型算法以及混合分类算法进行了比较分析,在构造分类用知识库的主题抽取方法相同的条件下,使用中国资讯行提供的2000篇网上新闻语料分别对3种分类算法作了实验研究.实验结果表明,针对网上新闻而言,混合分类算法性能指标优于另外2种算法.结合实验语料环境,对3种分类算法的适用范围作了分析. 展开更多
关键词 分类算法 K最近邻算法 向量空间模型算法 混合算法
下载PDF
一种无词典的从Web新闻页面抽取主题的算法 被引量:2
9
作者 蔡巍 王永成 尹中航 《情报学报》 CSSCI 北大核心 2008年第1期12-17,共6页
主题抽取是自然语言处理研究的重要问题之一。目前流行的方法是“词典+匹配”,但该方法用于处理动态变化的网页信息时,词典难于及时更新等弊病就表现出来。本文作者在研究中文新闻网页内容、结构特点的基础上,提出了一种利用Web页... 主题抽取是自然语言处理研究的重要问题之一。目前流行的方法是“词典+匹配”,但该方法用于处理动态变化的网页信息时,词典难于及时更新等弊病就表现出来。本文作者在研究中文新闻网页内容、结构特点的基础上,提出了一种利用Web页面结构无需词典的主题抽取算法。我们使用该方法对新华网财经新闻语料1000篇进行主题抽取实验,并与手工抽取的主题进行比较,结果表明,重合率高达93%以上。 展开更多
关键词 主题提取 WEB页面 超链接
下载PDF
一种基于频次统计特性的兼类噪声消除方法
10
作者 蔡巍 王永成 +1 位作者 尹中航 李伟 《情报学报》 CSSCI 北大核心 2004年第4期399-403,共5页
本文着重研究了自动分类知识库中因为样本兼类而引起的存在于概念类频中的噪声,提出了借助于统计特性来修正概念类频的算法.在进行理论分析的基础上,本文讨论了算法的实现步骤,并通过对新闻语料的分类实验,检验了降噪效果.实验显示,本... 本文着重研究了自动分类知识库中因为样本兼类而引起的存在于概念类频中的噪声,提出了借助于统计特性来修正概念类频的算法.在进行理论分析的基础上,本文讨论了算法的实现步骤,并通过对新闻语料的分类实验,检验了降噪效果.实验显示,本方法可以减少兼类概念在知识库中的冗余次数,提高自动分类系统的性能指标. 展开更多
关键词 知识库 兼类噪声 消除方法 自然语言处理 自动分类 频次统计
下载PDF
一种基于大语料库的多分类体系自动转换方案设计
11
作者 蔡巍 尹中航 《情报杂志》 CSSCI 北大核心 2009年第B06期74-76,102,共4页
情报语言的兼容与互换问题是21世纪情报语言学的重要研究课题之一。互联网时代,当代情报语言的兼容化具有重要意义。在研究、比较国内外情报检索语言兼容互换方式方法的基础上,认为可以基于大规模已标引好的语料,对多个不同的分类体系... 情报语言的兼容与互换问题是21世纪情报语言学的重要研究课题之一。互联网时代,当代情报语言的兼容化具有重要意义。在研究、比较国内外情报检索语言兼容互换方式方法的基础上,认为可以基于大规模已标引好的语料,对多个不同的分类体系进行自动转换,并且设计了一种基于大语料库的多分类体系自动转换方案。 展开更多
关键词 情报体系语言 多分类体系 兼容互换 语料库
下载PDF
一种自动分类系统学习功能的实现方法
12
作者 李伟 王永成 +1 位作者 蔡巍 尹中航 《情报学报》 CSSCI 北大核心 2003年第3期302-305,共4页
迅速而准确地更新自动分类系统的知识库是自动分类系统能投入使用的重要条件.本文在考察人类学习过程的基础上,提出一种能够在人的参与下,更新完善机器自动分类知识库的学习方法.通过实验,证实了该方法可以准确迅速地更新分类知识库,从... 迅速而准确地更新自动分类系统的知识库是自动分类系统能投入使用的重要条件.本文在考察人类学习过程的基础上,提出一种能够在人的参与下,更新完善机器自动分类知识库的学习方法.通过实验,证实了该方法可以准确迅速地更新分类知识库,从而提高自动分类系统的分出率和分准率. 展开更多
关键词 自动分类系统 分出率 分准率 自学习 知识库 动态更新 学习过程
下载PDF
对位置和速度进行滤波的实时跟踪算法 被引量:1
13
作者 尹中航 马海朝 +1 位作者 毛二可 韩月秋 《控制理论与应用》 EI CAS CSCD 北大核心 1996年第6期778-784,共7页
为充分地利用测量信息,提高数据处理精度,本文提出了对位置和速度测量值进行滤波的实时跟踪算法.它以测量设备提供的位置和速度信息作为输入参数,经过最多十组增益常数的反馈修正,递推出较高精度的位置和速度的滤波和预测值.对定... 为充分地利用测量信息,提高数据处理精度,本文提出了对位置和速度测量值进行滤波的实时跟踪算法.它以测量设备提供的位置和速度信息作为输入参数,经过最多十组增益常数的反馈修正,递推出较高精度的位置和速度的滤波和预测值.对定常增益阵的选择,本文尝试性地引入了黄金分割法的思想.理论分析和MonteCarlo计算机仿真结果表明此算法优于a-β方法.另外,该算法的实时性满足工程实践要求. 展开更多
关键词 滤波 飞行器 实时跟踪算法 计算机仿真
下载PDF
Improving Classification Performance with Single-category Concept Match
14
作者 尹中航 Wang +4 位作者 Yongcheng Song Juping Cai Wei 《High Technology Letters》 EI CAS 2001年第4期20-22,共3页
Discarding more and more complicated algorithms, this paper presents a new classification algorithm with single category concept match. It also introduces the method to find such concepts, which is important to the al... Discarding more and more complicated algorithms, this paper presents a new classification algorithm with single category concept match. It also introduces the method to find such concepts, which is important to the algorithm. Experiment results show that it can improve classification precision and accelerate classification speed to some extent. 展开更多
关键词 Subject concept String match Information processing
下载PDF
An Experimental Comparative Study on Three Classification Algorithms 被引量:1
15
作者 蔡巍 王永成 +1 位作者 李伟 尹中航 《Journal of Shanghai Jiaotong university(Science)》 EI 2003年第2期133-136,共4页
Classification algorithm is one of the key techniques to affect text automatic classification system’s performance, play an important role in automatic classification research area. This paper comparatively analyzed ... Classification algorithm is one of the key techniques to affect text automatic classification system’s performance, play an important role in automatic classification research area. This paper comparatively analyzed k-NN. VSM and hybrid classification algorithm presented by our research group. Some 2000 pieces of Internet news provided by ChinaInfoBank are used in the experiment. The result shows that the hybrid algorithm’s performance presented by the groups is superior to the other two algorithms. 展开更多
关键词 比较研究 分级运算法则 KNN VSM 混合运算法则
下载PDF
Research on Web Page Automatic Classification Based on Internet News Corpus
16
作者 蔡巍 王永成 尹中航 《Journal of Shanghai Jiaotong university(Science)》 EI 2007年第6期731-735,共5页
Web pages contain more abundant contents than pure text ,such as hyperlinks,html tags and metadata et al.So that Web page categorization is different from pure text. According to Internet Chinese news pages, a practic... Web pages contain more abundant contents than pure text ,such as hyperlinks,html tags and metadata et al.So that Web page categorization is different from pure text. According to Internet Chinese news pages, a practical algorithm for extracting subject concepts from web page without thesaurus was proposed, when incorporated these category-subject concepts into knowledge base, Web pages was classified by hybrid algorithm, with experiment corpus extracting from Xinhua net. Experimental result shows that the categorization performance is improved using Web page feature. 展开更多
关键词 AUTOMATIC classification Web PAGES SUBJECT EXTRACTION
下载PDF
基于网上新闻语料的Web页面自动分类研究 被引量:3
17
作者 蔡巍 王英林 尹中航 《情报科学》 CSSCI 北大核心 2010年第1期124-127,136,共5页
Web页面由于其在表达信息的丰富性方面远胜于纯文本文件,因此Web页面分类与纯文本分类不同。针对网上中文新闻页面特点,我们提出了一种无需词典的从Web页面中抽取主题的实用算法。并将提取出的类主题概念融入分类用知识库,然后用我们研... Web页面由于其在表达信息的丰富性方面远胜于纯文本文件,因此Web页面分类与纯文本分类不同。针对网上中文新闻页面特点,我们提出了一种无需词典的从Web页面中抽取主题的实用算法。并将提取出的类主题概念融入分类用知识库,然后用我们研究小组提出的混合分类算法进行分类,实验语料取自新华网财经新闻。实验结果表明:与不使用Web页面特征,仅用全文相比较,分类性能有所提高。 展开更多
关键词 自动分类 超文本 主题提取
原文传递
基于主题提取与兼类噪声消除新方法的自动分类系统
18
作者 蔡巍 王英林 尹中航 《情报科学》 CSSCI 北大核心 2009年第10期1551-1554,1558,共5页
本文作者在长期研究、开发文本自动分类系统的基础上,提出了一个新的使用混合分类算法的分类器框架。针对网上新闻特点,作为"词典+匹配"方法的补充,提出了利用串匹配无词典新闻主题提取方法;降噪一直是困扰自动分类精度提高... 本文作者在长期研究、开发文本自动分类系统的基础上,提出了一个新的使用混合分类算法的分类器框架。针对网上新闻特点,作为"词典+匹配"方法的补充,提出了利用串匹配无词典新闻主题提取方法;降噪一直是困扰自动分类精度提高的难点之一,在开发过程中发现了兼类噪声,提出了一种借助于统计特性修正概念类频来降噪的方法。综合上述方法开发了一个网上新闻自动分类系统,使用中国资讯行网上新闻语料10万篇进行测试,分类结果很好,接近实用水平。 展开更多
关键词 自动分类 主题提取 降噪 混合方法
原文传递
Fuzzy Clustering with Novel Separable Criterion 被引量:4
19
作者 尹中航 唐元钢 +1 位作者 孙富春 孙增圻 《Tsinghua Science and Technology》 SCIE EI CAS 2006年第1期50-53,共4页
Fuzzy clustering has been used widely in pattern recognition, image processing, and data analysis. An improved fuzzy clustering algorithm was developed based on the conventional fuzzy c-means (FCM) to obtain better qu... Fuzzy clustering has been used widely in pattern recognition, image processing, and data analysis. An improved fuzzy clustering algorithm was developed based on the conventional fuzzy c-means (FCM) to obtain better quality clustering results. The update equations for the membership and the cluster center are derived from the alternating optimization algorithm. Two fuzzy scattering matrices in the objective function assure the compactness between data points and cluster centers, and also strengthen the separation be- tween cluster centers in terms of a novel separable criterion. The clustering algorithm properties are shown to be an improvement over the FCM method’s properties. Numerical simulations show that the clustering al- gorithm gives more accurate clustering results than the FCM method. 展开更多
关键词 模糊聚类 可分标准 FCM 交互最优化 模式识别
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部