期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
一种基于词汇链的关键词抽取方法 被引量:88
1
作者 索红光 刘玉树 曹淑英 《中文信息学报》 CSCD 北大核心 2006年第6期25-30,共6页
关键词在文献检索、自动文摘、文本聚类/分类等方面有十分重要的作用。词汇链是由一系列词义相关的词语组成,最初被用于分析文本的结构。本文提出了利用词汇链进行中文文本关键词自动标引的方法,并给出了利用《知网》为知识库构建词汇... 关键词在文献检索、自动文摘、文本聚类/分类等方面有十分重要的作用。词汇链是由一系列词义相关的词语组成,最初被用于分析文本的结构。本文提出了利用词汇链进行中文文本关键词自动标引的方法,并给出了利用《知网》为知识库构建词汇链的算法。通过计算词义相似度首先构建词汇链,然后结合词频与区域特征进行关键词选择。该方法考虑了词汇之间的语义信息,能够改善关键词标引的性能。实验结果表明,与单纯的词频、区域方法相比,召回率提高了7.78%,准确率提高了9.33%。 展开更多
关键词 计算机应用 中文信息处理 关键词标引 关键词抽取 词汇链 词义相似度 知网
下载PDF
一种用于文本聚类的改进k-means算法 被引量:34
2
作者 索红光 王玉伟 《山东大学学报(理学版)》 CAS CSCD 北大核心 2008年第1期60-64,共5页
k-means是目前常用的文本聚类算法,针对其最终搜索的局部极值与全局最优解偏差较大的缺点,采用一种基于局部搜索优化的思想来改进算法,并推导出目标函数的变化公式。根据目标函数值的改变对聚类结果作再次划分后,继续k-means迭代,拓展... k-means是目前常用的文本聚类算法,针对其最终搜索的局部极值与全局最优解偏差较大的缺点,采用一种基于局部搜索优化的思想来改进算法,并推导出目标函数的变化公式。根据目标函数值的改变对聚类结果作再次划分后,继续k-means迭代,拓展其搜索范围。理论分析和实验结果表明修改后的算法能有效地提高聚类的质量,且计算复杂度仍与数据集文本总数呈线性变化。 展开更多
关键词 文本聚类 K-MEANS 向量空间模型 局部迭代
下载PDF
智能客户端系统中数据同步策略的研究与实现 被引量:21
3
作者 索红光 王雷全 《计算机工程与设计》 CSCD 北大核心 2007年第2期351-353,共3页
针对智能客户端系统离线/在线的工作模式,以及智能客户端系统终端多样化、智能部署等特点,提出了一种离线与在线切换过程中,基于XML与Web服务的数据同步策略。该策略弥补了已有数据同步方法存在的不足,具有便于部署与更新,为多种平台提... 针对智能客户端系统离线/在线的工作模式,以及智能客户端系统终端多样化、智能部署等特点,提出了一种离线与在线切换过程中,基于XML与Web服务的数据同步策略。该策略弥补了已有数据同步方法存在的不足,具有便于部署与更新,为多种平台提供统一编程模型,以及轻松穿越防火墙等优点。对于智能客户端系统的开发,具有实际的应用价值。 展开更多
关键词 数据同步 智能客户端 可扩展标记语言 WEB服务 可扩展标记语言模式定义
下载PDF
基于参考区域的k-means文本聚类算法 被引量:9
4
作者 索红光 王玉伟 《计算机工程与设计》 CSCD 北大核心 2009年第2期401-403,407,共4页
k-means是目前常用的文本聚类算法,该算法的主要缺点需要人工指定聚类的最终个数k及相应的初始中心点。针对这些缺点,提出一种基于参考区域的初始化方法,自动生成k-means的初始化分区,并且在参考区域的生成过程中,设计一种求最大斜率(... k-means是目前常用的文本聚类算法,该算法的主要缺点需要人工指定聚类的最终个数k及相应的初始中心点。针对这些缺点,提出一种基于参考区域的初始化方法,自动生成k-means的初始化分区,并且在参考区域的生成过程中,设计一种求最大斜率(绝对值)的方法确定自动阈值。理论分析和实验结果表明,该改进算法能有效的提高文本聚类的精度,且具有可行的效率。 展开更多
关键词 文本聚类 K-MEANS CURD 向量空间模型 参考区域
下载PDF
针对中文检索的Lucene改进策略 被引量:10
5
作者 索红光 孙鑫 《计算机应用与软件》 CSCD 2009年第6期175-177,共3页
为了提高基于Lucene中文检索系统的检索精度和效率,通过分析Lucene的结构,在系统中加入了中文分词模块和索引文档预处理模块。给出了具体的实验方法和实验过程,对改进原理和实验数据进行了分析,表明了加入中文分词模块和在索引预处理模... 为了提高基于Lucene中文检索系统的检索精度和效率,通过分析Lucene的结构,在系统中加入了中文分词模块和索引文档预处理模块。给出了具体的实验方法和实验过程,对改进原理和实验数据进行了分析,表明了加入中文分词模块和在索引预处理模块中采用提取特定数量的特征词来替代文档的方法能够有效提高Lucene检索系统的效率和精度,增强Lucene检索系统中文的性能。 展开更多
关键词 LUCENE 索引 中文分词 文档预处理
下载PDF
基于Lucene的中文全文检索系统的研究与设计 被引量:6
6
作者 索红光 孙鑫 《计算机工程与设计》 CSCD 北大核心 2008年第19期5083-5086,共4页
提出了一种基于Lucene的中文全文检索系统模型。通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。在检索结果的处理上,采用文本聚类的办法,使... 提出了一种基于Lucene的中文全文检索系统模型。通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。在检索结果的处理上,采用文本聚类的办法,使检索结果分类显示,提高了用户的查找的效率。实验数据表明,该系统在检索中文网页时,在效率、精度和结果处理等方面性能明显提高。 展开更多
关键词 全文检索 网页正文提取 中文分词模块 索引文档预处理 文本聚类
下载PDF
TCP/IP协议分析器的设计开发 被引量:7
7
作者 索红光 石乐义 梁玉环 《计算机工程与应用》 CSCD 北大核心 1999年第11期80-83,共4页
为满足计算机网络教学的需要,帮助学生更加直现地理解协议的实现原理,作者设计开发了一种TCP/IP协议分析器。文章介绍了该协议分析器的核心部分,即数据采集和协议分析模块的设计方案。
关键词 TCP/IP协议 协议分析器 网络教学 计算机网络
下载PDF
基于时间戳的多文档自动文摘 被引量:3
8
作者 索红光 梁玉环 刘玉树 《计算机工程》 CAS CSCD 北大核心 2007年第16期164-165,共2页
网站的新闻专题往往包含大量的网页,多文档自动文摘可以帮助人们从中快速获取主要信息。该文提出了利用时间戳改善文摘句子抽取质量和排序的方法。介绍了句子抽取方法、句子重要度计算、句子冗余减小方法。实验表明,形成的文摘性能良好... 网站的新闻专题往往包含大量的网页,多文档自动文摘可以帮助人们从中快速获取主要信息。该文提出了利用时间戳改善文摘句子抽取质量和排序的方法。介绍了句子抽取方法、句子重要度计算、句子冗余减小方法。实验表明,形成的文摘性能良好,可以应用于实际系统中。 展开更多
关键词 多文档自动文摘 时间戳 信息抽取 句子相似度
下载PDF
面向油田企业网的智能客户端系统应用研究 被引量:2
9
作者 索红光 王雷全 刘玉树 《中国石油大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第3期152-156,共5页
结合原油集输信息系统的开发,介绍了智能客户端技术及其在油田企业网中的应用。设计了一种新的智能客户端在线状态的应用模型。改进了面向服务的离线解决方案,提出了基于XML与Web服务的数据同步策略。运行结果表明系统的性能良好,响应... 结合原油集输信息系统的开发,介绍了智能客户端技术及其在油田企业网中的应用。设计了一种新的智能客户端在线状态的应用模型。改进了面向服务的离线解决方案,提出了基于XML与Web服务的数据同步策略。运行结果表明系统的性能良好,响应时间和数据一致性均能满足实际应用需求。 展开更多
关键词 信息系统 智能客户端 B/S模式 C/S模式
下载PDF
基于互信息的Web文档聚类方法 被引量:3
10
作者 索红光 杨涛 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第2期131-134,共4页
由于网络信息的激增,如何充分利用大量的信息,并有效地为Web用户服务成为一个急需解决的问题。相关研究表明利用Web文档聚类的方法可以缩小信息检索的范围,提高查询准确率。通过分析Web文档的特征以及常用Web文档聚类方法的优缺点,提出... 由于网络信息的激增,如何充分利用大量的信息,并有效地为Web用户服务成为一个急需解决的问题。相关研究表明利用Web文档聚类的方法可以缩小信息检索的范围,提高查询准确率。通过分析Web文档的特征以及常用Web文档聚类方法的优缺点,提出了一种基于互信息理论的Web文档聚类的方法。在聚类的过程中,计算特征词之间的互信息值,根据阈值判断特征词是否属于同一类别。实验结果表明,该方法与K-Means聚类算法相比较,在准确率和召回率方面均有提高。 展开更多
关键词 信息检索 文档聚类 互信息 特征选取 向量空间模型
下载PDF
基于名实体的新闻专题自动综述系统研究与实现 被引量:2
11
作者 索红光 安迪 李健 《情报学报》 CSSCI 北大核心 2010年第1期32-37,共6页
自动综述是指针对特定的主题进行多文档自动摘要,最终提供简洁、重要的信息。新闻专题自动综述是多文档自动摘要的一种应用形式,它可以帮助人们快速了解某个新闻事件的概貌。提出了一种基于名实体的新闻专题自动综述方法。该方法首先... 自动综述是指针对特定的主题进行多文档自动摘要,最终提供简洁、重要的信息。新闻专题自动综述是多文档自动摘要的一种应用形式,它可以帮助人们快速了解某个新闻事件的概貌。提出了一种基于名实体的新闻专题自动综述方法。该方法首先从新闻专题的文章集合中识别并挑选出代表新闻要素的时间、地点、人物、机构等名实体,经过语义处理后进行名实体的频率统计。然后根据句子中名实体的频率,结合句子位置、长度等因素计算句子的综合权值选出摘要句,最后根据句子的时间戳信息对句子排序输出得到最终的新闻专题综述。实验结果表明,该方法是有效的,具有实用价值。 展开更多
关键词 自动综述 多文档自动摘要 名实体
下载PDF
一种基于Web Service的EIP方案的研究 被引量:3
12
作者 索红光 吴春雷 《计算机应用研究》 CSCD 北大核心 2005年第2期77-78,81,共3页
企业信息门户(EnterpriseInformationPortal,EIP)整合了企业的应用和数据库系统,提供了所有业务的访问接口,逐渐成为电子商务的重要选择方案。但是,目前EIP采用的技术存在许多缺陷,限制了它的功能发挥,在研究分析这些问题的基础上提出... 企业信息门户(EnterpriseInformationPortal,EIP)整合了企业的应用和数据库系统,提供了所有业务的访问接口,逐渐成为电子商务的重要选择方案。但是,目前EIP采用的技术存在许多缺陷,限制了它的功能发挥,在研究分析这些问题的基础上提出了基于WebService的EIP解决方案。 展开更多
关键词 企业信息门户 WEB服务 企业应用集成 电子商务
下载PDF
网站频道关键词选择方法研究 被引量:1
13
作者 索红光 刘玉树 《情报学报》 CSSCI 北大核心 2007年第2期249-252,共4页
针对网站频道和网页的特点,提出了选择网站频道关键词的方法。介绍了网页抓取、正文提取和词语切分的预处理过程。关键词权值的计算除了词频、位置,也包括了HIML标签。实验结果表明,系统选取的关键词有助于了解网站频道的内容。
关键词 网站 频道 关键词 权值 词频
下载PDF
基于组块的中文自动文摘系统研究 被引量:2
14
作者 索红光 曹淑英 《计算机系统应用》 2007年第3期97-100,共4页
传统的基于统计的自动文摘方法以词语作为文本信息的基本单位,没有考虑到词语在不同语言环境下的具体语义,导致文摘精度不高。为了克服传统方法的缺点,提出了一种基于文本组块的自动文摘方法。系统利用中科院的ICTCLAS软件对文档进行分... 传统的基于统计的自动文摘方法以词语作为文本信息的基本单位,没有考虑到词语在不同语言环境下的具体语义,导致文摘精度不高。为了克服传统方法的缺点,提出了一种基于文本组块的自动文摘方法。系统利用中科院的ICTCLAS软件对文档进行分词和词性标注,并根据一系列的规则,将相关的词语构造成组块。由句子中出现的组块作为衡量句子重要性的标准选出文摘句。文中给出了自动文摘的评价方法和实验结果,跟传统的基于词语的文摘相比较,实验结果表明基于文本组块的自动文摘系统生成的文摘句精度更高,更能全面反映原文的主要内容。 展开更多
关键词 自然语言处理 文本组块 自动文摘 统计方法 向量空间模型
下载PDF
基于UDDI的服务代理的设计与实现 被引量:1
15
作者 索红光 左利云 《计算机工程与设计》 CSCD 北大核心 2007年第18期4526-4528,共3页
针对当前UDDI(universal description,discovery and integration)注册中心缺乏对Web服务QoS(quality of service)信息注册和查找的支持,给出了一个基于UDDI的服务代理(UDDIWSBroker)解决方案。UDDIWSBroker是对UDDI注册中心的一个扩展... 针对当前UDDI(universal description,discovery and integration)注册中心缺乏对Web服务QoS(quality of service)信息注册和查找的支持,给出了一个基于UDDI的服务代理(UDDIWSBroker)解决方案。UDDIWSBroker是对UDDI注册中心的一个扩展,提供了对QoS属性信息的注册和查找支持。根据QoS属性信息的动态变化特性,利用一个Web服务监控代理来自动监测和更新QoS属性信息,并且为服务使用者提供了服务订阅与通知机制,使得用户可以及时了解服务信息的变化。 展开更多
关键词 通用描述发现集成协议 服务质量 服务代理 服务订阅 自动监测
下载PDF
基于Smart Client原油集输信息系统的设计与实现 被引量:1
16
作者 索红光 王雷全 李丽 《计算机系统应用》 2006年第5期58-61,共4页
针对当前客户端技术的发展趋势,分析了传统C/S与B/S技术的不足,介绍了智能客户端面向服务的体系结构。并将智能客户端技术运用在油田集输系统中,建立了一套易部署、可扩展、能离线工作,适应未来油气集输发展需要的分布式原油集输信息... 针对当前客户端技术的发展趋势,分析了传统C/S与B/S技术的不足,介绍了智能客户端面向服务的体系结构。并将智能客户端技术运用在油田集输系统中,建立了一套易部署、可扩展、能离线工作,适应未来油气集输发展需要的分布式原油集输信息系统。 展开更多
关键词 智能客户端 油田集输 离线 部署
下载PDF
聚焦查询的自动文摘研究与实现 被引量:1
17
作者 索红光 安迪 《计算机工程与应用》 CSCD 北大核心 2010年第14期129-131,共3页
聚焦查询的文摘把重点放在文档中用户关心的内容。聚焦查询的自动文摘方法以搜索引擎为问题查询工具,利用汉宁窗函数计算句子重要度,以体现问题与预期答案中的词密度特性。通过窗口从头到尾滑动来计算句子的权值选择出权值高的作为文摘... 聚焦查询的文摘把重点放在文档中用户关心的内容。聚焦查询的自动文摘方法以搜索引擎为问题查询工具,利用汉宁窗函数计算句子重要度,以体现问题与预期答案中的词密度特性。通过窗口从头到尾滑动来计算句子的权值选择出权值高的作为文摘。实验结果表明该方法形成的文摘优于Google文摘。 展开更多
关键词 自动文摘 搜索引擎 汉宁窗
下载PDF
基于WWW缓存的用户长期兴趣发现 被引量:1
18
作者 索红光 杨涛 《计算机系统应用》 2006年第12期59-61,共3页
建立用户兴趣模型是实现个性化服务的关键技术之一。利用Web挖掘的方法,针对用户的兴趣变化,结合用户浏览Web页面的日期和相应Web页面特征项的词频,来建立用户长期和短期兴趣,并且通过模拟实验,验证该方法的有效性。
关键词 个性化服务 WEB挖掘 用户兴趣模型
下载PDF
基于主题短语的搜索引擎结果聚类
19
作者 索红光 孙珊珊 +1 位作者 王玉伟 梁玉环 《计算机系统应用》 2010年第3期107-110,共4页
为了解决搜索引擎检索结果中的主题混杂现象,帮助用户快速准确地定位到有价值的信息,提出基于主题短语的搜索引擎结果聚类方法。首先从检索结果中提取查询词并与相邻词语组成主题短语,建立包含高频独立词语及主题短语的混合向量空间模型... 为了解决搜索引擎检索结果中的主题混杂现象,帮助用户快速准确地定位到有价值的信息,提出基于主题短语的搜索引擎结果聚类方法。首先从检索结果中提取查询词并与相邻词语组成主题短语,建立包含高频独立词语及主题短语的混合向量空间模型,同时引入同义词词林对特征项进行语义扩充,最后采用改进的k-means聚类算法对搜索结果进行聚类,并为各个类别提取类别标签。实验结果表明,该算法能有效提高聚类结果的准确率。 展开更多
关键词 搜索引擎 聚类 主题短语 同义词扩展 K-MEANS算法
下载PDF
用KERMIT协议高效地传输汉字文件
20
作者 索红光 梁玉环 《计算机工程与应用》 CSCD 北大核心 1998年第2期67-69,共3页
KERMIT是一种常用的微机间进行异步文件传输的协议。由于它只用7位数据位传输,在传输8位的汉字字符时先要进行变换,严重影响了传输效率。本文讨论了KERMIT协议的主要特点、影响汉字传输效率的原因,并给出了一种改进方案。
关键词 文件传输协议 汉字文件 KERMIT协议 程序设计
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部