期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
新的关键字提取算法研究 被引量:6
1
作者 高俊波 栾翠菊 王晓峰 《计算机工程与设计》 CSCD 北大核心 2008年第3期765-767,共3页
传统的关键字提取算法往往是基于高频词提取的,但文档中的关键字往往并不都是高频词,因此还需要从非高频词集中找出关键字。把一篇文档抽象为一个图:结点表示词语,边表示词语的同现关系;并基于文档的这种拓扑结构,提出了一种新的关键字... 传统的关键字提取算法往往是基于高频词提取的,但文档中的关键字往往并不都是高频词,因此还需要从非高频词集中找出关键字。把一篇文档抽象为一个图:结点表示词语,边表示词语的同现关系;并基于文档的这种拓扑结构,提出了一种新的关键字提取算法,并和传统的关键字提取算法作了比较,在精确率、覆盖率方面均有不错的效果。 展开更多
关键词 文本检索 关键字提取 偏向度 聚类
下载PDF
一种基于信息增益和改进的PageRank的关键字提取方法
2
作者 郑晓刚 韩立新 +1 位作者 白书奎 曾晓勤 《计算机应用与软件》 CSCD 北大核心 2012年第9期75-76,86,共3页
传统的关键字提取方法一般基于TFIDF,不仅消耗的时间过多,而且效果也不理想。提出用信息增益的思想来对文中的词进行权重的计算,并在此基础上结合改进的PageRank来提取文中的关键字。实验结果表明,该种方法得到的结果明显优于传统方法... 传统的关键字提取方法一般基于TFIDF,不仅消耗的时间过多,而且效果也不理想。提出用信息增益的思想来对文中的词进行权重的计算,并在此基础上结合改进的PageRank来提取文中的关键字。实验结果表明,该种方法得到的结果明显优于传统方法得到的结果。 展开更多
关键词 关键字提取 信息增益 PAGERANK
下载PDF
基于竞争学习网络的中文关键字提取算法
3
作者 沈学利 程宇伟 《计算机工程》 CAS CSCD 2013年第2期207-210,215,共5页
为提高中文关键字的提取准确率,提出一种基于竞争学习网络的中文关键字提取算法。对文章进行分词,得到单个词组或短语,视其为单个神经元,将神经元输入竞争学习网络的输入层,通过竞争层上神经元的相互竞争,获得一个或几个活跃的神经元,... 为提高中文关键字的提取准确率,提出一种基于竞争学习网络的中文关键字提取算法。对文章进行分词,得到单个词组或短语,视其为单个神经元,将神经元输入竞争学习网络的输入层,通过竞争层上神经元的相互竞争,获得一个或几个活跃的神经元,使用合并权值及聚类分析方法得到文章的关键字。实验结果表明,该算法提取关键字的平均命中率高于词频-逆文档频率算法和传统的词频算法,鲁棒性较好。 展开更多
关键词 关键字提取 平均命中率 竞争学习网络 神经元 输入层 竞争层
下载PDF
基于节点删除指标的关键字提取策略 被引量:2
4
作者 阚洳沂 唐雁 《西南师范大学学报(自然科学版)》 CAS CSCD 北大核心 2008年第2期119-122,共4页
在分析现有关键字提取算法的基础上,提出了一个基于词语网络的英文文档关键字提取算法,采用节点删除指标度量节点(词语)重要性.所提取的关键字不仅包括高频单词和短语,而且包括文档中的重要但出现频率不高的单词和短语.对比实验结果证... 在分析现有关键字提取算法的基础上,提出了一个基于词语网络的英文文档关键字提取算法,采用节点删除指标度量节点(词语)重要性.所提取的关键字不仅包括高频单词和短语,而且包括文档中的重要但出现频率不高的单词和短语.对比实验结果证明了该算法的有效性. 展开更多
关键词 节点删除指标 关键字提取 词语网络
下载PDF
基于SWN理论提取复合关键字系统的设计与实现 被引量:4
5
作者 周雅夫 马力 董洛兵 《西安邮电学院学报》 2007年第5期82-86,共5页
实现了一个利用小世界网络模型(SWN)提取中文文档的关键字的系统。小世界网络模型具有两个统计性质:平均路径长度和聚类系数。本系统使用的算法首先对文档进行分词,以分词之间的相邻关系为边、以分词为节点构造文档结构图。然后计算每... 实现了一个利用小世界网络模型(SWN)提取中文文档的关键字的系统。小世界网络模型具有两个统计性质:平均路径长度和聚类系数。本系统使用的算法首先对文档进行分词,以分词之间的相邻关系为边、以分词为节点构造文档结构图。然后计算每一个分词的平均路径长度变化量和聚类系数变化量,并且使用这两个变化量作为提取关键字的标准,最后按照一定策略合并关键字成复合关键字。本文首先详细介绍了小世界网络模型的概念和在关键字提取方面的应用,然后介绍了本系统的设计与实现,最后通过实验证明了该算法的正确性和有效性。 展开更多
关键词 小世界网络 关键字提取 平均路径长度变化量 聚类系数变化量
下载PDF
基于关键字模糊提取法的电机组控制系统设计
6
作者 余常文 黄华 +1 位作者 陈代祥 刘桂芳 《测控技术》 CSCD 北大核心 2014年第5期82-85,共4页
由于工作条件与环境等限制,语音识别在工业生产和日常生活中应用不成熟。基于MFC(microsoft foundation classes)和SI4432无线数据传输终端,完成了电机组语音控制系统设计,该系统由上位机语音识别软件、无线数据传输终端和电机组控制电... 由于工作条件与环境等限制,语音识别在工业生产和日常生活中应用不成熟。基于MFC(microsoft foundation classes)和SI4432无线数据传输终端,完成了电机组语音控制系统设计,该系统由上位机语音识别软件、无线数据传输终端和电机组控制电路组成。针对语音误识和环境嘈杂引起的控制命令错误问题,使用了关键字模糊提取法和无线自组网方式。控制命令从语句中提取,克服了只识别特定命令的缺陷。实践结果表明,该系统的语音识别准确率大于95%,控制命令的提取、传输,以及电机组转速和状态均达到预期效果,具有很好的应用前景。 展开更多
关键词 语音识别 关键字模糊提取 电机组控制 SI4432 MFC
下载PDF
利用博客链接平台选取联合关键字的博客聚类方法 被引量:2
7
作者 王琦 霍纬纲 《计算机应用研究》 CSCD 北大核心 2017年第12期3560-3563,3588,共5页
针对全文本关键字检索的时间成本高、采用标签/类别会产生语句歧义和同义词等问题,提出在博客链接平台上选取联合关键字进行博客聚类。假设一个博客文章被查询的候选关键字(或者联合关键字)可以用于表示这个博客文章的主题,为验证该假设... 针对全文本关键字检索的时间成本高、采用标签/类别会产生语句歧义和同义词等问题,提出在博客链接平台上选取联合关键字进行博客聚类。假设一个博客文章被查询的候选关键字(或者联合关键字)可以用于表示这个博客文章的主题,为验证该假设,首先将跟踪代码嵌入到博客链接(BC)组件中,以收集读者查询的关键字;然后,选取适当的候选关键字作为联合关键字;最后,使用重叠投影、交互信息投影、分布式分布信息和肯德尔τ系数这四种相似性度量以验证BC组件提取的联合关键字。实验结果表明,提出的方法可以为查询者提供一条找到对应博客的快速通道;此外,生成的联合关键字可以减少全文本关键字检索过程的复杂度和冗余度,很好地满足了博客用户的需求。 展开更多
关键词 关键字提取 博客链接平台 博客聚类 联合关键字 相似性度量
下载PDF
基于TextRank的关键词提取算法 被引量:5
8
作者 门家乐 《电子世界》 2018年第15期31-32,共2页
关键字提取是自然语言处理中一项重要任务,也是很多自然语言处理任务的基础步骤,做好自然语言处理能够大大提高其他任务的精度,本文主要介绍如何用Text Rank做关键字提取。文章前面主要介绍关键字提取背景、意义和应用,文章第二部分对... 关键字提取是自然语言处理中一项重要任务,也是很多自然语言处理任务的基础步骤,做好自然语言处理能够大大提高其他任务的精度,本文主要介绍如何用Text Rank做关键字提取。文章前面主要介绍关键字提取背景、意义和应用,文章第二部分对中文分词、文档图模型构建、Text Rank原理做了重点介绍,包括了自然语言处理中的统计语言模型,机器学习中Text Rank算法。 展开更多
关键词 关键字提取 中文分词 TextRank 图模型构建
下载PDF
多关键词提取在凭证摘要分析中的应用
9
作者 罗群 牛艳芳 《中国管理信息化》 2015年第19期51-53,共3页
审计人员对凭证摘要的审查是当前财务审计遇到最多的情况之一,原先依靠翻阅纸质凭证的摘要审查方法已经不能满足信息化环境对审计人员的查账需求。该案例基于被审计单位电子凭证摘要的数据特征,融合电子数据分析方法与查账技术,通过EXCE... 审计人员对凭证摘要的审查是当前财务审计遇到最多的情况之一,原先依靠翻阅纸质凭证的摘要审查方法已经不能满足信息化环境对审计人员的查账需求。该案例基于被审计单位电子凭证摘要的数据特征,融合电子数据分析方法与查账技术,通过EXCEL实现多关键词的提取,以更好支持审计人员进一步的数据分类分析。 展开更多
关键词 摘要分析 关键字提取 数据分类
下载PDF
基于离散序列报文的协议格式特征自动提取算法 被引量:9
10
作者 李阳 李青 张霞 《计算机应用》 CSCD 北大核心 2017年第4期954-959,969,共7页
针对缺少会话信息的离散序列报文,提出一种基于离散序列报文的协议格式(SPMbFSC)特征自动提取算法。SPMbFSC在对离散序列报文进行聚类的基础上,通过改进的频繁模式挖掘算法提取出协议关键字,进一步对协议关键字进行选择,筛选出协议格式... 针对缺少会话信息的离散序列报文,提出一种基于离散序列报文的协议格式(SPMbFSC)特征自动提取算法。SPMbFSC在对离散序列报文进行聚类的基础上,通过改进的频繁模式挖掘算法提取出协议关键字,进一步对协议关键字进行选择,筛选出协议格式特征。仿真结果表明,SPMbFSC在以单个报文为颗粒度的识别中对FTP、HTTP等六种协议的识别率均能达到95%以上,在以会话为颗粒度的识别中识别率可达90%。同等实验条件下性能优于自适应特征(AdapSig)提取方法。实验结果表明SPMbFSC不依赖会话数据的完整性,更符合实际应用中由于接收条件限制导致会话信息不完整的情形。 展开更多
关键词 离散序列报文 协议关键字提取 自适应特征挖掘 格式特征 协议识别
下载PDF
搜索引擎中的反SEO作弊研究 被引量:14
11
作者 王利刚 赵政文 赵鑫鑫 《计算机应用研究》 CSCD 北大核心 2009年第6期2035-2037,共3页
从搜索引擎优化服务开始,分析了现在所存在的搜索引擎优化的作弊手段;然后提出了四种方法用来预防、破解作弊,并结合现实总结提出逐级分层审查制度;最后结合Google搜索引擎,讨论并分析了Google搜索引擎的反作弊方法及其中的PR值算法。
关键词 搜索引擎优化 关键字提取 网站结构设计 链接
下载PDF
基于FPGA的并行多发可编程解析器 被引量:2
12
作者 杨惠 冯振乾 厉俊男 《计算机工程与科学》 CSCD 北大核心 2019年第1期24-30,共7页
传统的报文解析器解析的协议类型和协议层次固定,缺乏对新网络协议的支撑,限制了网络设备的可编程性。抽象出形式化的解析流程,并基于FPGA实现协议无关的可编程解析器,对新协议的支撑无需更改硬件,仅需要重新映射解析图。基于该机制,引... 传统的报文解析器解析的协议类型和协议层次固定,缺乏对新网络协议的支撑,限制了网络设备的可编程性。抽象出形式化的解析流程,并基于FPGA实现协议无关的可编程解析器,对新协议的支撑无需更改硬件,仅需要重新映射解析图。基于该机制,引入一系列优化技术,克服了包解析固有的串行性,节约了存储资源,为实现高速的可编程报文解析提供了有效的解决方案。基于通用多核和高性能FPGA实验平台,进行了硬件代价和性能的评估。实验结果表明,采用可编程解析器能大幅提升报文解析性能,实现了通用网络协议及潜在的网络协议快速的解析,可有效地支持快速的定制网络协议发展。 展开更多
关键词 可编程 报文解析 关键字提取 报文分类
下载PDF
融合TextRank算法的中文短文本相似度计算 被引量:4
13
作者 卢佳伟 陈玮 尹钟 《电子科技》 2020年第10期51-56,共6页
传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义... 传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义相关性,同时采用改进的TextRank算法提取文本关键字,增强了文本特征的表达并消除了大量冗余信息,降低了文本特征矩阵的稀疏性,使文本相似度的计算更加高效。不同模型的仿真实验结果表明,融合改进的TextRank算法与Bert词向量技术的方法具有更好的文本相似度计算性能。 展开更多
关键词 文本相似度 关键字提取 TextRank算法 Bert 词向量技术 向量空间模型
下载PDF
基于小世界网络理论的机会发现算法 被引量:1
14
作者 徐悦竹 刘大昕 +1 位作者 张健沛 孙晓华 《计算机工程与应用》 CSCD 北大核心 2009年第12期1-4,共4页
随着互联网络的不断发展,人们需要从大量数据中提取可能成为机会的信息,传统的基于高频模式的重要事件提取算法不能满足现状。提出了一种基于小世界网络(Small World)理论的关键字提取算法,该算法以KeyGraph思想为基础,构建词语关联图,... 随着互联网络的不断发展,人们需要从大量数据中提取可能成为机会的信息,传统的基于高频模式的重要事件提取算法不能满足现状。提出了一种基于小世界网络(Small World)理论的关键字提取算法,该算法以KeyGraph思想为基础,构建词语关联图,并利用小世界理论对图进行优化,从而不仅能够发现高频事件,而且能够发现相对低频而且意义重要的事件。最后,通过实验验证,用该算法提取的潜在事件是机会。 展开更多
关键词 关键字提取 小世界网络 机会
下载PDF
基于排序式SVM的搜索自适应排序系统实现 被引量:1
15
作者 薛晓慧 芮光辉 +1 位作者 李炜东 袁培森 《计算机技术与发展》 2021年第10期203-208,214,共7页
随着社会信息化的程度不断提高,搜索引擎作为广泛使用的信息检索工具,用户对于搜索引擎智能化和个性化的需求不断提高,其中元搜索引擎由于能够整合多个独立型搜索引擎的结果而被广泛研究。为了解决当前元搜索引擎信息覆盖率不足和查准... 随着社会信息化的程度不断提高,搜索引擎作为广泛使用的信息检索工具,用户对于搜索引擎智能化和个性化的需求不断提高,其中元搜索引擎由于能够整合多个独立型搜索引擎的结果而被广泛研究。为了解决当前元搜索引擎信息覆盖率不足和查准率不高的问题,并为用户提供个性化和智能化的搜索结果,设计并实现了一个网页个性化搜索自适应排序系统。该系统基于元搜索引擎,针对中文语境,利用ICTCLAS中文分词方法和TF-IDF算法,选取若干常用独立型搜索引擎计算相似度并合并搜索结果,再基于Ranking SVM排序学习方法,对合并后的结果进行重排序得到个性化的搜索结果。利用Java和JSP实现上述系统并测试,实验结果表明该系统在中文语境下能对多个独立型搜索引擎的结果进行整合,能对整合结果进行个性化的重排序。 展开更多
关键词 信息检索 元搜索引擎 分词处理 关键字提取 Ranking SVM
下载PDF
网络辅助答疑系统的设计与实现 被引量:2
16
作者 姜良华 《电脑知识与技术(过刊)》 2011年第9X期6451-6452,共2页
师生通过E-mail或QQ可以进行答疑,但通过这些方式,教师不可能及时回答众多学生的问题,并且不断地回答重复或相似的问题也是低效。该文讨论了具体课程网络辅助答疑系统的设计与实现。教师利用该系统能够极大地提高网络答疑效率。
关键词 辅助答疑 关键字提取 关键字匹配
下载PDF
柑桔病虫害自适用本体构建方法 被引量:2
17
作者 赵嫦花 米春桥 《吉首大学学报(自然科学版)》 CAS 2018年第5期86-89,共4页
设计了柑桔病虫害关键字提取算法,并构建了用户友好的界面系统,以便于农业专家上传与柑桔虫害相关的文本文件.系统从文本文件中提取关键字并与AGROVOC词典进行对比,生成柑桔病虫害本体库,农业专家可以通过专家知识库来补充新的病虫害信息.
关键词 关键字提取 本体 专家系统 柑桔病虫害
下载PDF
改进的文档相似性比较方法
18
作者 张乔豪 罗雅文 《桂林航天工业学院学报》 2021年第4期421-427,共7页
基于现有文档相似性比较方法进行改进,该方法由前人提出,但在实际应用中暴露出问题。所提出的改进是对现有方法过程进行部分改进,如对输入的文档进行预处理、改进文档向量以及标注关键字词性。经过最终实验验证,改进方法提高文档相似性... 基于现有文档相似性比较方法进行改进,该方法由前人提出,但在实际应用中暴露出问题。所提出的改进是对现有方法过程进行部分改进,如对输入的文档进行预处理、改进文档向量以及标注关键字词性。经过最终实验验证,改进方法提高文档相似性比较结果的准确度和效率。 展开更多
关键词 信息检索 关键字提取 词袋模型 文档向量 TF-IDF
下载PDF
基于OCR的变电站操作票识别算法研究
19
作者 仲伟 邵建新 《电力设备管理》 2021年第8期44-46,共3页
提出了一种变电站操作票复核系统,整个过程工作人员只需将操作票放置于高拍仪下,在服务器平台侧点击图像识别与任务执行即可。
关键词 变电站 操作票 图像识别技术 关键字提取
下载PDF
学习资源智能标注系统的研究
20
作者 周菊明 张良龙 《华夏教师》 2017年第13期30-31,共2页
本文依托易加互动学习平台,以用户上传学习资源行为为入口,对学习资源进行智能关键字标注.其中,对学习资源智能生成关键字标注做了流程设计,依据功能模块进行了架构设计.同时,本文还对学习资源智能标注系统详细介绍了技术实现过程.
关键词 语音识别 分词 提取关键字 转码
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部