期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于KNN分类算法的主题网络爬虫 被引量:5
1
作者 李宏志 宋婕 《宜宾学院学报》 2017年第12期61-65,共5页
提出一种基于KNN算法进行主题分类的方法,研究了主题网络爬虫的系统结构和所涉及的关键技术,包括URL管理器、页面下载器、页面解析器、主题识别模块以及内容存储模块,重点介绍了基于KNN的分类器的主题相关度算法.使用IKAnalyzer实现网... 提出一种基于KNN算法进行主题分类的方法,研究了主题网络爬虫的系统结构和所涉及的关键技术,包括URL管理器、页面下载器、页面解析器、主题识别模块以及内容存储模块,重点介绍了基于KNN的分类器的主题相关度算法.使用IKAnalyzer实现网页内容的中文分词,通过TF-IDF算法实现网页内容的特征提取,并利用KNN分类器计算网页的主题相关度. 展开更多
关键词 主题爬虫 KNN分类算法 tf-idF 主题相关度 IKAnalyzer中文分词
下载PDF
基于VSM的科技期刊文献与专利文献的相似度计算方法研究 被引量:10
2
作者 曾文 徐红姣 +2 位作者 李颖 王莉军 赵婧 《情报工程》 2016年第3期37-42,共6页
文本相似度的计算方法以采用TF-IDF的方法对文本建模成词频向量空间模型(VSM)为主,本文结合科技期刊文献和专利文献特点,对TF-IDF的计算方法进行了改进,将词频的统计改进为科技术语的频率统计,提出了一种针对科技文献相似度的计算方法,... 文本相似度的计算方法以采用TF-IDF的方法对文本建模成词频向量空间模型(VSM)为主,本文结合科技期刊文献和专利文献特点,对TF-IDF的计算方法进行了改进,将词频的统计改进为科技术语的频率统计,提出了一种针对科技文献相似度的计算方法,该方法首先应用自然语言处理技术对科技文献进行预处理,采用科技术语的自动抽取方法进行科技文献术语的自动抽取,结合该文提出的术语权重计算公式构建向量空间模型,来计算科技期刊文献和专利文献之间的相似度。并利用真实有效的科学期刊和文献数据进行实验测试,实验结果表明文中提出的方法优于传统的TF-IDF计算方法。 展开更多
关键词 自然语言处理 TF—IDF 向量空间模型 科技期刊 专利 相似度
下载PDF
基于支持向量机的中文极短文本分类模型 被引量:30
3
作者 王杨 许闪闪 +4 位作者 李昌 艾世成 张卫东 甄磊 孟丹 《计算机应用研究》 CSCD 北大核心 2020年第2期347-350,共4页
为了有效提取极短文本中的关键特征信息,提出了一种基于支持向量机的极短文本分类模型。首先对原数据进行数据清洗并利用jieba分词将清洗过的数据进行处理;再将处理后的数据存入数据库,通过TF-IDF进行文本特征的提取;同时,利用支持向量... 为了有效提取极短文本中的关键特征信息,提出了一种基于支持向量机的极短文本分类模型。首先对原数据进行数据清洗并利用jieba分词将清洗过的数据进行处理;再将处理后的数据存入数据库,通过TF-IDF进行文本特征的提取;同时,利用支持向量机对极短文本进行分类。经过1-0检验,验证了模型的有效性。实验以芜湖市社管平台中的9906条极短文本数据作为样本进行算法检验与分析。结果表明在分类准确率方面,该方法相比于朴素贝叶斯、逻辑回归、决策树等传统方法得到有效提高;在误分度与精确度指标上匹配结果更加均衡。 展开更多
关键词 支持向量机 jieba分词 极短文本分类 tf-idF
下载PDF
基于LSI/SVD的文本分类方法研究 被引量:1
4
作者 龙军 彭毅 《微计算机信息》 2009年第30期10-12,共3页
论文通过分析传统向量空间模型(VSM)的信息检索模式和讨论基于特征项-文本矩阵的特征项赋权因子(TF-IDE)的赋值问题,提出以潜在语义索引/奇异值分解(LSI/SVD)方法为基础,采用文本相似度描述特征项语义间的联系,运用截断法来降低特征项-... 论文通过分析传统向量空间模型(VSM)的信息检索模式和讨论基于特征项-文本矩阵的特征项赋权因子(TF-IDE)的赋值问题,提出以潜在语义索引/奇异值分解(LSI/SVD)方法为基础,采用文本相似度描述特征项语义间的联系,运用截断法来降低特征项-文本矩阵原始向量空间维数,解决特征项之间存在语义缺乏约束及向量空间维数过大的问题。仿真实验表明,该方法相对于传统向量空间模型更加高效实用。 展开更多
关键词 向量空间模型 信息检索 潜在语义索引/奇异值分解 特征项赋权因子
下载PDF
Integrated Design System of Toroidal Field Coil for CFETR
5
作者 罗志仁 刘旭峰 +2 位作者 杜双松 王忠伟 宋云涛 《Plasma Science and Technology》 SCIE EI CAS CSCD 2016年第9期960-966,共7页
Integrating engineering software is meaningful but challenging for a system code of a fusion device. This issue is seldom considered by system codes currently. Therefore, to discuss the issue, the Integrated Design Sy... Integrating engineering software is meaningful but challenging for a system code of a fusion device. This issue is seldom considered by system codes currently. Therefore, to discuss the issue, the Integrated Design System of TF Coil (IDS-TFC) has been worked out, which consists of physical calculation, CAD, and Finite Element Analysis (FEA). Furthermore, an Integrated and Automatically Optimized Method (IAOM) has been created to address the integration and interfaces. The method utilizes a geometry parameter to connect each design submodule and achieve automatic optimization. Double-objectives optimization has been realized, confirming it is feasible to integrate and optimize engineering design and physical calculation. Moreover, IDS- TFC can also serve as a useful reference of integrated design processing for subsequent fusion design. 展开更多
关键词 IDS-TFC IAOM engineering software INTEGRATION TF Coil
下载PDF
基于PageRank值的文本相似度改进模型 被引量:1
6
作者 熊才权 田浩 《网络安全技术与应用》 2010年第6期55-57,共3页
相似度计算的质量对于搜索引擎的速度和准确率有着很大的影响。本文提出了基于PageRank值的文本相似度改进模型(BPVSM),以PageRank值对文本分类,在计算文本相似度时考虑不同类别的信息差异。对1370条信息进行检索,用改进后的模型对检索... 相似度计算的质量对于搜索引擎的速度和准确率有着很大的影响。本文提出了基于PageRank值的文本相似度改进模型(BPVSM),以PageRank值对文本分类,在计算文本相似度时考虑不同类别的信息差异。对1370条信息进行检索,用改进后的模型对检索结果进行重排序。实验表明,改进后的模型可以提高检索的准确率。 展开更多
关键词 搜索引擎 PAGERANK 向量空间模型 TF/IDF
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部