期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于SUMO和WordNet本体集成的文本分类模型研究 被引量:8
1
作者 胡泽文 王效岳 白如江 《现代图书情报技术》 CSSCI 北大核心 2011年第1期31-38,共8页
针对传统文本分类方法和目前语义分类方法中存在的问题,提出基于SUMO和W ordNet本体集成的文本分类模型,该模型利用W ordNet同义词集与SUMO本体概念之间的映射关系,将文档-词向量空间中的词条映射成本体中相应的概念,形成文档-概念向量... 针对传统文本分类方法和目前语义分类方法中存在的问题,提出基于SUMO和W ordNet本体集成的文本分类模型,该模型利用W ordNet同义词集与SUMO本体概念之间的映射关系,将文档-词向量空间中的词条映射成本体中相应的概念,形成文档-概念向量空间进行文本自动分类。实验表明,该方法能够极大降低向量空间维度,提高文本分类性能。 展开更多
关键词 SUMO本体 WORDNET 本体集成 文本分类模型 词向量空间 概念向量空间
原文传递
基于Boost和信任函数的多文本分类器组合模型 被引量:1
2
作者 王爱华 张铭 +1 位作者 杨冬青 唐世渭 《计算机工程与应用》 CSCD 北大核心 2002年第2期51-54,共4页
人们对文本分类已经进行了大量的研究,取得很多研究成果,设计多种分类器,达到相当高的分类精确度。但使用单分类器进行文本分类有一些缺点,如分类模型对样本的敏感性,而且单分类器的分类精度很难再有很大的提高。因此,使用多分类器以提... 人们对文本分类已经进行了大量的研究,取得很多研究成果,设计多种分类器,达到相当高的分类精确度。但使用单分类器进行文本分类有一些缺点,如分类模型对样本的敏感性,而且单分类器的分类精度很难再有很大的提高。因此,使用多分类器以提高分类的精度是一个非常活跃的研究领域。文章提出使用近年在传统概率统计方法之上发展起来的信任函数理论和方法对多个文本分类器进行组合使用。具体方法是使用信任函数将分类结果进行综合,得到最终的分类结果。实验证明,基于信任函数的信息综合方法比已有的方法更合理,精度也得到提高。 展开更多
关键词 BOOST 信任函数 文本分类器组合模型 文档管理 信息处理
下载PDF
中文文本2-分类模型在上证指数趋势分析中的应用研究
3
作者 李长荣 阚戈 《齐齐哈尔大学学报(自然科学版)》 2005年第2期33-36,共4页
研究了基于概念的中文文本特征表示技术,并提出一个应用于上证指数趋势分析的中文文本2-分类模型。
关键词 文本挖掘 趋势分析 概念 机器学习 中文文本2-分类模型
下载PDF
基于fastText的中文文本分类 被引量:19
4
作者 代令令 蒋侃 《计算机与现代化》 2018年第5期35-40,85,共7页
在保证文本分类准确率的情况下缩短分类时间一直是文本分类领域的一个研究目标。针对目前文本分类处理过程复杂且耗时过长的问题,将Facebook开源的句子分类和单词特征学习模型fastText引入到中文文本分类领域中,并验证其在中文分类中的... 在保证文本分类准确率的情况下缩短分类时间一直是文本分类领域的一个研究目标。针对目前文本分类处理过程复杂且耗时过长的问题,将Facebook开源的句子分类和单词特征学习模型fastText引入到中文文本分类领域中,并验证其在中文分类中的效果。相对于目前主流的文本分类方法,基于fastText模型的分类方法在保证分类效果的同时,大大缩短了分类时间。此外,在分类准确率和参数设置方面进行分析并得出相应的优化规则。 展开更多
关键词 文本分类 fastText 线性分类 快速文本分类模型
下载PDF
浅谈文本分类技术
5
作者 李淑英 杜丽娟 《数字技术与应用》 2008年第12期3-4,共2页
随着信息技术的发展,信息量呈几何级数增加,人们对信息资源的依赖性越来越大,如何实现信息的分类,尤其是中文文本信息的有效分类是目前中文信息处理研究的一个重要分支领域。本文主要从文本分类技术的角度阐述如何使用户不但能够方... 随着信息技术的发展,信息量呈几何级数增加,人们对信息资源的依赖性越来越大,如何实现信息的分类,尤其是中文文本信息的有效分类是目前中文信息处理研究的一个重要分支领域。本文主要从文本分类技术的角度阐述如何使用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易。 展开更多
关键词 文本分类 决策树 文本分类模型
下载PDF
基于LDA主题模型与Apriori算法的旅游数据挖掘 被引量:6
6
作者 涂晨 李鑫 叶程轶 《物联网技术》 2023年第3期108-112,共5页
由于OTA(在线旅游)和UGC(游客的用户生成内容)数据的内容较为分散和碎片化,导致有效数据获取率极其低下。而在当前针对有效数据获取情况的研究中,缺乏能够从文本中抽取相关旅游要素的解决方法。为此,借由LDA主题模型构建文本相似度计算... 由于OTA(在线旅游)和UGC(游客的用户生成内容)数据的内容较为分散和碎片化,导致有效数据获取率极其低下。而在当前针对有效数据获取情况的研究中,缺乏能够从文本中抽取相关旅游要素的解决方法。为此,借由LDA主题模型构建文本相似度计算规则,构建文本分类模型对无标注的微信公众号文章进行主题分类;借由TextRank关键词提取方法,提取出各个评论中的产品名称,并通过中文情感分析在产品评论的基础上建立多维度热度分析模型做出年度热度排行;采用Apriori关联分析思想对产品进行关联度排行,旨在能够帮助分析新冠疫情时期城市周边游的发展和未来规划。 展开更多
关键词 LDA主题模型 文本分类模型 中文情感分析 关联分析 APRIORI算法 数据挖掘
下载PDF
基于NLP的股票选择策略的优化研究
7
作者 吴彦昕 李宏滨 胡冠真 《现代计算机》 2024年第3期76-82,共7页
由于股评、新闻对股票价格变化有巨大影响,为选出优质股票以提高投资的收益率,采用了自然语言处理NLP技术对股评数据和新闻数据进行分析,基于朴素贝叶斯模型建立了文本情感倾向分类模型,模型预测准确率达到84%,生成了股评因子。基于LDA... 由于股评、新闻对股票价格变化有巨大影响,为选出优质股票以提高投资的收益率,采用了自然语言处理NLP技术对股评数据和新闻数据进行分析,基于朴素贝叶斯模型建立了文本情感倾向分类模型,模型预测准确率达到84%,生成了股评因子。基于LDA主题模型对新闻文本进行话题建模,快速获取新闻文本主题,并引入困惑度寻找文档最优主题数,生成了新闻因子,将股评因子和新闻因子作为筛选股票的依据,从股评和新闻信息中获取对股市带来的影响因素,从而优化选股策略。对于股票基本面数据,采用决策树模型进行因子的重要性分析,选出重要性最高的前5个因子,模型预测准确率达到88%。通过决策树模型,可以更准确地确定哪些因子在影响股价变化方面发挥着关键作用,这种改进的方法能够提高选股策略的有效性和准确性。最终使用主成分分析(PCA)对数据进行降维处理,依据主成分数值的高低来进行股票选择。 展开更多
关键词 自然语言处理 文本情感倾向分类模型 LDA主题模型 决策树模型 主成分分析
下载PDF
基于语义导向的软件在线升级功能逆向定位
8
作者 吕小少 舒辉 +1 位作者 康绯 黄宇垚 《计算机科学》 CSCD 北大核心 2022年第12期353-361,共9页
针对软件在线升级的劫持攻击是网络攻击最常用的手段之一。程序分析是快速自动化评估软件升级安全的重要方法,软件中升级功能函数快速逆向定位是实现静态分析和提高动态分析效率的关键前提。传统的程序分析逆向定位,依靠人工经验,根据... 针对软件在线升级的劫持攻击是网络攻击最常用的手段之一。程序分析是快速自动化评估软件升级安全的重要方法,软件中升级功能函数快速逆向定位是实现静态分析和提高动态分析效率的关键前提。传统的程序分析逆向定位,依靠人工经验,根据字符串、API函数等语义信息的交叉引用链关系来实现,效率较低,且无法实现自动化。为解决该问题,提出了一种基于语义分析与逆向分析相结合的软件升级功能定位方法。首先针对软件二进制程序中常见的语义信息(如字符串、函数名、API函数等),建立一个基于自然语言处理的升级语义分类模型;然后借助逆向分析工具提取软件的语义信息,并通过升级语义分类模型来识别升级语义信息;最后定义了一种函数关系调用图形树上的升级函数关键节点求解算法,对升级函数进行求解。文中设计并实现了一个软件在线升级功能定位原型系统,并对常用的153款软件实施了升级功能逆向定位分析,其中126款软件定位成功。通过定位分析初步评估部分软件升级的安全性,获得CNNVD编号漏洞1个,CNVD编号漏洞5个。 展开更多
关键词 软件在线升级 语义信息 文本分类模型 二进制程序逆向分析 函数定位
下载PDF
Design and implementation of a large-scale multi-class text classifier
9
作者 于水 张亮 马范援 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2005年第6期690-695,共6页
Although, researchers in the ATC field have done a wide range of work based on SVM, almost all existing approaches utilize an empirical model of selection algorithms. Their attempts to model automatic selection in pra... Although, researchers in the ATC field have done a wide range of work based on SVM, almost all existing approaches utilize an empirical model of selection algorithms. Their attempts to model automatic selection in practical, large-scale, text classification systems have been limited. In this paper, we propose a new model selection algorithm that utilizes the DDAG learning architecture. This architecture derives a new large-scale text classifier with very good performance. Experimental results show that the proposed algorithm has good efficiency and the necessary generalization capability while handling large-scale multi-class text classification tasks. 展开更多
关键词 model selection DAGSVM automatic text classification
下载PDF
Meaningful String Extraction Based on Clustering for Improving Webpage Classification
10
作者 Chen Jie Tan Jianlong +1 位作者 Liao Hao Zhou Yanquan 《China Communications》 SCIE CSCD 2012年第3期68-77,共10页
Since webpage classification is different from traditional text classification with its irregular words and phrases,massive and unlabeled features,which makes it harder for us to obtain effective feature.To cope with ... Since webpage classification is different from traditional text classification with its irregular words and phrases,massive and unlabeled features,which makes it harder for us to obtain effective feature.To cope with this problem,we propose two scenarios to extract meaningful strings based on document clustering and term clustering with multi-strategies to optimize a Vector Space Model(VSM) in order to improve webpage classification.The results show that document clustering work better than term clustering in coping with document content.However,a better overall performance is obtained by spectral clustering with document clustering.Moreover,owing to image existing in a same webpage with document content,the proposed method is also applied to extract image meaningful terms,and experiment results also show its effectiveness in improving webpage classification. 展开更多
关键词 webpage classification meaningfulstring extraction document clustering term cluste-ring K-MEANS spectral clustering
下载PDF
《清华大学学报》(自然科学版)第45卷第1—12,S1期2005年总目次
11
《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第12期1708-1718,共11页
关键词 自然科学版 王明文 S1 文本分类模型 清华大学 学报 连续出版物 算法 目次 卷第
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部