期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于类别关键词的突发事件新闻文本分类方法 被引量:11
1
作者 张永奎 李红娟 《计算机应用》 CSCD 北大核心 2008年第B06期139-140,143,共3页
对突发事件新闻领域的文本自动分类问题进行了研究,提出了一种基于类别关键词的分类方法。在应用向量空间模型的基础上,充分考虑了类别关键词对于文本分类的特殊作用,并进行了实验。实验结果表明,加入类别关键词后,文本分类的精度有较... 对突发事件新闻领域的文本自动分类问题进行了研究,提出了一种基于类别关键词的分类方法。在应用向量空间模型的基础上,充分考虑了类别关键词对于文本分类的特殊作用,并进行了实验。实验结果表明,加入类别关键词后,文本分类的精度有较大的提高,该方法具有一定的实用价值。 展开更多
关键词 文本分类 类别关键词 向量空间模型 突发事件新闻
下载PDF
结合类别关键词与注意力机制的药物相互关系抽取模型 被引量:2
2
作者 IKA Novita Dewi 蔡晓玲 +1 位作者 刘晓锋 董守斌 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2021年第1期10-17,共8页
为了增加对不同类别样例的区分度,提高模型的分类效果,提出了结合类别关键词和注意力机制的药物相互关系(DDI)抽取模型KA-BERT。首先基于卡方检验和文档频率获取每个类别的关键词,然后在预训练BERT模型中加入关键词与药物对的位置编码,... 为了增加对不同类别样例的区分度,提高模型的分类效果,提出了结合类别关键词和注意力机制的药物相互关系(DDI)抽取模型KA-BERT。首先基于卡方检验和文档频率获取每个类别的关键词,然后在预训练BERT模型中加入关键词与药物对的位置编码,以增加样例的差异性,并通过注意力机制学习关键词与句子中其他词的分布信息。针对药物关系抽取任务中负样例较多的问题,文中提出了基于规则和模式的负样例过滤方法,以有效降低正负样本比例。与现有基于CNN、基于LSTM和基于BERT的DDI提取模型实验结果的对比表明,KA-BERT模型能够很好地提高药物关系的提取效果,证明了该模型的有效性。在化学-蛋白质相互关系抽取上的测试结果表明,KA-BERT模型的准确率、召回率和F 1值均有明显的提升,证明了该模型的有效性和通用性。 展开更多
关键词 药物相互作用 类别关键词 注意力机制
下载PDF
引入类别关键词的朴素贝叶斯林业文本分类 被引量:2
3
作者 郭肇毅 《乐山师范学院学报》 2022年第8期39-43,共5页
随着互联网的迅猛发展,网络上的文本越来越多,对其进行有效的分类,能方便人们快速获取到有用的信息。但在实际应用中,往往只需针对特定领域的文本进行分类,例如,林业文本分类。对于文本分类这一任务,现在有大量的神经网络方面的优秀模... 随着互联网的迅猛发展,网络上的文本越来越多,对其进行有效的分类,能方便人们快速获取到有用的信息。但在实际应用中,往往只需针对特定领域的文本进行分类,例如,林业文本分类。对于文本分类这一任务,现在有大量的神经网络方面的优秀模型可供使用,但这些模型常常需要耗费大量的时间、资源进行训练,而朴素贝叶斯这个模型虽然简单,但是,其分类效果已经基本满足工程所需。在原始朴素贝叶斯的基础上,引入类别关键词的因素,能够进一步提升分类的效果。 展开更多
关键词 林业文本分类 朴素贝叶斯 类别关键词
下载PDF
Web搜索结果多层聚类方法研究 被引量:1
4
作者 庞观松 蒋盛益 +2 位作者 张黎莎 区雄发 赖旭明 《情报学报》 CSSCI 北大核心 2011年第5期464-470,共7页
为了便于用户浏览搜索引擎返回结果,本文提出了一种基于TFIDF新的文本相似度计算方法,并提出使用具有近似线性时间复杂度的增量聚类算法对文本进行多层聚类的策略。同时,提出了一种从多文本中提取关键词的策略:提取簇中的名词或名词短... 为了便于用户浏览搜索引擎返回结果,本文提出了一种基于TFIDF新的文本相似度计算方法,并提出使用具有近似线性时间复杂度的增量聚类算法对文本进行多层聚类的策略。同时,提出了一种从多文本中提取关键词的策略:提取簇中的名词或名词短语作为候选关键词,综合考虑每个候选关键词的词频、出现位置、长度和文本长度设置加权函数来计算其权重,不需要人工干预以及语料库的协助,自动提取权重最大的候选关键词作为类别关键词。在收集的百度、ODP语料以及公开测试的实验结果表明本文提出方法的有效性。 展开更多
关键词 文本聚类 多层聚类 类别关键词提取 加权函数
下载PDF
基于TF-IDF和余弦相似度的文本分类方法 被引量:99
5
作者 武永亮 赵书良 +2 位作者 李长镜 魏娜娣 王子晏 《中文信息学报》 CSCD 北大核心 2017年第5期138-145,共8页
文本分类是文本处理的基本任务。大数据处理时代的到来致使文本分类问题面临着新的挑战。研究者已经针对不同情况提出多种文本分类算法,如KNN、朴素贝叶斯、支持向量机及一系列改进算法。这些算法的性能取决于固定数据集,不具有自学习... 文本分类是文本处理的基本任务。大数据处理时代的到来致使文本分类问题面临着新的挑战。研究者已经针对不同情况提出多种文本分类算法,如KNN、朴素贝叶斯、支持向量机及一系列改进算法。这些算法的性能取决于固定数据集,不具有自学习功能。该文提出一种新的文本分类方法,包括三个步骤:基于TF-IDF方法提取类别关键词;通过类别关键词和待分类文本关键词的相似性进行文本分类;在分类过程中更新类别关键词改进分类器性能。仿真实验结果表明,本文提出方法的准确度较目前常用方法有较大提高,在实验数据集上分类准确度达到90%,当文本数据量较大时,分类准确度可达到95%。算法初次使用时,需要一定的训练样本和训练时间,但分类时间可下降到其他算法的十分之一。该方法具有自学习模块,在分类过程中,可以根据分类经验自动更新类别关键词,保证分类器准确率,具有很强的现实应用性。 展开更多
关键词 文本分类 大数据 TF-IDF 余弦相似度 类别关键词
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部