文本分类是NLP(natural language processing,自然语言处理)处理技术的重要分支。信息检索、文本挖掘作为自然语言处理领域的关键技术,给人们的生活带来了许多便利,而文本分类正是这些关键技术开展的重要基础。文本分类作为自然语言处...文本分类是NLP(natural language processing,自然语言处理)处理技术的重要分支。信息检索、文本挖掘作为自然语言处理领域的关键技术,给人们的生活带来了许多便利,而文本分类正是这些关键技术开展的重要基础。文本分类作为自然语言处理研究的一个热点,其主要原理是将文本数据按照一定的分类规则实现自动化分类。目前常见的文本分类方式主要分为基于机器学习和基于深度学习两种,它们的本质是通过计算机自主学习从而提取文本信息中的规则来进行分类。针对数据量较小、硬件运算能力较低的应用场景,往往使用基于机器学习算法而衍生的文本分类模型。该文以期刊论文作为实验数据,研究中文文本分类问题,在改进传统词频算法的基础上提出了一种基于权重预处理的中文文本分类算法PRE-TF-IDF(pre-processing term frequency inverse document frequency)。传统词频算法在对词加权时仅考虑词的出现频率而不考虑词在文本中的位置;PRE-TF-IDF算法在TF-IDF(term frequency inverse document frequency)算法的基础上增加权重预处理和词密度权重两个环节。实验结果显示PRE-TF-IDF算法能够有效提高文本分类的准确性。展开更多
NLP(Natural Language Processing,自然语言处理)是人工智能领域的一个主要研究方向,而文本分类是NLP处理技术的重要分支。自然语言处理使计算机、手机等电子设备能够具有识别理解人类语言的能力,由于其自身的复杂性,目前仍有许多技术...NLP(Natural Language Processing,自然语言处理)是人工智能领域的一个主要研究方向,而文本分类是NLP处理技术的重要分支。自然语言处理使计算机、手机等电子设备能够具有识别理解人类语言的能力,由于其自身的复杂性,目前仍有许多技术难点没有被完全攻克,主要包括不断产生的新词、中文词语的一词多义、自然语言的灵活性等问题。该文以期刊论文作为实验数据,研究中文文本分类问题,在传统卷积神经网络模型的基础上提出了一种基于卷积神经网络和支持向量机结合的文本分类模型CNNSVM(Convolutional Neural Network and Support Vector Machine Classifier)。相较于传统方法,CNNSVM增加了注意力机制,简化了模型参数,并使用基于支持向量机的分类器替代传统模型中的softmax层帮助实现文本的分类。实验结果显示,该模型提升了特征词语的提取效果,有效解决了softmax层泛化能力较弱的问题。展开更多
文摘文本分类是NLP(natural language processing,自然语言处理)处理技术的重要分支。信息检索、文本挖掘作为自然语言处理领域的关键技术,给人们的生活带来了许多便利,而文本分类正是这些关键技术开展的重要基础。文本分类作为自然语言处理研究的一个热点,其主要原理是将文本数据按照一定的分类规则实现自动化分类。目前常见的文本分类方式主要分为基于机器学习和基于深度学习两种,它们的本质是通过计算机自主学习从而提取文本信息中的规则来进行分类。针对数据量较小、硬件运算能力较低的应用场景,往往使用基于机器学习算法而衍生的文本分类模型。该文以期刊论文作为实验数据,研究中文文本分类问题,在改进传统词频算法的基础上提出了一种基于权重预处理的中文文本分类算法PRE-TF-IDF(pre-processing term frequency inverse document frequency)。传统词频算法在对词加权时仅考虑词的出现频率而不考虑词在文本中的位置;PRE-TF-IDF算法在TF-IDF(term frequency inverse document frequency)算法的基础上增加权重预处理和词密度权重两个环节。实验结果显示PRE-TF-IDF算法能够有效提高文本分类的准确性。
文摘NLP(Natural Language Processing,自然语言处理)是人工智能领域的一个主要研究方向,而文本分类是NLP处理技术的重要分支。自然语言处理使计算机、手机等电子设备能够具有识别理解人类语言的能力,由于其自身的复杂性,目前仍有许多技术难点没有被完全攻克,主要包括不断产生的新词、中文词语的一词多义、自然语言的灵活性等问题。该文以期刊论文作为实验数据,研究中文文本分类问题,在传统卷积神经网络模型的基础上提出了一种基于卷积神经网络和支持向量机结合的文本分类模型CNNSVM(Convolutional Neural Network and Support Vector Machine Classifier)。相较于传统方法,CNNSVM增加了注意力机制,简化了模型参数,并使用基于支持向量机的分类器替代传统模型中的softmax层帮助实现文本的分类。实验结果显示,该模型提升了特征词语的提取效果,有效解决了softmax层泛化能力较弱的问题。