基于《中国图书馆分类法》(下简称《中图法》)的文献深层分类蕴含着两个经典的自然语言处理问题:极限多标签文本分类(Extreme Multi-label Text Classification,XMC)和层次文本分类(Hierarchical Text Classification,HTC)。然而目前基...基于《中国图书馆分类法》(下简称《中图法》)的文献深层分类蕴含着两个经典的自然语言处理问题:极限多标签文本分类(Extreme Multi-label Text Classification,XMC)和层次文本分类(Hierarchical Text Classification,HTC)。然而目前基于《中图法》的文献分类研究普遍将其视为普通的文本分类问题,由于没有充分挖掘问题的核心特点,这些研究在深层分类上的效果普遍不理想甚至不可行。相较于同类研究,本文基于对《中图法》文献分类特点和难点的深入分析,从XMC和HTC两个角度对基于《中图法》的文献深层分类和相关的解决方案进行了考察和研究,并针对该场景下的特点进行应用和创新,不仅提高了分类的准确度,还扩展了分类的深度和广度。本文模型首先通过适用于XMC问题的轻量深度学习模型提取了文本的语义特征作为分类的基础依据,而后针对《中图法》分类中的HTC问题,利用LTR(Learning to Rank)框架融入包括层级结构信息等多元特征作为分类的辅助依据,极大化地挖掘了蕴含在文本语义及分类体系中的信息和知识。本模型兼具深度学习模型强大的语义理解能力与机器学习模型的可解释性,同时具备良好的可扩展性,后期可较为便捷地融入专家定制的新特征进行提高,并且模型较为轻量,可在有限计算资源下轻松应对数万级别的分类标签,为基于《中图法》的全深度分类奠定良好的基础。展开更多
为了提升变电站数据流检测的实时性与准确性,提出一种使用白鲸优化(beluga whale optimization,BWO)算法优化基于密度的噪声应用空间聚类(density based spatial clustering of applications with noise,DBSCAN)算法,与使用圆圈搜索算法...为了提升变电站数据流检测的实时性与准确性,提出一种使用白鲸优化(beluga whale optimization,BWO)算法优化基于密度的噪声应用空间聚类(density based spatial clustering of applications with noise,DBSCAN)算法,与使用圆圈搜索算法(circle search algorithm,CSA)优化单分类正则核极限学习机(one class regularized kernel extreme learning machine,OCRKELM)相结合的变电站通信网络数据流异常检测方法。首先,利用BWO-DBSCAN对正常数据流进行聚类,形成样本簇;其次,通过CSA-OCRKELM模型对异常数据流进行实时检测;最后,利用OPNET仿真软件仿真模拟变电站的通信行为并进行对比分析,验证所提方法的有效性。仿真实验结果表明所构建检测模型的检测率约为99%,较其他检测模型具有较高的性能与准确率。展开更多
文摘基于《中国图书馆分类法》(下简称《中图法》)的文献深层分类蕴含着两个经典的自然语言处理问题:极限多标签文本分类(Extreme Multi-label Text Classification,XMC)和层次文本分类(Hierarchical Text Classification,HTC)。然而目前基于《中图法》的文献分类研究普遍将其视为普通的文本分类问题,由于没有充分挖掘问题的核心特点,这些研究在深层分类上的效果普遍不理想甚至不可行。相较于同类研究,本文基于对《中图法》文献分类特点和难点的深入分析,从XMC和HTC两个角度对基于《中图法》的文献深层分类和相关的解决方案进行了考察和研究,并针对该场景下的特点进行应用和创新,不仅提高了分类的准确度,还扩展了分类的深度和广度。本文模型首先通过适用于XMC问题的轻量深度学习模型提取了文本的语义特征作为分类的基础依据,而后针对《中图法》分类中的HTC问题,利用LTR(Learning to Rank)框架融入包括层级结构信息等多元特征作为分类的辅助依据,极大化地挖掘了蕴含在文本语义及分类体系中的信息和知识。本模型兼具深度学习模型强大的语义理解能力与机器学习模型的可解释性,同时具备良好的可扩展性,后期可较为便捷地融入专家定制的新特征进行提高,并且模型较为轻量,可在有限计算资源下轻松应对数万级别的分类标签,为基于《中图法》的全深度分类奠定良好的基础。
文摘为了提升变电站数据流检测的实时性与准确性,提出一种使用白鲸优化(beluga whale optimization,BWO)算法优化基于密度的噪声应用空间聚类(density based spatial clustering of applications with noise,DBSCAN)算法,与使用圆圈搜索算法(circle search algorithm,CSA)优化单分类正则核极限学习机(one class regularized kernel extreme learning machine,OCRKELM)相结合的变电站通信网络数据流异常检测方法。首先,利用BWO-DBSCAN对正常数据流进行聚类,形成样本簇;其次,通过CSA-OCRKELM模型对异常数据流进行实时检测;最后,利用OPNET仿真软件仿真模拟变电站的通信行为并进行对比分析,验证所提方法的有效性。仿真实验结果表明所构建检测模型的检测率约为99%,较其他检测模型具有较高的性能与准确率。