期刊文献+
共找到122篇文章
< 1 2 7 >
每页显示 20 50 100
Social Media Cyberbullying Detection on Political Violence from Bangla Texts Using Machine Learning Algorithm
1
作者 Md. Tofael Ahmed Almas Hossain Antar +3 位作者 Maqsudur Rahman Abu Zafor Muhammad Touhidul Islam Dipankar Das Md. Golam Rashed 《Journal of Intelligent Learning Systems and Applications》 2023年第4期108-122,共15页
When someone threatens or humiliates another person online by sending those unpleasant messages or comments, this is known as Cyberbullying. Recently, Bangla text has been used much more often on social media. People ... When someone threatens or humiliates another person online by sending those unpleasant messages or comments, this is known as Cyberbullying. Recently, Bangla text has been used much more often on social media. People communicate with others on social media through messages and comments. So bullies use social media as a rich environment to bully others, especially on political issues. Fights over Cyberbullying on political and social media posts are common today. Most of the time, it does a lot of damage. However, few works have been done for monitoring Bangla text on social media & no work has been done yet for detecting the bullying Bangla text on political issues due to the lack of annotated corpora and morphologic analyzers. In this work, we used several machine learning classifiers & a model. That will help to detect the Bangla bullying texts on social media. For this work, 11,000 Bangla texts have been collected from the comments section of political Facebook posts to make a new dataset and labelled the data as either bullied or not. This dataset has been used to train the machine learning classifier. The results indicate that Random Forest achieves superior accuracy of 91.08%. 展开更多
关键词 CYBERBULLYING Bangla texts Political Issues Machine Learning random Forest Social Media
下载PDF
中国省域新质生产力空间网络结构动态演进及驱动力分析
2
作者 魏峰 范晓凯 《金融发展研究》 北大核心 2024年第9期14-24,共11页
为推动区域协调发展和新质生产力的均衡布局,本文基于K-means聚类分析和随机森林算法测算了2012—2022年中国30个省份的新质生产力发展水平,采用社会网络分析方法系统地研究了中国省域新质生产力空间网络的动态演进特征,并结合文本分析... 为推动区域协调发展和新质生产力的均衡布局,本文基于K-means聚类分析和随机森林算法测算了2012—2022年中国30个省份的新质生产力发展水平,采用社会网络分析方法系统地研究了中国省域新质生产力空间网络的动态演进特征,并结合文本分析和QAP回归模型探讨了省域新质生产力空间网络差异的驱动因素。研究发现:中国新质生产力整体上呈上升趋势,但区域间发展不均衡问题突出,呈现出东强西弱的特点;在空间分布上,省域新质生产力空间网络的复杂度逐年增加,网络关联和互动不断增强,其中东部沿海省份始终处于核心区域,中部省份逐渐进入核心区,而东北地区始终处于边缘区域。此外,QAP回归结果显示,加强技术进步、提高人力资本素质和有效利用数据要素可以显著提升省域新质生产力水平,推动区域经济的协调和可持续发展。 展开更多
关键词 新质生产力 随机森林算法 社会网络分析 文本分析方法 QAP
下载PDF
结合指数函数改进的随机近邻嵌入式短文本聚类
3
作者 汪晓晨 宋叔尼 《计算机应用与软件》 北大核心 2024年第3期226-232,共7页
近年来深度学习在短文本聚类方面发挥巨大作用,最近提出的短文本聚类(Short Text Clustering, STC)算法在此方面取得不错的成效。为进一步提高聚类准确率并优化算法性能,基于指数函数提出改进的随机近邻嵌入算法。该算法用指数函数度量... 近年来深度学习在短文本聚类方面发挥巨大作用,最近提出的短文本聚类(Short Text Clustering, STC)算法在此方面取得不错的成效。为进一步提高聚类准确率并优化算法性能,基于指数函数提出改进的随机近邻嵌入算法。该算法用指数函数度量样本点与聚类中心差距,放大不同特征差别,并在后期使用k-means++算法预先确定聚类中心与聚类数目。在Stackoverflow数据集上的实验证明,随机指数嵌入聚类模型(e-STC)在准确率与标准互信息上均优于原STC模型,准确率相对提高3.2%,互信息相对提高2.9%。 展开更多
关键词 短文本聚类 深度算法 随机近邻嵌入 特征提取
下载PDF
基于Voronoi图与条件随机场的自然场景文本检测方法
4
作者 方炳坤 楚瀛 《计算机应用与软件》 北大核心 2024年第1期119-125,共7页
在自然场景中准确有效地检测文本是一项艰巨的任务,故提出一种基于条件随机场(CRF)框架的场景文本检测方法。通过利用贝叶斯推断估计文本极大值区域的置信度作为一元成本项,通过使用维诺图(Voronoi图)来构建CRF空间邻域信息,从而构建图... 在自然场景中准确有效地检测文本是一项艰巨的任务,故提出一种基于条件随机场(CRF)框架的场景文本检测方法。通过利用贝叶斯推断估计文本极大值区域的置信度作为一元成本项,通过使用维诺图(Voronoi图)来构建CRF空间邻域信息,从而构建图模型,通过最大流算法最小化成本函数区分文本与非文本标记;利用字符的几何特性通过聚类方法聚合成行。实验结果表明,该算法比传统基于最大稳定极值区域(MSER)算法性能有所提高,自然场景文本检测正确率能达到87%。 展开更多
关键词 贝叶斯模型 条件随机场 VORONOI图 计算机视觉 文本检测
下载PDF
基于文本挖掘的襄阳市旅游目的地评价分析
5
作者 周俊 梁霄 《计算机应用文摘》 2024年第10期116-118,共3页
随着信息技术的兴起,人们能够利用大数据更方便地洞察和了解游客的期望,从而塑造独特的旅游目的地形象,进而满足游客的期待和需求。近年来,网络评论在旅游生态中的地位显著提升,在一定程度上直接反映了游客的消费体验感受、关注焦点与... 随着信息技术的兴起,人们能够利用大数据更方便地洞察和了解游客的期望,从而塑造独特的旅游目的地形象,进而满足游客的期待和需求。近年来,网络评论在旅游生态中的地位显著提升,在一定程度上直接反映了游客的消费体验感受、关注焦点与情感诉求,可准确勾勒游客对旅游目的地的整体印象。文本挖掘是信息挖掘的1个重要分支,能够利用智能算法和文字处理技术对大量的非结构化文本(包括文档、电子表格、客户评价、网页信息等)进行分析,从而通过提取关键字词和分类文档来获取有用的信息与知识,进而对研究问题进行合理且全面的分析。文章利用文本挖掘技术对襄阳市旅游目的地评价进行了分析,不仅有助于游客获取更为真实的服务评价体验,还能推进旅游业的现代化建设发展。 展开更多
关键词 文本挖掘 旅游目的地形象 神经网络 随机森林模型
下载PDF
CRF机制结合LDA的病历文书后结构化系统的应用
6
作者 温煜 赖舒婷 +1 位作者 曾菲菲 雷佳雨 《微型电脑应用》 2024年第4期59-63,共5页
为了提高病历文书结构化分类准确度,提出利用条件随机场(CRF)半监督词典分词算法结合隐式狄利克雷分布(LDA)医学病历文本分类算法,构建出CRF机制结合LDA的病历文书后结构化系统。结果表明:当主题数量为40时,LDA主题建模的困惑度最小值为... 为了提高病历文书结构化分类准确度,提出利用条件随机场(CRF)半监督词典分词算法结合隐式狄利克雷分布(LDA)医学病历文本分类算法,构建出CRF机制结合LDA的病历文书后结构化系统。结果表明:当主题数量为40时,LDA主题建模的困惑度最小值为-6.97,与初始困惑度相比,LDA主题建模困惑度下降9.76%;当主题数量为3时,得到了一致性值的最低值为0.361;当主题数量为40时,得到了一致性值的最大值为0.442,与最低值相比,LDA主题建模一致性值上升22.44%。综上可以看出,研究的CRF机制结合LDA的病历文书后结构化系统具有较好的应用效果。 展开更多
关键词 条件随机场 半监督词典 隐式狄利克雷分布 病历文书 文本分类
下载PDF
考虑文本情感特征的电商小微企业信用风险预警
7
作者 徐鲲 李莹 鲍新中 《运筹与管理》 CSSCI CSCD 北大核心 2023年第12期195-201,I0056-I0066,共18页
电商小微企业为社会创造多元就业岗位、促进先进生产力发展,但信用风险影响其正常融资与发展。为进一步完善电商小微企业信用风险预警问题,基于淘宝生鲜行业小微企业的真实交易数据,考虑在线评论的文本情感特征,建立主客观两维度的信用... 电商小微企业为社会创造多元就业岗位、促进先进生产力发展,但信用风险影响其正常融资与发展。为进一步完善电商小微企业信用风险预警问题,基于淘宝生鲜行业小微企业的真实交易数据,考虑在线评论的文本情感特征,建立主客观两维度的信用风险指标体系;构建“两步法”网格搜索算法优化的随机森林模型,并运用SMOTE获取平衡数据集以构建更严格的预警模型;同时通过建立Logistic、CART、随机森林三大模型来设置对照组。实证结果表明:(1)考虑文本情感特征因素后所构建主客观两维度指标体系有效合理,通过了ROC有效性判定。(2)“两步法”网格搜索算法优化的随机森林模型效果优于其他三种预警模型。(3)平衡数据集不管对于单个预警模型还是集成预警模型而言都至关重要。研究为电商平台、金融机构建立统一预警模型、科学预测电商小微企业信用、高效贷款提供新思路。 展开更多
关键词 文本情感特征 信用风险预警 随机森林 网格搜索
下载PDF
Creating Knowledge-Based Diagnostic Models by Mining Textual Diagnostic Reports of SPECT Scans
8
作者 Chuangui Cao Chengcheng Han Qiang Lin 《Journal of Computer and Communications》 2021年第5期10-19,共10页
Mining rich semantic information hidden in heterogeneous information network is one of the important tasks of data mining. Generally, a nuclear medicine text consists of the description of disease (<i>i.e.</i... Mining rich semantic information hidden in heterogeneous information network is one of the important tasks of data mining. Generally, a nuclear medicine text consists of the description of disease (<i>i.e.</i>, lesions) and diagnostic results. However, how to construct a computer-aided diagnostic model with a large number of medical texts is a challenging task. To automatically diagnose diseases with SPECT imaging, in this work, we create a knowledge-based diagnostic model by exploring the association between a disease and its properties. Firstly, an overview of nuclear medicine and data mining is presented. Second, the method of preprocessing textual nuclear medicine diagnostic reports is proposed. Last, the created diagnostic modes based on random forest and SVM are proposed. Experimental evaluation conducted real-world data of diagnostic reports of SPECT imaging demonstrates that our diagnostic models are workable and effective to automatically identify diseases with textual diagnostic reports. 展开更多
关键词 text Classification Nuclear Medicine SPECT Imaging Diagnostic Model random Forest SVM
下载PDF
A Statistical Analysis of Textual E-Commerce Reviews Using Tree-Based Methods
9
作者 Jessica Kubrusly Ana Luiza Neves Thamires Louzada Marques 《Open Journal of Statistics》 2022年第3期357-372,共16页
With the increasing interest in e-commerce shopping, customer reviews have become one of the most important elements that determine customer satisfaction regarding products. This demonstrates the importance of working... With the increasing interest in e-commerce shopping, customer reviews have become one of the most important elements that determine customer satisfaction regarding products. This demonstrates the importance of working with Text Mining. This study is based on The Women’s Clothing E-Commerce Reviews database, which consists of reviews written by real customers. The aim of this paper is to conduct a Text Mining approach on a set of customer reviews. Each review was classified as either a positive or negative review by employing a classification method. Four tree-based methods were applied to solve the classification problem, namely Classification Tree, Random Forest, Gradient Boosting and XGBoost. The dataset was categorized into training and test sets. The results indicate that the Random Forest method displays an overfitting, XGBoost displays an overfitting if the number of trees is too high, Classification Tree is good at detecting negative reviews and bad at detecting positive reviews and the Gradient Boosting shows stable values and quality measures above 77% for the test dataset. A consensus between the applied methods is noted for important classification terms. 展开更多
关键词 text Mining Supervised Classification Tree-Based Methods Classification Trees random Forest Gradient Boosting XGBoost
下载PDF
基于SMOTE-RF与多维特征向量的在线商品虚假评论识别研究 被引量:4
10
作者 杜姗 杨敏 仇蓉蓉 《情报杂志》 CSSCI 北大核心 2023年第4期156-164,共9页
[研究目的]通过从评论文本和评论者两个维度对在线评论的特征进行挖掘,探究电商平台如何有效提高虚假评论识别的准确性,增加用户在线商品评论可信度,为消费决策提供参考。[研究方法]提出一种基于多维特征和SMOTE-RF模型的虚假评论识别... [研究目的]通过从评论文本和评论者两个维度对在线评论的特征进行挖掘,探究电商平台如何有效提高虚假评论识别的准确性,增加用户在线商品评论可信度,为消费决策提供参考。[研究方法]提出一种基于多维特征和SMOTE-RF模型的虚假评论识别方法。首先,通过识别商品虚假评论线索,构建多维特征向量,引入情感极性等特征并进行单调化处理;其次,在评分偏离度中添加了商品得分均值等统计指标来全面刻画虚假评论;最后,针对在线评论数据集中真实评论与虚假评论类不平衡问题,运用SMOTE算法优化随机森林分类模型,从而达到提高虚假评论识别准确性的目的。[研究结论]实验结果显示该方法在正负样本不平衡的虚假评论识别中具有更高的准确率、召回率及F1值。其中评分偏离度特征对虚假评论识别的影响最大,情感极性可作为识别的次要参考特征。因此,综合考虑在线评论多维特征和正负样本不平衡可帮助电商平台对虚假评论进行有效的过滤,为消费者提供更为可靠的评论数据。 展开更多
关键词 在线商品 多维特征 虚假评论 评论文本 随机森林 SMOTE过采样
下载PDF
基于文本注意力机制优化的网络表示学习模型
11
作者 唐彦龙 冶忠林 +1 位作者 赵海兴 仁青卓么 《郑州大学学报(理学版)》 CAS 北大核心 2023年第6期41-47,共7页
在经典网络表示学习框架上进行改进,提出了基于文本注意力机制优化的网络表示学习模型。首先学习上下文节点的平均嵌入,然后利用上下文节点的平均嵌入引入注意力机制,目标节点的嵌入由注意力和文本嵌入共同决定。在文本特征上添加注意... 在经典网络表示学习框架上进行改进,提出了基于文本注意力机制优化的网络表示学习模型。首先学习上下文节点的平均嵌入,然后利用上下文节点的平均嵌入引入注意力机制,目标节点的嵌入由注意力和文本嵌入共同决定。在文本特征上添加注意力机制,旨在为文本特征中的词语学习不同的权重值,使得对模型有利的词语得到最大贡献,有效避免低频词、噪声词对模型的影响。在Citeseer(M10)、DBLP(V4)和SDBLP三个数据集上进行实验,结果表明,该模型的网络节点分类性能优于DeepWalk算法和同类别表示学习算法。在网络可视化分析中,所提算法有明显的聚类现象和聚类边界,获得了期望的结果。 展开更多
关键词 网络表示学习 注意力机制 随机游走 节点嵌入 文本特征
下载PDF
多尺度核电质量文本故障信息语义抽取方法 被引量:2
12
作者 吴庭伟 王梦灵 +1 位作者 易树平 郭景任 《中国机械工程》 EI CAS CSCD 北大核心 2023年第8期976-981,992,共7页
提出了多尺度核电质量文本故障信息语义抽取方法,从核电质量文本描述中获取了存在质量缺陷的故障设备与所属阶段的信息。针对故障设备与正常设备并存,以及所属设计、采购、施工和调试的全价值链阶段未描述的问题,提出了多尺度故障信息... 提出了多尺度核电质量文本故障信息语义抽取方法,从核电质量文本描述中获取了存在质量缺陷的故障设备与所属阶段的信息。针对故障设备与正常设备并存,以及所属设计、采购、施工和调试的全价值链阶段未描述的问题,提出了多尺度故障信息抽取策略。基于Transformer双向编码的预训练语言模型将核电质量文本转化为文本向量;采用注意力机制的双向门控循环神经网络挖掘出质量缺陷的关键语义特征;采用条件随机场对关键语义特征进行实体预测,输出故障设备;通过多层感知机对提取的关键语义特征进行微调及推理,解译出故障设备所属阶段。最后,在真实的核电质量文本数据集上进行验证,F1值达到94.3%,表明提出的方法具有较好可行性和有效性。 展开更多
关键词 多尺度 核电质量文本 语义抽取 预训练语言模型 条件随机场
下载PDF
车用动力电池箱体紧固扭矩衰减特性的仿真与实验分析
13
作者 陈跃 李楠 +1 位作者 王晓松 张杭 《汽车实用技术》 2023年第12期1-5,共5页
螺栓连接是电池包的一种重要连接方式,由于振动影响可能会产生松动,其连接可靠性影响电池系统的性能和安全。文章主要采用模拟仿真和试验测试方式,研究电池包上下箱体之间的螺栓连接扭矩衰减情况,通过仿真计算电池包的模态振型,并分析... 螺栓连接是电池包的一种重要连接方式,由于振动影响可能会产生松动,其连接可靠性影响电池系统的性能和安全。文章主要采用模拟仿真和试验测试方式,研究电池包上下箱体之间的螺栓连接扭矩衰减情况,通过仿真计算电池包的模态振型,并分析螺栓受力分布,参照《电池包及系统安全要求及试验方法》(GB 31467.3-2015)中对电池系统耐振动性的要求,开展电池包整体随机振动试验,对比振动前、振动1 h和振动3 h后,电池包上下箱体螺栓的扭矩衰减相对值及其分布规律。研究结果显示,随机振动1 h后,螺栓扭矩衰减6%左右,振动3 h后,螺栓扭矩衰减均值衰减17%左右,且电池包结构特点影响螺栓扭矩衰减分布,在有固定吊耳的位置区域,扭矩衰减较小,而在缺乏固定吊耳的区域,螺栓扭矩衰减较大,其为电池系统螺栓连接可靠性提供参考依据。 展开更多
关键词 箱体紧固件 扭矩衰减特性 车用动力电池 随机振动试验
下载PDF
基于BERT-BILSTM-CRF模型的电力行业事故文本智能分析 被引量:7
14
作者 刘斐 文中 吴艺 《中国安全生产科学技术》 CAS CSCD 北大核心 2023年第1期209-215,共7页
为解决电力行业事故报告文本较长、语义复杂,难以进行有效文本识别问题,提出1种以BERT作为底层的预训练模型,并设计1种双重注意力机制编码器,结合BILSTM-CRF深度挖掘事故文本语义特征,从而实现文本智能分析。首先构建电力词典,通过对BER... 为解决电力行业事故报告文本较长、语义复杂,难以进行有效文本识别问题,提出1种以BERT作为底层的预训练模型,并设计1种双重注意力机制编码器,结合BILSTM-CRF深度挖掘事故文本语义特征,从而实现文本智能分析。首先构建电力词典,通过对BERT预训练,进行BIO标注,然后引入BILSTM-CRF模型实现对文本标签智能分类,最后将该模型与现行其他4种深度学习模型进行对比。研究结果表明:该模型智能识别精确率、召回率及F 1值(查准率)均达到约97%,较其他4种模型中效果最好的模型分别提高0.02,0.03,0.02。研究结果可为电力行业事故报告文本分析提供1种新思路。 展开更多
关键词 BERT-BILSTM-CRF 实体识别 电力行业 预训练 文本分类
下载PDF
基于随机森林的文本分类模型研究 被引量:59
15
作者 张华伟 王明文 甘丽新 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期5-9,共5页
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成,并且由一随机向量决定决策树的构造.当森林中决策树的数目增大,随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reute... 随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成,并且由一随机向量决定决策树的构造.当森林中决策树的数目增大,随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reuter21578数据集上的实验表明,分类效果比较好,性能比较稳定,将其同C4.5,KNN,SM0,SVM 4种典型的文本分类器进行了比较,结果显示它的分类性能胜于C4.5,同KNN,SMO和SVM方法相当. 展开更多
关键词 文本分类 随机森林 决策树 泛化误差
下载PDF
基于条件随机域CRF模型的文本信息抽取 被引量:8
16
作者 周晶 吴军华 +1 位作者 陈佳 陈沈焰 《计算机工程与设计》 CSCD 北大核心 2008年第23期6094-6097,共4页
为了抽取文本中的信息,在分析对比了4种统计建模原型后,选用条件随机域CRF建立抽取模型,提出了一种文本信息抽取的方法。该方法对文本分析后加标注,确定文本特征集,采用有限内存拟牛顿迭代方法L-BFGS算法估计CRF模型参数,根据训练学习... 为了抽取文本中的信息,在分析对比了4种统计建模原型后,选用条件随机域CRF建立抽取模型,提出了一种文本信息抽取的方法。该方法对文本分析后加标注,确定文本特征集,采用有限内存拟牛顿迭代方法L-BFGS算法估计CRF模型参数,根据训练学习得出的模型,实现科研论文数据集头部文本信息的抽取。实验结果表明,使用CRF模型的抽取准确率达到90%以上,远远高于使用HMM模型的抽取准确率。 展开更多
关键词 条件随机域 文本信息抽取 参数估计 L—BFGS迭代法 特征集
下载PDF
不同特征下的学术文本结构功能自动识别研究 被引量:21
17
作者 王东波 高瑞卿 +2 位作者 叶文豪 周鑫 朱丹浩 《情报学报》 CSSCI CSCD 北大核心 2018年第10期997-1008,共12页
随着大量科研论文全文本的出现,如何从中挖掘相应的知识不仅有利于学术文献的深度知识组织而且有益于学术文献的精准检索。而识别学术文本的结构是进行上述探究的基础,因为结构的识别有助于从更深层次或者偏重语义的角度理解学术文本,... 随着大量科研论文全文本的出现,如何从中挖掘相应的知识不仅有利于学术文献的深度知识组织而且有益于学术文献的精准检索。而识别学术文本的结构是进行上述探究的基础,因为结构的识别有助于从更深层次或者偏重语义的角度理解学术文本,从而促进学术文本挖掘研究的发展。本文以学术文本的不同结构功能为研究对象,以Journal of the Association for Information Science and Technology(JASIST)上发表的1579篇论文为数据集,进行双向长短时记忆神经网络、支持向量机和条件随机场三种模型上的预实验,并对比实验结果的性能,最终确定利用条件随机场模型做进一步探究。利用条件随机场模型,本文将学术文本结构功能识别问题转化为对句子单元的序列标注问题,寻找最优识别模型并探究不同特征对结构功能识别的影响,最终获得开放测试的调和平均值为92.88%的结构整体识别效果。实验结果表明,章节标题中词汇信息和章节内容的特征词汇信息对学术文本的功能结构识别起到巨大作用,可以达到令人满意的效果,而结构的长度特征则干扰条件随机场方法的性能。在最后,本文对学术文本结构功能识别出错原因进行总结,指出进一步探讨的问题和方向。 展开更多
关键词 文本分类 条件随机场 篇章结构 深度学习
下载PDF
现代版式设计中文字的编排与创新 被引量:5
18
作者 边少平 《包装工程》 CAS CSCD 北大核心 2016年第20期185-188,共4页
目的为了解决版式设计中视觉传达设计最频繁出现的文字构成问题。方法平面设计需要版式的支撑,好的平面设计作品里都可以找出版式设计的中心思想,都渗透并折射着版式设计的影子。选取了版式设计中的文字编排的重要内容,力求探索新型文... 目的为了解决版式设计中视觉传达设计最频繁出现的文字构成问题。方法平面设计需要版式的支撑,好的平面设计作品里都可以找出版式设计的中心思想,都渗透并折射着版式设计的影子。选取了版式设计中的文字编排的重要内容,力求探索新型文字编排的设计理念、技能技巧和多元化的创新表现方法。结论在版面设计合理性之上有效提升人文性、艺术性和功能性的视觉体验。 展开更多
关键词 虚实 多维空间 图文错落 文字绕排 突出首字 文字群组
下载PDF
一种基于启发式搜索的论文元数据提取算法 被引量:1
19
作者 张付志 侯娜 +1 位作者 刘慧 马玉静 《计算机应用与软件》 CSCD 2009年第9期86-88,94,共4页
随着大量的科研论文以电子文档的形式出现,为了高效地检索这些科研文献资料,从中精确地抽取这些论文头部的元数据信息显得十分有必要。在条件随机场模型的基础上,提出了一种启发式搜索算法来对论文头部的元数据信息进行提取。该算法首... 随着大量的科研论文以电子文档的形式出现,为了高效地检索这些科研文献资料,从中精确地抽取这些论文头部的元数据信息显得十分有必要。在条件随机场模型的基础上,提出了一种启发式搜索算法来对论文头部的元数据信息进行提取。该算法首先利用文本分块技术和特征提取规则来对文本进行预处理,然后结合条件随机场概率模型利用启发式搜索来进行元数据的提取。实验结果表明,在相同概率模型的基础上,该算法有着较好的性能,在精确度和召回率方面都有了明显的提高。 展开更多
关键词 信息提取 元数据提取 条件随机场 文本分块 启发式搜索
下载PDF
基于改进随机森林算法的文本分类研究与应用 被引量:19
20
作者 刘勇 兴艳云 《计算机系统应用》 2019年第5期220-225,共6页
传统随机森林分类算法采用平均多数投票规则不能区分强弱分类器,而且算法中超参数的取值需要调节优化.在研究了随机森林算法在文本分类中的应用技术及其优缺点的基础上对其进行改进,一方面对投票方法进行优化,结合决策树的分类效果和预... 传统随机森林分类算法采用平均多数投票规则不能区分强弱分类器,而且算法中超参数的取值需要调节优化.在研究了随机森林算法在文本分类中的应用技术及其优缺点的基础上对其进行改进,一方面对投票方法进行优化,结合决策树的分类效果和预测概率进行加权投票,另一方面提出一种结合随机搜索和网格搜索的算法对超参数调节优化. Python环境下的实验结果表明本文方法在文本分类上具有良好的性能. 展开更多
关键词 随机森林 文本分类 加权投票 超参数优化 随机搜索 网格搜索
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部