期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于BERT-Att-biLSTM模型的医学信息分类研究 被引量:9
1
作者 於张闲 胡孔法 《计算机时代》 2020年第3期1-4,共4页
目前,对互联网上虚假健康信息的研究多集中于谣言识别,而对医学信息自动分类的研究较少。采用基于双向编码的语言表征模型和注意力增强的双向长短时记忆模型(BERT-Att-BiLSTM模型),对健康信息文本进行分类,实现自动识别虚假健康信息。... 目前,对互联网上虚假健康信息的研究多集中于谣言识别,而对医学信息自动分类的研究较少。采用基于双向编码的语言表征模型和注意力增强的双向长短时记忆模型(BERT-Att-BiLSTM模型),对健康信息文本进行分类,实现自动识别虚假健康信息。实验结果表明,BERT-Att-BiLSTM模型可以高效地对医学信息进行分类,其中BERT模型相较于BiLSTM模型,性能提升明显;与融合Word2Vec的BiLSTM模型相比,BERT-Att-BiLSTM模型效果更佳。 展开更多
关键词 健康信息 语言表征模型 双向长短时记忆模型 BERT-Att-BiLSTM模型
下载PDF
基于深度学习的虚假健康信息识别 被引量:9
2
作者 於张闲 冒宇清 胡孔法 《软件导刊》 2020年第3期16-20,共5页
随着互联网的迅猛发展,网上健康信息以几何速度增长,其中大量虚假健康信息给人们的生活带来了很大影响,但目前对虚假健康信息文本识别的研究非常缺乏,以往研究主要集中在识别微博上的谣言、伪造商品评论、垃圾邮件及虚假新闻等方面。鉴... 随着互联网的迅猛发展,网上健康信息以几何速度增长,其中大量虚假健康信息给人们的生活带来了很大影响,但目前对虚假健康信息文本识别的研究非常缺乏,以往研究主要集中在识别微博上的谣言、伪造商品评论、垃圾邮件及虚假新闻等方面。鉴于此,采用基于词向量的深度神经网络模型和基于双向编码的语言表征模型,对互联网上流传广泛的健康信息文本进行自动分类,识别其中的虚假健康信息。实验中,深度网络模型比传统机器学习模型性能提高10%,融合Word2vec的深度神经网络模型比单独的CNN或Att-BiLSTM模型在分类性能上提高近7%。BERT模型表现最好,准确率高达88.1%。实验结果表明,深度学习可以有效识别虚假健康信息,并且通过大规模语料预训练获得的语言表征模型比基于词向量的深度神经网络模型性能更好。 展开更多
关键词 健康信息 词向量 深度神经网络模型 语言表征模型 预训练模型
下载PDF
基于BERT和DBSCAN工程项目维保文本数据挖掘
3
作者 胡学聪 《安徽理工大学学报(自然科学版)》 CAS 2023年第4期87-93,共7页
随着人口增速放缓,建筑行业的目标正逐渐由追求高周转率向追求高品质过渡。在项目交付和维保过程中,客户的维保诉求体现其关心的痛点和项目建设过程中的不足。因此,通过有效挖掘维保文本价值可在施工过程中加强针对性的监管,帮助公司交... 随着人口增速放缓,建筑行业的目标正逐渐由追求高周转率向追求高品质过渡。在项目交付和维保过程中,客户的维保诉求体现其关心的痛点和项目建设过程中的不足。因此,通过有效挖掘维保文本价值可在施工过程中加强针对性的监管,帮助公司交付客户满意的产品。由于客户并不具备专业的工程背景,其上报的维保投诉多为充斥着大量无关信息的短文本,传统方法依靠客服人员根据损坏原因人工分类数据,工作量大且效率较低下。采用词频-逆文档频率(TD-IDF)和具有噪声的基于密度的聚类方法(DBSCAN)构建一种基于关键词的文本粗分类器,将文本聚类为带有清晰标签的已分类文本和无法有效分类的噪声;通过已分类文本微调预训练语言表征模型(BERT)构建文本细分类器,完成无法分类噪声的再分类。以上海某项目交付及日常使用过程中的720条无标签客诉文本进行验证,结果表明,粗分类器可将44.03%的文本有效划分为6类,细分类器可将83.75%的文本完成有效分类。 展开更多
关键词 中文短文本 客户投诉 聚类分析 维保分析 预训练语言表征模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部