期刊文献+
共找到83篇文章
< 1 2 5 >
每页显示 20 50 100
基于ERNIE-BiGRU-CRF模型的煤矿安全隐患命名实体智能识别研究
1
作者 刘飞翔 李泽荃 +1 位作者 赵嘉良 李靖 《煤炭工程》 北大核心 2024年第2期206-212,共7页
为充分挖掘煤矿安全隐患文本关键知识,帮助煤矿企业安全管理人员更好的开展隐患排查治理工作,提出一种基于预训练语言模型的命名实体识别方法。首先定义煤矿安全隐患实体类别,并采用BIO标注策略构建了7个实体类别和15个实体标签;然后将... 为充分挖掘煤矿安全隐患文本关键知识,帮助煤矿企业安全管理人员更好的开展隐患排查治理工作,提出一种基于预训练语言模型的命名实体识别方法。首先定义煤矿安全隐患实体类别,并采用BIO标注策略构建了7个实体类别和15个实体标签;然后将收集到的煤矿隐患排查数据进行预处理,由煤矿安全领域专家人工标注相关实体,得到1500条煤矿安全隐患命名实体标准数据集;最后采用ERNIE预训练模型对煤矿安全隐患文本词向量进行表征、同时利用BiGRU结构进行上下文语义特征提取以及CRF模型进行实体标签解码,完成煤矿安全隐患命名实体识别研究。实验结果表明:ERNIE-BiGRU-CRF模型在序列标注任务上的精确率、召回率和F1值分别为56.69%、69.23%和62.34%,较于BiLSTM-CRF基线模型分别提高了6.85%、13.74%和9.83%,并且实体抽取结果与实际标注结果相差不大。另外,消融实验也验证了BiGRU层能够更好的捕捉煤矿安全隐患文本上下文语义依赖关系以及CRF层能够进一步优化标签序列的有效性。 展开更多
关键词 煤矿安全隐患 ERNIE-BiGRU-CRF算法模型 命名实体识别 信息抽取
下载PDF
基于隐马尔可夫模型的半结构化文本信息抽取研究
2
作者 蒲治宇 《数字通信世界》 2024年第6期84-85,93,共3页
随着互联网和信息技术的快速发展,大量的文本数据在互联网上被生成和存储,这些文本数据包含了丰富的信息。然而,大部分文本数据都是半结构化的,即数据的组织结构不完整或不规则,不适合直接进行分析和处理。因此,半结构化文本信息抽取成... 随着互联网和信息技术的快速发展,大量的文本数据在互联网上被生成和存储,这些文本数据包含了丰富的信息。然而,大部分文本数据都是半结构化的,即数据的组织结构不完整或不规则,不适合直接进行分析和处理。因此,半结构化文本信息抽取成为了一个重要的研究领域,文章基于隐马尔科夫模型对半结构化文本信息的抽取进行研究。 展开更多
关键词 半结构化文本 信息抽取 隐马尔科夫模型
下载PDF
A HMM-Based System To Diacritize Arabic Text
3
作者 M. S. Khorsheed 《Journal of Software Engineering and Applications》 2012年第12期124-127,共4页
The Arabic language comes under the category of Semitic languages with an entirely different sentence structure in terms of Natural Language Processing. In such languages, two different words may have identical spelli... The Arabic language comes under the category of Semitic languages with an entirely different sentence structure in terms of Natural Language Processing. In such languages, two different words may have identical spelling whereas their pronunciations and meanings are totally different. To remove this ambiguity, special marks are put above or below? the spelling characters to determine the correct pronunciation. These marks are called diacritics and the language that uses them is called a diacritized language. This paper presents a system for Arabic language diacritization using Hid- den Markov Models (HMMs). The system employs the renowned HMM Tool Kit? (HTK). Each single diacritic is represented as a separate model. The concatenation of output models is coupled with the input? character sequence to form the fully diacritized text. The performance of the proposed system is assessed using a data corpus that includes more than 24000 sentences. 展开更多
关键词 ARABIC hidden MARKOV MODELS text-TO-SPEECH Diacritization
下载PDF
Mathematical Expression Extraction in Text Fields of Documents Based on HMM
4
作者 Xuedong Tian Ruihan Bai +2 位作者 Fang Yang Jinyuan Bai Xinfu Li 《Journal of Computer and Communications》 2017年第14期1-13,共13页
Aiming at the problem that the mathematical expressions in unstructured text fields of documents are hard to be extracted automatically, rapidly and effectively, a method based on Hidden Markov Model (HMM) is proposed... Aiming at the problem that the mathematical expressions in unstructured text fields of documents are hard to be extracted automatically, rapidly and effectively, a method based on Hidden Markov Model (HMM) is proposed. Firstly, this method trained the HMM model through employing the symbol combination features of mathematical expressions. Then, some preprocessing works such as removing labels and filtering words were carried out. Finally, the preprocessed text was converted into an observation sequence as the input of the HMM model to determine which is the mathematical expression and extracts it. The experimental results show that the proposed method can effectively extract the mathematical expressions from the text fields of documents, and also has the relatively high accuracy rate and recall rate. 展开更多
关键词 Mathematical Expression EXTRACTION hidden MARKOV Model text FIELDS DOCUMENTS SYMBOL Combination Features
下载PDF
水电工程施工安全隐患文本智能类推研究
5
作者 郑霞忠 汪珂 +1 位作者 陈云 晋良海 《安全与环境学报》 CAS CSCD 北大核心 2023年第12期4449-4456,共8页
水电工程施工安全隐患治理不断向信息化与智能化转型。为高效挖掘大规模非结构化的安全隐患文本数据,提出融合案例推理与深度学习的水电工程施工安全隐患文本智能类推方法,辅助隐患治理方案的制订,提高隐患治理效率。首先,柔性化处理案... 水电工程施工安全隐患治理不断向信息化与智能化转型。为高效挖掘大规模非结构化的安全隐患文本数据,提出融合案例推理与深度学习的水电工程施工安全隐患文本智能类推方法,辅助隐患治理方案的制订,提高隐患治理效率。首先,柔性化处理案例数据,用框架法表示案例并建立隐患案例库;其次,从案例推理技术视角出发,构建隐患治理方案类推框架;最后,融合Word2vec模型优化检索过程,将隐患文本转化为词向量并计算相似度。以某水电站2016—2020年记录的3160条安全隐患信息为数据源,经实例验证,该类推方法综合准确率达0.867,表明隐患文本智能类推方法有助于管理人员及时对隐患进行整改,能够有效指导水电工程安全施工及安全管理。 展开更多
关键词 安全社会工程 案例推理 隐患治理 深度学习 文本类推 Word2vec模型
下载PDF
机器学习下半结构化文本信息抽取仿真
6
作者 朱小龙 邱林 《计算机仿真》 北大核心 2023年第2期540-544,共5页
为了在海量信息源中抽取特定信息,将高维信息转换为低维信息,降低信息抽取难度,提出基于机器学习的半结构化文本信息抽取算法。利用自编码网络对文本信息实行降维处理,将高维的文本信息转变为低维信息,降低信息抽取的复杂度;在单词相似... 为了在海量信息源中抽取特定信息,将高维信息转换为低维信息,降低信息抽取难度,提出基于机器学习的半结构化文本信息抽取算法。利用自编码网络对文本信息实行降维处理,将高维的文本信息转变为低维信息,降低信息抽取的复杂度;在单词相似度和文本相似度的基础上,对文本信息实行聚类处理,将机器学习中的隐马尔可夫模型应用在不同的文本信息类别中,实现半结构化文本信息的抽取。仿真结果表明,所提算法的信息抽取精度高、召回率高、准确率高、抽取效率高。 展开更多
关键词 机器学习 自编码网络 信息聚类 隐马尔可夫模型 半结构化文本 信息抽取
下载PDF
井下险情模糊位置辨析方法
7
作者 孙长春 黄晓凡 +4 位作者 苏令印 徐金陵 汤效平 王兹尧 林泽东 《软件导刊》 2023年第8期99-103,共5页
煤矿安全生产一直备受关注,如何确保矿工人身安全、确定隐藏险情模糊位置,一直是煤矿安全生产领域的研究重点。针对如何在井下复杂的环境中确定险情位置,提出一种井下险情模糊位置辨析方法。将收集到的矿工语音数据在移动端转化为文本数... 煤矿安全生产一直备受关注,如何确保矿工人身安全、确定隐藏险情模糊位置,一直是煤矿安全生产领域的研究重点。针对如何在井下复杂的环境中确定险情位置,提出一种井下险情模糊位置辨析方法。将收集到的矿工语音数据在移动端转化为文本数据,并对该数据进行模糊数据补全,通过优先级的策略补全数据集。最后,结合矿工的状态,通过质心算法确定险情位置。 展开更多
关键词 煤矿安全 隐藏险情 位置辨析 文本数据 数据处理
下载PDF
基于深度学习和特征分析的隐蔽性有害信息识别方法研究
8
作者 张安康 刘加兵 《计算机应用文摘》 2023年第14期122-125,129,共5页
互联网上的有害信息层出不穷,而随着各项技术的发展,有害信息采用各种方式隐藏其核心内容,以躲避各类算法的识别和检索。目前,对此类隐蔽性有害信息识别的常用方法主要是基于人工智能技术,采用人工标注和训练学习的方式,但是算法较为复... 互联网上的有害信息层出不穷,而随着各项技术的发展,有害信息采用各种方式隐藏其核心内容,以躲避各类算法的识别和检索。目前,对此类隐蔽性有害信息识别的常用方法主要是基于人工智能技术,采用人工标注和训练学习的方式,但是算法较为复杂,对资源的需求较大。因此,一种新思路为:从隐蔽性有害信息的特征出发,分析出其特征规律,并基于以上结果设计一种新方法,同时降低人工参与和算法复杂度。最后,通过不同的样本库,对基于深度学习的方法和基于特征分析的方法效果进行对比分析,得到不同场景下的应用方案,为识别隐蔽性有害信息工作提供参考。 展开更多
关键词 隐蔽性有害信息 文本识别 深度学习 特征分析
下载PDF
融合标签关联的隐空间数据增强多标签文本分类方法
9
作者 苗育华 李格格 线岩团 《现代电子技术》 2023年第24期159-164,共6页
多标签文本分类是自然语言处理中文本分类任务的一个分支。目前单标签的文本分类算法已经较为成熟,但是多标签文本分类仍是一项重要而且有挑战的任务。在多标签文本分类任务中,标签之间往往存在关联,但各类标签在样本数量上存在较为严... 多标签文本分类是自然语言处理中文本分类任务的一个分支。目前单标签的文本分类算法已经较为成熟,但是多标签文本分类仍是一项重要而且有挑战的任务。在多标签文本分类任务中,标签之间往往存在关联,但各类标签在样本数量上存在较为严重的不平衡问题。为此,文中提出一种利用标签之间的先验知识,在隐空间中进行数据增强的方法,缓解多标签文本分类数据不平衡造成的模型过拟合及泛化能力差的问题。所提方法可适用于不同的神经网络模型,在多个开放数据集上的实验结果表明,该方法可以有效提升多标签文本分类的性能,对少样本类别的预测性能提升显著,对于多样本类别的预测性能也可以达到很好的效果。 展开更多
关键词 多标签文本分类 标签关联 数据增强 隐空间 自然语言处理 神经网络模型 消融实验
下载PDF
基于二阶隐马尔可夫模型的中文分词在文本情感分析中的应用 被引量:1
10
作者 李沅静 叶仁玉 冷婷 《安庆师范大学学报(自然科学版)》 2023年第3期44-48,共5页
传统一阶隐马尔可夫分词模型只考虑相邻变量间的条件概率,其在获取上下文信息方面潜力有限。基于此,本文利用二阶隐马尔可夫模型来充分联系上下文语义信息并对文本进行精确分词,同时提出了一种基于二阶隐马尔可夫模型的情感分析方法,可... 传统一阶隐马尔可夫分词模型只考虑相邻变量间的条件概率,其在获取上下文信息方面潜力有限。基于此,本文利用二阶隐马尔可夫模型来充分联系上下文语义信息并对文本进行精确分词,同时提出了一种基于二阶隐马尔可夫模型的情感分析方法,可以利用Baum-Welch算法对参数模型进行有效估计。实证结果表明,该方法的情感分类准确率达到72.23%,比一阶隐马尔可夫模型方法高出0.95%。 展开更多
关键词 文本情感分析 中文分词 二阶隐马尔可夫模型 Baum-Welch算法
下载PDF
基于文本挖掘的煤矿安全隐患分析 被引量:21
11
作者 谭章禄 陈晓 +1 位作者 宋庆正 陈孝慈 《安全与环境学报》 CAS CSCD 北大核心 2017年第4期1262-1266,共5页
为充分有效利用煤矿安全隐患数据,揭示安全隐患数据中隐藏的重要信息和潜在规律,用于指导安全管理实践,在对安全隐患数据进行预处理的基础上,利用词云和词频统计方法展现安全隐患概况,运用文本挖掘技术和社会网络分析方法研究煤矿安全... 为充分有效利用煤矿安全隐患数据,揭示安全隐患数据中隐藏的重要信息和潜在规律,用于指导安全管理实践,在对安全隐患数据进行预处理的基础上,利用词云和词频统计方法展现安全隐患概况,运用文本挖掘技术和社会网络分析方法研究煤矿安全隐患信息的关联关系和分布规律。结果表明,将文本挖掘技术和社会网络分析方法应用于文本型安全隐患数据分析具有可行性,有助于煤矿企业提高对安全隐患数据的认知并制定合理的安全隐患治理措施。 展开更多
关键词 安全管理工程 煤矿隐患 文本挖掘 社会网络分析 关联关系
下载PDF
基于隐主题分析的中文微博话题发现 被引量:19
12
作者 史剑虹 陈兴蜀 王文贤 《计算机应用研究》 CSCD 北大核心 2014年第3期700-704,共5页
针对高维、稀疏的中文微博数据,提出一种多步骤的新闻话题发现方法。首先结合微博的传播特点,选取出不同时间窗口中具有较高新闻价值的微博文本;再利用隐主题模型挖掘微博内容中隐含的主题信息,并在此基础上进行文本聚类;最后使用频繁... 针对高维、稀疏的中文微博数据,提出一种多步骤的新闻话题发现方法。首先结合微博的传播特点,选取出不同时间窗口中具有较高新闻价值的微博文本;再利用隐主题模型挖掘微博内容中隐含的主题信息,并在此基础上进行文本聚类;最后使用频繁项集挖掘技术获取话题关键词集合。该算法能够较好地实现对中文微博数据的降维与话题发现。真实的微博数据集实验结果验证了该方法的有效性。 展开更多
关键词 中文微博 话题发现 隐主题模型 文本聚类 频繁项集挖掘
下载PDF
基于隐马尔可夫模型的文本信息抽取 被引量:51
13
作者 刘云中 林亚平 陈治平 《系统仿真学报》 CAS CSCD 2004年第3期507-510,共4页
文本信息抽取是处理海量文本的重要手段,将隐马尔可夫模型应用到信息抽取领域是一个比较新的研究课题。提出了一种基于隐马尔可夫模型的文本信息抽取算法。该算法利用文本排版格式、分隔符等信息,对文本进行分块,在分块的基础上结合隐... 文本信息抽取是处理海量文本的重要手段,将隐马尔可夫模型应用到信息抽取领域是一个比较新的研究课题。提出了一种基于隐马尔可夫模型的文本信息抽取算法。该算法利用文本排版格式、分隔符等信息,对文本进行分块,在分块的基础上结合隐马尔可夫模型进行文本信息抽取。仿真结果表明,新的算法在精确度和召回率方面有明显的提高。 展开更多
关键词 隐马尔可夫模型 信息抽取 文本分块 机器学习
下载PDF
基于网页上下文的Deep Web数据库分类 被引量:31
14
作者 马军 宋玲 +1 位作者 韩晓晖 闫泼 《软件学报》 EI CSCD 北大核心 2008年第2期267-274,共8页
讨论了提高Deep Web数据库分类准确性的若干新技术,其中包括利用HTML网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程.其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征.而对数据库属... 讨论了提高Deep Web数据库分类准确性的若干新技术,其中包括利用HTML网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程.其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征.而对数据库属性标记词的归一过程是把同义标记词用代表词进行替代的过程.给出了采用分层模糊集合对给定学习实例所发现的领域和语言知识进行表示和基于这些知识对标记词归一化算法.基于上述预处理,给出了计算Deep Web数据库的K-NN(k nearest neighbors)分类算法,其中对数据库之间语义距离计算综合了数据库表之间和含有数据库表的网页的内容文本之间的语义距离.分类实验给出算法对未预处理的网页和经过预处理后的网页在数据库分类精度、查全率和综合F1等测度上的分类结果比较. 展开更多
关键词 DEEP Web 隐式Web 数据库分类 内容文本抽取 语义分类
下载PDF
煤矿安全隐患信息自动分类方法 被引量:9
15
作者 谢斌红 马非 +1 位作者 潘理虎 张英俊 《工矿自动化》 北大核心 2018年第10期10-14,共5页
人工分类方式难以满足海量煤矿安全隐患信息的分类要求,而基于概率统计的文本自动分类方法分类准确率较低。针对上述问题,提出了一种基于Word2vec和卷积神经网络的煤矿安全隐患信息自动分类方法。首先对隐患信息进行分词、去停用词等预... 人工分类方式难以满足海量煤矿安全隐患信息的分类要求,而基于概率统计的文本自动分类方法分类准确率较低。针对上述问题,提出了一种基于Word2vec和卷积神经网络的煤矿安全隐患信息自动分类方法。首先对隐患信息进行分词、去停用词等预处理,然后应用Word2vec来表征词之间的语义相似性关系,最后利用卷积神经网络提取隐患信息的局部上下文高层特征,并使用Softmax分类器实现隐患信息的自动分类。实验结果表明,该方法实现了端到端的自动分类,可有效提升分类的准确性和全面性。 展开更多
关键词 煤矿安全 隐患信息自动分类 文本分类 卷积神经网络 Word2vec
下载PDF
基于主动学习隐马尔可夫模型的文本信息抽取 被引量:3
16
作者 周顺先 林亚平 王耀南 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第6期74-77,共4页
对只能获得部分标记的训练文本,将主动学习方法应用到文本信息抽取中,提出了一种基于主动学习隐马尔可夫模型的文本信息抽取方法.在该方法中,通过主动学习,仅将对隐马尔可夫模型的训练最有价值的训练文本挑选出来进行标记.实验表明,通... 对只能获得部分标记的训练文本,将主动学习方法应用到文本信息抽取中,提出了一种基于主动学习隐马尔可夫模型的文本信息抽取方法.在该方法中,通过主动学习,仅将对隐马尔可夫模型的训练最有价值的训练文本挑选出来进行标记.实验表明,通过选择模型信任值的最佳门槛值,该方法在保证文本信息抽取性能的前提下,大大减少了用户标记训练文本的工作量. 展开更多
关键词 主动学习 隐马尔可夫模型 文本信息抽取
下载PDF
基于文本聚类的煤矿安全隐患类型挖掘研究 被引量:10
17
作者 谭章禄 王兆刚 +2 位作者 胡翰 姜萱 彭胜男 《中国安全科学学报》 CAS CSCD 北大核心 2019年第3期145-148,共4页
为提升煤矿安全管理者对隐患数据的理解和处理能力,提高隐患排查治理工作水平,将文本聚类方法运用于煤矿企业历史安全隐患记录数据的挖掘分析,并采用卡方统计量提取与类别关联度高的特征词描述聚类结果,研究历史隐患数据中记录的主要隐... 为提升煤矿安全管理者对隐患数据的理解和处理能力,提高隐患排查治理工作水平,将文本聚类方法运用于煤矿企业历史安全隐患记录数据的挖掘分析,并采用卡方统计量提取与类别关联度高的特征词描述聚类结果,研究历史隐患数据中记录的主要隐患的类型及特点。结果表明:文本聚类与卡方统计相结合,能够有效识别煤矿安全隐患数据中记录的主要隐患类型及特点;隐患排查治理工作应以数量多的隐患类型作为排查侧重点,根据隐患类型的特点制定相应的治理措施,以改善隐患排查治理工作的针对性和有效性。 展开更多
关键词 煤矿 安全隐患 文本聚类 关联度 隐患类型
下载PDF
文本信息挖掘技术及其在断路器全寿命状态评价中的应用 被引量:61
18
作者 邱剑 王慧芳 +3 位作者 应高亮 张波 邹国平 何奔腾 《电力系统自动化》 EI CSCD 北大核心 2016年第6期107-112,118,共7页
电网企业记录了大量故障与缺陷中文文本,这些文本蕴藏了丰富的设备健康信息。但迄今为止,鲜有电力领域的文本信息挖掘技术研究。以断路器全寿命状态评价为应用研究背景,探索了电网中文文本挖掘方法。首先,根据断路器状态评价的研究现状... 电网企业记录了大量故障与缺陷中文文本,这些文本蕴藏了丰富的设备健康信息。但迄今为止,鲜有电力领域的文本信息挖掘技术研究。以断路器全寿命状态评价为应用研究背景,探索了电网中文文本挖掘方法。首先,根据断路器状态评价的研究现状,提出了构建文本挖掘与全寿命状态评价模型的关键问题。然后,构建了包含文本挖掘信息的全寿命状态评价模型,通过基于隐马尔可夫法(HMM)的文本预处理与向量化、自主区间搜索k最近邻(KNN)算法的文本分类和比率型状态信息融合模型完成了断路器全寿命健康状态指数的展示。最后,采用某电网公司实际缺陷文本构建算例。算例表明,文本挖掘技术实现了相似缺陷的相关性学习,比率型信息融合模型能更全面真实地展示健康状态评价的历史流。 展开更多
关键词 全寿命状态评价 检修消缺 断路器 文本挖掘 隐马尔可夫法(HMM) k最近邻(KNN)
下载PDF
HMM模型和句法分析相结合的事件属性信息抽取 被引量:10
19
作者 吴家皋 周凡坤 张雪英 《南京师大学报(自然科学版)》 CAS CSCD 北大核心 2014年第1期30-34,共5页
自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向,其中信息抽取是近年来新兴起的一个研究领域.由于汉语自身结构松散、语法语义灵活等特点,使得中文文本中信息抽取具有较大的难度.本文提出句法分析和隐马尔科夫模型相... 自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向,其中信息抽取是近年来新兴起的一个研究领域.由于汉语自身结构松散、语法语义灵活等特点,使得中文文本中信息抽取具有较大的难度.本文提出句法分析和隐马尔科夫模型相结合的事件属性抽取方法,其主要思想是先利用句法分析对中文文本进行分析,将得到的句法结构交给隐马尔科夫模型进行学习得到一个抽取模型,然后再由此模型对中文文本进行抽取.实验表明,该方法具有较高的准确率和召回率. 展开更多
关键词 自然语言处理 中文文本信息抽取 隐马尔科夫模型 句法分析 触发词
下载PDF
面向短文本的命名实体识别 被引量:18
20
作者 王丹 樊兴华 《计算机应用》 CSCD 北大核心 2009年第1期143-145,171,共4页
针对短文本命名实体识别这项紧缺任务,提出了一种面向短文本的快速有效的命名实体识别方法。该方法主要分成三步:第一步,针对短文本表达不规范特性对命名实体识别的干扰,采取去干扰字符,化繁为简等规范化操作。第二步,针对短文本语意不... 针对短文本命名实体识别这项紧缺任务,提出了一种面向短文本的快速有效的命名实体识别方法。该方法主要分成三步:第一步,针对短文本表达不规范特性对命名实体识别的干扰,采取去干扰字符,化繁为简等规范化操作。第二步,针对短文本语意不完整特性,提出用HMM(隐马尔可夫模型)以词性做观察值进行初步命名实体识别。第三步,据初步识别结果,构建拼音同指关系库来识别潜在实体。在由8464篇短文本构成的测试集上运行的实验表明,该方法能较好地进行短文本命名实体识别。 展开更多
关键词 短文本 隐马尔可夫模型 命名实体识别 拼音同指关系库 词性
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部