期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
基于深度学习的非结构化医学文本知识抽取
1
作者 耿飙 梁成全 +1 位作者 魏炜 朱长元 《计算机工程与设计》 北大核心 2024年第1期177-186,共10页
为解决一词多义和关系重叠问题,以糖尿病领域文本数据为对象,基于序列标注的新型标注策略,提出一种轻量级端到端神经模型。采用头部实体优先策略,使用BERT获取输入字向量,通过BiLSTM深度学习捕获时间特征和上下文相关性。引入multi_head... 为解决一词多义和关系重叠问题,以糖尿病领域文本数据为对象,基于序列标注的新型标注策略,提出一种轻量级端到端神经模型。采用头部实体优先策略,使用BERT获取输入字向量,通过BiLSTM深度学习捕获时间特征和上下文相关性。引入multi_head attention机制,采用CRF模型根据相邻标签的相互依赖关系得到最优预测序列。旨在将非结构化的医学文本转换成结构化的数据,在阿里云天池中文糖尿病标注数据集上进行综合实验,实验结果表明,该模型在医学文本知识抽取中具有优越的性能。 展开更多
关键词 深度学习 结构文本 医学文本 知识抽取 实体识别 关系抽取 序列标注
下载PDF
基于区块链技术的非结构化文本关键信息智能抽取模型
2
作者 杨丽娜 刘长胜 刘璐璐 《信息技术》 2024年第2期154-159,165,共7页
为了实现精准、高效地抽取关键信息,保证抽取过程和抽取结果的完整性,提出基于区块链技术的非结构化文本关键信息智能抽取模型。将非结构化文本传输至区块链模块内,区块链模块利用区块的链式信息结构、哈希树根节点构建非结构化文本信... 为了实现精准、高效地抽取关键信息,保证抽取过程和抽取结果的完整性,提出基于区块链技术的非结构化文本关键信息智能抽取模型。将非结构化文本传输至区块链模块内,区块链模块利用区块的链式信息结构、哈希树根节点构建非结构化文本信息的分布式账本,构建安全存储算法,经加密模块加密处理后,送至关键信息抽取模块,采用整数线性模拟模型智能抽取非结构化文本关键信息。实验结果表明,在遭受外界扰动时,存储文本信息的完整性维持在98%左右,关键词抽取的准确率、召回率及F值均较高,关键词抽取综合性能较好。 展开更多
关键词 区块链技术 结构文本 关键信息 智能抽取 哈希函数
下载PDF
非结构化文本分析软件比较研究——以KH Coder和Wordstat为例 被引量:29
3
作者 程慧荣 黄国彬 郑琳 《图书与情报》 CSSCI 北大核心 2015年第4期110-117,122,共9页
文章给出了非结构化文本分析软件的定义,并将其划分为三种主要的类型:基于词典的非结构化文本分析软件、基于开发环境的非结构化文本分析软件以及基于注释的非结构化文本分析软件。之后,文章选择了两款非结构化文本分析软件(KH Coder,Wo... 文章给出了非结构化文本分析软件的定义,并将其划分为三种主要的类型:基于词典的非结构化文本分析软件、基于开发环境的非结构化文本分析软件以及基于注释的非结构化文本分析软件。之后,文章选择了两款非结构化文本分析软件(KH Coder,Wordstat),从内部特征和外部特征两个角度对其进行了比较分析。其中,外部特征包括:两款非结构化文本分析软件的费用、更新速度、运行环境、语言种类、客户端方式以及用户指南等6个方面;内部特征包括两款非结构化文本分析软件的主要功能、工作流程、数据格式、可视化功能的展现方式以及关系揭示等5个角度开展。分别指出两款非结构化文本分析软件的优势与劣势、非结构化文本分析软件的未来发展,以帮助用户根据自身的需求选择合适的非结构化文本分析软件。 展开更多
关键词 结构文本 可视化 软件 比较研究
下载PDF
大数据视角下的非结构化文本挖掘分析方法 被引量:7
4
作者 黎伟健 胡斌 +2 位作者 李威 唐健玲 肖西西 《新媒体研究》 2021年第8期8-10,52,共4页
互联网的兴起带来了海量数据,其中非结构化文本数据占比高达75%~85%,因此对非结构化文本数据的挖掘分析显得尤为重要。基于大数据视角,对文本挖掘分析方法进行了梳理,总结出一套较为完整的海量文本分析流程,以期能有助于对海量文本开展... 互联网的兴起带来了海量数据,其中非结构化文本数据占比高达75%~85%,因此对非结构化文本数据的挖掘分析显得尤为重要。基于大数据视角,对文本挖掘分析方法进行了梳理,总结出一套较为完整的海量文本分析流程,以期能有助于对海量文本开展情感分析和客户意见分类分析。 展开更多
关键词 结构文本 情感分析 分类分析
下载PDF
核电厂非结构化风险配置参数语义识别研究
5
作者 杨星晨 杨勇勇 魏巍 《核科学与技术》 2024年第1期27-35,共9页
为推动核电厂配置风险管理工作的实施,以核电厂操纵员日志为研究对象,开展非结构化文本语义识别研究,自动提取其中的设备和状态等风险配置参数信息。经过文本预处理和特征工程,开发基于注意力机制的深度学习模型,对文本进行编码和推理,... 为推动核电厂配置风险管理工作的实施,以核电厂操纵员日志为研究对象,开展非结构化文本语义识别研究,自动提取其中的设备和状态等风险配置参数信息。经过文本预处理和特征工程,开发基于注意力机制的深度学习模型,对文本进行编码和推理,实现实体定位和状态识别等功能。通过3500条人工标注数据进行初步模型训练后,语义识别模型的准确率可达到83%,实现了日志文本中缩写设备、单个设备及状态、多个设备及状态的有效识别和标准化输出。 展开更多
关键词 配置风险管理 结构文本 语义识别 注意力机制
下载PDF
《使用非结构化电子健康数据开展真实世界比较效果和安全性研究的报告规范》要点解读及思考 被引量:4
6
作者 聂晓璐 雷毅 +3 位作者 尉耘翠 孙子墨 王青 彭晓霞 《中国食品药品监管》 2021年第11期47-55,共9页
近些年来,利用行政管理和临床保健数据库等常规收集的卫生数据开展真实世界比较效果与安全性的研究越来越多地影响药品监管、报销和其他医疗保健决策。电子健康记录(Electronic Health Records,EHR),尤其是电子病历数据中的非结构化数... 近些年来,利用行政管理和临床保健数据库等常规收集的卫生数据开展真实世界比较效果与安全性的研究越来越多地影响药品监管、报销和其他医疗保健决策。电子健康记录(Electronic Health Records,EHR),尤其是电子病历数据中的非结构化数据蕴含大量症状、体征、诊断相关数据,结合高效可行的临床真实世界数据采集模式,将其整理为可供分析的结构化数据,可以更好地利用这些信息开展研究。目前已发表的多个报告规范详细说明了关于如何规范报告使用常规收集卫生数据开展观察性研究。然而,现有报告规范未对电子医疗记录、登记数据或其他医疗保健数据源中所包含的结构化和非结构化信息加以区分。如何更加透明、规范地报告,即将非结构化文本提取,整理成为可以开展比较效果研究和安全性研究分析的结构化字段,对于此类因果推断研究、结果解释有重要意义。鉴于此,哈佛医学院Shirley V.Wang教授带领的研究团队提出并制定《使用非结构化电子健康数据开展真实世界比较效果和安全性研究的报告规范》。本文对基于非结构化EHR开展真实世界比较效果和安全性研究过程中涉及的专业术语和相关技术进行简单归纳,着重介绍现已发表的报告规范中对于非结构化文本处理,如使用自然语言处理或机器学习方法时需重点报告的核心要点,以期为研究人员今后更好地开展和报告此类研究提供参考。 展开更多
关键词 药品监管 电子健康数据 结构文本 真实世界研究 报告规范
下载PDF
基于NER 的石油非结构化信息抽取研究 被引量:8
7
作者 钟原 刘小溶 +2 位作者 王杰 陈雁 张泰 《西南石油大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第6期165-173,共9页
随着“智能油田”的建设加快,构建基于海量石油数据的智能分析系统意义重大。然而,由于石油生产过程中产生的文本数据往往无结构且类型多样,从中抽取关键信息进行分析成为一个研究热点,而信息抽取又需要高质量的语义实体做支撑。根据这... 随着“智能油田”的建设加快,构建基于海量石油数据的智能分析系统意义重大。然而,由于石油生产过程中产生的文本数据往往无结构且类型多样,从中抽取关键信息进行分析成为一个研究热点,而信息抽取又需要高质量的语义实体做支撑。根据这一特定问题,提出基于命名实体识别(Named Entity Recognition,NER)技术针对石油非结构化文本进行信息抽取,构建双向长短时记忆(Bidirectional Long Short-Term Memory,Bi LSTM)网络模型提取语料特征,并结合条件随机场(Conditional Random Field,CRF)做分类器,构建了基于Bi LSTM+CRF的高精度NER模型,针对石油工业领域的非结构化文本进行命名实体抽取。通过在修井作业文本数据集上进行对比实验表明,本方法具有较高的精确率和召回率。 展开更多
关键词 命名实体识别 Bi LSTM+CRF 信息抽取 结构文本
下载PDF
基于岩石文本信息的命名实体识别
8
作者 杜睿山 陈思路 刘文豪 《计算机技术与发展》 2022年第9期188-192,共5页
命名实体识别技术是自然语言处理领域的重要任务之一。但岩石文本信息中的命名实体存在边界不清、分词困难、误差传播、计算效率慢等问题。基于岩石文本信息进行知识抽取对油气勘探领域的研究具有重大意义。为此,该文首先构建岩石文本... 命名实体识别技术是自然语言处理领域的重要任务之一。但岩石文本信息中的命名实体存在边界不清、分词困难、误差传播、计算效率慢等问题。基于岩石文本信息进行知识抽取对油气勘探领域的研究具有重大意义。为此,该文首先构建岩石文本数据集,并提出Lexicon-BiLSTM-CRF网络模型应用于非结构化的岩石文本上,该模型首先经过Lexicon机制获得每个字符的所有匹配词,从而解决了边界不清、分词困难的问题,在此基础上提升了计算效率。然后通过双向长短期记忆网络(BiLSTM)提取上下文语义特征,将语义向量传入条件随机场(CRF)层并采用维特比算法解码,降低了错误标签的输出概率并预测实体标注标签,最终实现岩石文本的命名实体抽取任务。在构建的岩石文本数据集的基础上进行几组对比实验,验证了该方法在准确率和召回率上具有一定提升。 展开更多
关键词 命名实体识别 LEXICON 岩石 结构文本 条件随机场 知识抽取
下载PDF
面向模式的文本数据描述模型
9
作者 王新新 《科技创新与应用》 2020年第10期28-30,共3页
实际应用中常有从非结构化文本中提取符合指定模式信息的需求。在分析了使用正则表达式处理这类问题的缺陷之后,提出了一种面向模式的文本数据描述模型,将模式分为终端模式、结构体模式、联合体模式和数组模式,并详细介绍了各模式在文... 实际应用中常有从非结构化文本中提取符合指定模式信息的需求。在分析了使用正则表达式处理这类问题的缺陷之后,提出了一种面向模式的文本数据描述模型,将模式分为终端模式、结构体模式、联合体模式和数组模式,并详细介绍了各模式在文本匹配以及数据映射中的作用,最后通过相应的示例演示了模型的结构性与便利性。 展开更多
关键词 面向模式 结构文本 模式识别 信息提取
下载PDF
文本的结构和意义的生成——洛特曼的结构诗学 被引量:2
10
作者 程正民 《文化与诗学》 CSSCI 2012年第2期234-251,共18页
艺术文本是一个整体的结构,整体所提供的信息量要大于各部所提供的信息量的总和。文本结构的复杂性与所传达的信息量成正比。艺术文本结构中各种要素之间的矛盾和冲突,对立和统一,是艺术文本意义生成的重要机制。文本创新的力量取决于... 艺术文本是一个整体的结构,整体所提供的信息量要大于各部所提供的信息量的总和。文本结构的复杂性与所传达的信息量成正比。艺术文本结构中各种要素之间的矛盾和冲突,对立和统一,是艺术文本意义生成的重要机制。文本创新的力量取决于遇到阻力的程度。艺术文本结构是同社会历史文化这个更复杂的非文本结构相联系的。 展开更多
关键词 洛特曼 文本结构 意义生成 非文本结构
原文传递
面向中文网络百科的属性和属性值抽取 被引量:12
11
作者 贾真 杨宇飞 +2 位作者 何大可 刘胜久 尹红风 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第1期41-47,共7页
针对面向中文网络百科条目文章的属性和属性值抽取,提出一种无监督方法。此方法将属性值看做命名实体,利用频繁模式挖掘和关联分析,从文本中抽取类别属性;采用自扩展方法为属性建立触发词表;基于属性触发词和属性值实体标注挖掘属性值... 针对面向中文网络百科条目文章的属性和属性值抽取,提出一种无监督方法。此方法将属性值看做命名实体,利用频繁模式挖掘和关联分析,从文本中抽取类别属性;采用自扩展方法为属性建立触发词表;基于属性触发词和属性值实体标注挖掘属性值抽取模式,利用层次聚类算法获取高质量的模式。在互动百科中采集的数据集上进行实验,结果表明所提方法行之有效。 展开更多
关键词 知识获取 属性抽取 结构文本 模式挖掘
下载PDF
基于旋转森林集成学习的涉恐实体挖掘研究 被引量:12
12
作者 孙菲菲 林平 曹卓 《情报杂志》 CSSCI 北大核心 2015年第5期190-195,共6页
近期,我国出现了一系列暴力恐怖袭击事件,面临的反恐形势日趋严峻。传统的被动警务防范模型弊端日益凸显,亟需有效应对恐怖袭击的智能化防范策略。作为近年来的研究热点,数据挖掘技术和应用发展迅速。文章充分利用数据挖掘的前沿技术和... 近期,我国出现了一系列暴力恐怖袭击事件,面临的反恐形势日趋严峻。传统的被动警务防范模型弊端日益凸显,亟需有效应对恐怖袭击的智能化防范策略。作为近年来的研究热点,数据挖掘技术和应用发展迅速。文章充分利用数据挖掘的前沿技术和成果,提出了一个相对完整的涉恐实体挖掘模型,以期为反恐实战工作服务。其中,简要介绍针对中文和维吾尔文非结构化文本数据的挖掘流程,提出一个有效应用于识别和预测涉恐实体的基于旋转森林的集成分类模型,并用实验证明这一模型较之一般的分类器会有更优越的分类性能。 展开更多
关键词 反恐 结构文本 数据挖掘 旋转森林 集成学习
下载PDF
基于本体和依存句法的词汇语义关系标注及评价方法研究
13
作者 熊晶 支丽平 袁冬 《中文信息学报》 CSCD 北大核心 2015年第3期58-64,共7页
为弥补传统的语义标注方法在词语或句子成分之间关系描述方面的不足,该文提出了一种基于本体和依存句法的非结构化文本语义关系标注算法。算法以句子为单位,综合POS(Part of Speech)、语义辞典、语言学特征等因素对句子中词汇的语义关... 为弥补传统的语义标注方法在词语或句子成分之间关系描述方面的不足,该文提出了一种基于本体和依存句法的非结构化文本语义关系标注算法。算法以句子为单位,综合POS(Part of Speech)、语义辞典、语言学特征等因素对句子中词汇的语义关系进行识别,利用词语间的依存关系对词语进行语义组合,从而实现词汇语义关系标注。结合语义标注过程中的语义匹配度、语义丰富度等特征,设计了评价算法,用以衡量标注结果的正确性。实验结果表明,该标注算法能获得较高的准确率,在大规模语料下效果尤为显著。 展开更多
关键词 语义标注 本体 结构文本 依存句法
下载PDF
基于网络的地理目标数据获取与处理方法研究
14
作者 葛磊 刘海砚 杨瑞杰 《网信军民融合》 2019年第10期56-61,共6页
网信前沿技术的发展和创新应用对提升国家信息安全保障能力,推动信息化和工业深度融合,加快经济发展方式转变和产业结构调整具有重要的支撑和引领作用,是制造强国和网络强国建设的核心力量。栏目分享网信技术最新进展,探讨创新应用实践。
关键词 地理实体 网络信息资源 规则匹配 目标数据 结构 位置数据 结构文本 数据融合处理
下载PDF
基于主题词聚类和社会网络分析的患者就医体验主题挖掘 被引量:4
15
作者 张瑶 刘静 +1 位作者 宋阳 马敬东 《中华医学图书情报杂志》 CAS 2019年第10期25-33,共9页
目的:采用主题词聚类和社会网络分析方法,从患者负面评价文本中挖掘主题分类信息,为改善医疗服务体验提供参考。方法:对华中某三甲医院2013-2019年线下回访调查获取的非结构化负面评价文本集进行Kmeans词汇聚类分析和社会网络分析,提炼... 目的:采用主题词聚类和社会网络分析方法,从患者负面评价文本中挖掘主题分类信息,为改善医疗服务体验提供参考。方法:对华中某三甲医院2013-2019年线下回访调查获取的非结构化负面评价文本集进行Kmeans词汇聚类分析和社会网络分析,提炼出与患者诊疗服务体验相关的主题类,分析影响患者就医满意度的因素。结果:通过对来自门诊、入院和出院3种类型患者的回访文本进行词聚类后,均提取出了8个主题类。社会网络可视化图谱显示3种类型患者对服务体验的感知侧重点不同。结论:整体上,患者负面反馈在医疗服务价格透明度和服务时间规划等方面最为突出,说明医疗机构应优先提高此类更受患者关切的服务质量,营造和谐的就医环境。 展开更多
关键词 聚类 社会网络分析 患者体验 结构文本 服务质量 医院管理
下载PDF
基于蒙古族农牧民高血压大数据的可视化分析与机器学习算法应用比较研究 被引量:3
16
作者 王晓东 王超 +4 位作者 左风云 赵慧茹 马立晨 张宇鹏 吴雅琴 《中国数字医学》 2019年第11期24-28,共5页
以内蒙古某旗县蒙古族农牧民高血压患者数据为例,使用Python程序设计语言,实现非结构化文本数据的分词与统计以及高血压大数据的可视化分析处理,并通过KNN、朴素贝叶斯算法、随机森林分类等机器学习算法对病例数据分别训练,并对诊断结... 以内蒙古某旗县蒙古族农牧民高血压患者数据为例,使用Python程序设计语言,实现非结构化文本数据的分词与统计以及高血压大数据的可视化分析处理,并通过KNN、朴素贝叶斯算法、随机森林分类等机器学习算法对病例数据分别训练,并对诊断结果进行预测,找出适合此数据集的机器学习预测模型,为高血压的预防、诊断、治疗提供辅助决策。同时,提出了针对其他慢病大数据分析的建议方案。 展开更多
关键词 高血压 蒙古族农牧民 结构文本 分词 数据可视化 机器学习算法
下载PDF
基于异构中文在线百科的层次话题构建
17
作者 王煦中 刘琰 +1 位作者 胡琳梅 陈静 《计算机科学》 CSCD 北大核心 2017年第5期226-231,共6页
中文在线百科包含大量有价值的信息,很多工作成功地将其用于各类知识获取任务。例如,拥有相似话题的文档可以被归为一个概念。从这些在线百科中构建出的针对某一概念的层次话题对于搜索与浏览、信息组织和检索等应用都有很大的帮助。然... 中文在线百科包含大量有价值的信息,很多工作成功地将其用于各类知识获取任务。例如,拥有相似话题的文档可以被归为一个概念。从这些在线百科中构建出的针对某一概念的层次话题对于搜索与浏览、信息组织和检索等应用都有很大的帮助。然而,目前尚未出现对在线百科中某一概念层次话题构建的研究。针对中文在线百科的异构性与粗糙性的问题,提出了一种基于贝叶斯网络的话题层次构建方法。该方法同时综合文档的结构化目录信息和非结构化文本信息,采用最大树形图算法自动地在文档所属概念的贝叶斯话题网络中建立层次话题。实验证明,与原有的百科话题结构相比较,所提方法在保持75%的准确性的同时扩充了4倍的内容。 展开更多
关键词 中文在线百科 层次话题 结构化目录信息 结构文本信息
下载PDF
融合偏旁特征的化学命名实体识别研究
18
作者 尹止戈 陆建峰 《计算机与数字工程》 2023年第4期809-813,892,共6页
化学实体识别是构建化学学科知识图谱,形成学科知识体系的基础步骤。中学化学课程语料多为非结构化文本数据,且具有语料少、相同词根相似语义的特性。传统的小规模特定领域的实体识别多基于规则和统计机器学习模型,需要大量的专家辅助... 化学实体识别是构建化学学科知识图谱,形成学科知识体系的基础步骤。中学化学课程语料多为非结构化文本数据,且具有语料少、相同词根相似语义的特性。传统的小规模特定领域的实体识别多基于规则和统计机器学习模型,需要大量的专家辅助和筛选,存在着可移植性弱,扩展维护难的问题。论文针对领域特性构建了基于BiLSTM-CRF的改进模型,融合了偏旁部首的词根向量特征进行化学实体识别。在人教版高中化学教材上进行对比实验,实验表明该方法在F1度量上高于实验中的基准模型,证明了此方法在中学化学知识点实体识别上的有效性。 展开更多
关键词 深度学习 命名实体识别 偏旁特征 结构文本
下载PDF
基于贝叶斯分类算法的用户评论数据挖掘系统设计 被引量:4
19
作者 孙含笑 《现代计算机》 2021年第4期56-59,共4页
随着人工智能和大数据的蓬勃发展,传统的现场购物的方式已经被颠覆,电子购物逐渐成为人们生活不可或缺的一部分。电子购物不仅方便了消费者,而且电商平台也可以获得海量的非结构化文本数据,如商品描述、用户评论、用户咨询等,进而实现... 随着人工智能和大数据的蓬勃发展,传统的现场购物的方式已经被颠覆,电子购物逐渐成为人们生活不可或缺的一部分。电子购物不仅方便了消费者,而且电商平台也可以获得海量的非结构化文本数据,如商品描述、用户评论、用户咨询等,进而实现商品优化。但是电商平台所获得的信息繁冗复杂,数据量大且夹杂大量无效信息,如何从其中高效提取有效信息成为电商平台发展的掣肘所在。基于这一关键问题,一种全新的数据挖掘系统被提出。以某知化妆品为案例,通过Python爬取其购物评论,利用WordCloud制作词云,从词云图捕捉客户对商品的满意度以及客户对商品的主要关注点。随后基于朴素贝叶斯分类算法对评论进行类别训练,并提取好差评评论中的敏感词汇,进而找到商品改进的突破点。 展开更多
关键词 结构文本数据 WordCloud 数据挖掘 朴素贝叶斯分类算法
下载PDF
基于自然语言处理技术的审计应用探究
20
作者 赵建荣 《中文科技期刊数据库(全文版)工程技术》 2022年第9期148-153,共6页
当前,各个行业信息化都取得了巨大的成果,各种数据量的积累也越来越多。而这些数据中结构化数据往往较少,很多都是非结构化数据或者是半结构化数据。这样的数据组成对审计带来了巨大的挑战。文中提出了一种基于自然语言处理技术,并将该... 当前,各个行业信息化都取得了巨大的成果,各种数据量的积累也越来越多。而这些数据中结构化数据往往较少,很多都是非结构化数据或者是半结构化数据。这样的数据组成对审计带来了巨大的挑战。文中提出了一种基于自然语言处理技术,并将该技术在审计中的应用进行了探讨,通过该技术,可以有效地提高非结构化文本数据的审计效率。 展开更多
关键词 审计 结构文本数据 自然语言处理技术
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部