近些年来,利用行政管理和临床保健数据库等常规收集的卫生数据开展真实世界比较效果与安全性的研究越来越多地影响药品监管、报销和其他医疗保健决策。电子健康记录(Electronic Health Records,EHR),尤其是电子病历数据中的非结构化数...近些年来,利用行政管理和临床保健数据库等常规收集的卫生数据开展真实世界比较效果与安全性的研究越来越多地影响药品监管、报销和其他医疗保健决策。电子健康记录(Electronic Health Records,EHR),尤其是电子病历数据中的非结构化数据蕴含大量症状、体征、诊断相关数据,结合高效可行的临床真实世界数据采集模式,将其整理为可供分析的结构化数据,可以更好地利用这些信息开展研究。目前已发表的多个报告规范详细说明了关于如何规范报告使用常规收集卫生数据开展观察性研究。然而,现有报告规范未对电子医疗记录、登记数据或其他医疗保健数据源中所包含的结构化和非结构化信息加以区分。如何更加透明、规范地报告,即将非结构化文本提取,整理成为可以开展比较效果研究和安全性研究分析的结构化字段,对于此类因果推断研究、结果解释有重要意义。鉴于此,哈佛医学院Shirley V.Wang教授带领的研究团队提出并制定《使用非结构化电子健康数据开展真实世界比较效果和安全性研究的报告规范》。本文对基于非结构化EHR开展真实世界比较效果和安全性研究过程中涉及的专业术语和相关技术进行简单归纳,着重介绍现已发表的报告规范中对于非结构化文本处理,如使用自然语言处理或机器学习方法时需重点报告的核心要点,以期为研究人员今后更好地开展和报告此类研究提供参考。展开更多
随着“智能油田”的建设加快,构建基于海量石油数据的智能分析系统意义重大。然而,由于石油生产过程中产生的文本数据往往无结构且类型多样,从中抽取关键信息进行分析成为一个研究热点,而信息抽取又需要高质量的语义实体做支撑。根据这...随着“智能油田”的建设加快,构建基于海量石油数据的智能分析系统意义重大。然而,由于石油生产过程中产生的文本数据往往无结构且类型多样,从中抽取关键信息进行分析成为一个研究热点,而信息抽取又需要高质量的语义实体做支撑。根据这一特定问题,提出基于命名实体识别(Named Entity Recognition,NER)技术针对石油非结构化文本进行信息抽取,构建双向长短时记忆(Bidirectional Long Short-Term Memory,Bi LSTM)网络模型提取语料特征,并结合条件随机场(Conditional Random Field,CRF)做分类器,构建了基于Bi LSTM+CRF的高精度NER模型,针对石油工业领域的非结构化文本进行命名实体抽取。通过在修井作业文本数据集上进行对比实验表明,本方法具有较高的精确率和召回率。展开更多
为弥补传统的语义标注方法在词语或句子成分之间关系描述方面的不足,该文提出了一种基于本体和依存句法的非结构化文本语义关系标注算法。算法以句子为单位,综合POS(Part of Speech)、语义辞典、语言学特征等因素对句子中词汇的语义关...为弥补传统的语义标注方法在词语或句子成分之间关系描述方面的不足,该文提出了一种基于本体和依存句法的非结构化文本语义关系标注算法。算法以句子为单位,综合POS(Part of Speech)、语义辞典、语言学特征等因素对句子中词汇的语义关系进行识别,利用词语间的依存关系对词语进行语义组合,从而实现词汇语义关系标注。结合语义标注过程中的语义匹配度、语义丰富度等特征,设计了评价算法,用以衡量标注结果的正确性。实验结果表明,该标注算法能获得较高的准确率,在大规模语料下效果尤为显著。展开更多
文摘近些年来,利用行政管理和临床保健数据库等常规收集的卫生数据开展真实世界比较效果与安全性的研究越来越多地影响药品监管、报销和其他医疗保健决策。电子健康记录(Electronic Health Records,EHR),尤其是电子病历数据中的非结构化数据蕴含大量症状、体征、诊断相关数据,结合高效可行的临床真实世界数据采集模式,将其整理为可供分析的结构化数据,可以更好地利用这些信息开展研究。目前已发表的多个报告规范详细说明了关于如何规范报告使用常规收集卫生数据开展观察性研究。然而,现有报告规范未对电子医疗记录、登记数据或其他医疗保健数据源中所包含的结构化和非结构化信息加以区分。如何更加透明、规范地报告,即将非结构化文本提取,整理成为可以开展比较效果研究和安全性研究分析的结构化字段,对于此类因果推断研究、结果解释有重要意义。鉴于此,哈佛医学院Shirley V.Wang教授带领的研究团队提出并制定《使用非结构化电子健康数据开展真实世界比较效果和安全性研究的报告规范》。本文对基于非结构化EHR开展真实世界比较效果和安全性研究过程中涉及的专业术语和相关技术进行简单归纳,着重介绍现已发表的报告规范中对于非结构化文本处理,如使用自然语言处理或机器学习方法时需重点报告的核心要点,以期为研究人员今后更好地开展和报告此类研究提供参考。
文摘随着“智能油田”的建设加快,构建基于海量石油数据的智能分析系统意义重大。然而,由于石油生产过程中产生的文本数据往往无结构且类型多样,从中抽取关键信息进行分析成为一个研究热点,而信息抽取又需要高质量的语义实体做支撑。根据这一特定问题,提出基于命名实体识别(Named Entity Recognition,NER)技术针对石油非结构化文本进行信息抽取,构建双向长短时记忆(Bidirectional Long Short-Term Memory,Bi LSTM)网络模型提取语料特征,并结合条件随机场(Conditional Random Field,CRF)做分类器,构建了基于Bi LSTM+CRF的高精度NER模型,针对石油工业领域的非结构化文本进行命名实体抽取。通过在修井作业文本数据集上进行对比实验表明,本方法具有较高的精确率和召回率。
文摘为弥补传统的语义标注方法在词语或句子成分之间关系描述方面的不足,该文提出了一种基于本体和依存句法的非结构化文本语义关系标注算法。算法以句子为单位,综合POS(Part of Speech)、语义辞典、语言学特征等因素对句子中词汇的语义关系进行识别,利用词语间的依存关系对词语进行语义组合,从而实现词汇语义关系标注。结合语义标注过程中的语义匹配度、语义丰富度等特征,设计了评价算法,用以衡量标注结果的正确性。实验结果表明,该标注算法能获得较高的准确率,在大规模语料下效果尤为显著。