中文分词(Chinese Word Segmentation,CWS)是自然语言处理(Natural Language Processing,NLP)中一项重要的基础任务。由于不同领域中文词汇的特殊性以及缺乏相关领域的标记数据,面向特定领域的分词任务是近年来中文分词研究面临的挑战...中文分词(Chinese Word Segmentation,CWS)是自然语言处理(Natural Language Processing,NLP)中一项重要的基础任务。由于不同领域中文词汇的特殊性以及缺乏相关领域的标记数据,面向特定领域的分词任务是近年来中文分词研究面临的挑战之一。因此,提出了一种基于双向长短时记忆网络(Bidirectional Long Short-Term Memory,Bi-LSTM)的分词模型,其中分别使用了大规模的中文通用语料以及少量中文医学语料训练模型来构建这种全新的分词模型。该模型在仅使用少量中文医学领域标记数据的情况下,在该领域的分词任务上获得了较好的分词效果,实验结果中的最优F1值为95.54%,相比单独使用中文医学语料训练的分词模型,有比较明显的提升。展开更多
使用医疗信息系统的数据进行睡眠呼吸暂停低通气综合征(OSAHS)预测和分析过程中,存在不平衡数据问题。为此,在现有临床研究的基础上,提出了一种基于ROSE(Random Over Sampling Examples)和C5.0算法的初筛模型。利用收集到的人体测量学...使用医疗信息系统的数据进行睡眠呼吸暂停低通气综合征(OSAHS)预测和分析过程中,存在不平衡数据问题。为此,在现有临床研究的基础上,提出了一种基于ROSE(Random Over Sampling Examples)和C5.0算法的初筛模型。利用收集到的人体测量学指标数据,通过数据预处理,删除异常值并填补缺失值。然后采用ROSE算法对数据进行平衡,利用C5.0分类器对平衡后的数据构建筛查模型,通过十则交叉验证的方法检验模型的筛查效果。实验结果表明,使用该模型进行打鼾患者的OSAHS筛查,可以有效地提高筛查效率。展开更多
文摘中文分词(Chinese Word Segmentation,CWS)是自然语言处理(Natural Language Processing,NLP)中一项重要的基础任务。由于不同领域中文词汇的特殊性以及缺乏相关领域的标记数据,面向特定领域的分词任务是近年来中文分词研究面临的挑战之一。因此,提出了一种基于双向长短时记忆网络(Bidirectional Long Short-Term Memory,Bi-LSTM)的分词模型,其中分别使用了大规模的中文通用语料以及少量中文医学语料训练模型来构建这种全新的分词模型。该模型在仅使用少量中文医学领域标记数据的情况下,在该领域的分词任务上获得了较好的分词效果,实验结果中的最优F1值为95.54%,相比单独使用中文医学语料训练的分词模型,有比较明显的提升。
文摘使用医疗信息系统的数据进行睡眠呼吸暂停低通气综合征(OSAHS)预测和分析过程中,存在不平衡数据问题。为此,在现有临床研究的基础上,提出了一种基于ROSE(Random Over Sampling Examples)和C5.0算法的初筛模型。利用收集到的人体测量学指标数据,通过数据预处理,删除异常值并填补缺失值。然后采用ROSE算法对数据进行平衡,利用C5.0分类器对平衡后的数据构建筛查模型,通过十则交叉验证的方法检验模型的筛查效果。实验结果表明,使用该模型进行打鼾患者的OSAHS筛查,可以有效地提高筛查效率。