期刊文献+

基于互信息和逻辑回归的新词发现 被引量:9

Extracting New Words with Mutual Information and Logistic Regression
原文传递
导出
摘要 【目的】改进新词提取方法,将提取的新词加入现有分词模型,提高医学文本分词准确率。【方法】在传统互信息模型基础上,得到字、字串的统计量,连同字串是否成词,一起作为特征,建立逻辑回归分类模型,设计了一种新词识别算法。【结果】在湘雅医院皮肤科电子病历文本数据上进行系列实验,与PMI、PMI^2和PMI^3相比,融入逻辑回归的PMI模型可以取得最高的新词提取准确率(0.803)。【局限】建立逻辑回归分类模型时,需要对训练集字串是否成词进行人工判断。【结论】融入逻辑回归的互信息分词模型可以更好地识别新词,降低词语误判,对于医学文本词的切分具有良好的应用价值。 [Objective]This paper modified the method for new word extraction,which are used to improve the performance of medical text segmentation models.[Methods]With the help of traditional mutual information model,we obtained the statistics of words and strings.Then,we established a logical regression classification model with these data,and built an algorithm for new word identification.[Results]A series of experiments were carried out on the texts of electronic medical records from Dermatology Department of Xiangya Hospital.Compared with PMI,PMI^2 and PMI^3,our model with logistic regression achieved the highest accuracy of new words extraction(0.803).[Limitations]To establish the logistic regression model for classification,we have to manually judge whether or not the training strings are words.[Conclusions]The proposed model and algorithm could effectively identify new words from medical records.
作者 陈先来 韩超鹏 安莹 刘莉 李忠民 杨荣 Chen Xianlai;Han Chaopeng;An Ying;Liu Li;Li Zhongmin;Yang Rong(Information Security and Big Data Research Institute,Central South University,Changsha410083,China;School of Information Science and Engineering,Central South University,Changsha410083,China;National Engineering Laboratory for Medical Big Data Application Technology,Central South University,Changsha410083,China;Xiangya Hospital,Central South University,Changsha410078,China)
出处 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第8期105-113,共9页 Data Analysis and Knowledge Discovery
基金 中南大学中央高校基本科研业务费专项资金资助项目“基于临床数据的青霉素类药物不良反应预测模型研究”(项目编号:2017ZZTS722) 国家重点研发计划“精准医学研究”重点专项基金项目“精准医学大数据体系的规范化应用与评价”(项目编号:2016YFC0901705) 国家社会科学基金项目“面向临床决策的电子病历潜在语义分析及应用研究”(项目编号:13BTQ052) 湖南省自然科学基金面上项目“大数据驱动的心力衰竭风险预测与辅助诊断应用研究”(项目编号:2018JJ2534)的研究成果之一
关键词 医学文本 分词 新词发现 逻辑回归 互信息模型 Medical Text Word Segmentation New Word Discovery Logistic Regression Mutual Information Model
  • 相关文献

参考文献16

二级参考文献136

共引文献543

同被引文献82

引证文献9

二级引证文献10

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部