基于混合策略的公众健康领域新词识别方法研究被引量：2

The Study on Consumer Health New Term Identification Based on Hybrid Method

导出

摘要 [目的 /意义]从互联网公众查询数据中发现公众使用的健康术语,为建立公众健康术语与医学专业术语的映射提供基础,进而优化健康类知识服务平台的知识组织与管理性能。[方法 /过程]设计规则与NGram相结合的健康术语新词的识别模型,采集公众查询数据,开展实验验证,通过多次实验,逐步完善过滤语料集合,结合人工判读,不断优化并验证方案的有效性。[结果 /结论]从互联网中公众提问句抽取出规则,结合统计算法进行公众使用的健康类新词抽取,该技术方法对识别公众使用的健康术语具有一定的通用性,能为建立公众术语与医学术语映射提供数据基础。实验结果表明:基于规则进行公众日志数据预处理,能为后续的实验方案提供较好的预处理文本,而采用N-Gram及各种过滤规则结合的术语识别方法,能较好地识别发现短文本中的新词。 [Purpose / significance]Identify the health term by consumer understanding from Web query data,to provide fundamental term set for carrying out the mapping between the consumer-friendly terms and the professionals in medical domain. [Method / process]The consumer health term identification model is set up combining N-Gram and rule,and the Web query data is captured from consumers. Using these data as samples,implement experiment,the rationality of the model is verified by expert reviewing. [Result / conclusion]The method of new term identified in this paper is extracting rules from consumers＇ question data in Web query dataset,and combining statistical methods. The identified model in this paper has better identification capability,which can provide significant dataset for mapping the lay terms between the professionals in consumer health domain. The experimental results show that it can provide preprocessing text for follow-up experiment by processing the public Web data based on rules,the identified model of combining N-Gram and rules can identify new health terms in short text,and the model is reasonable and scientific.

作者侯丽李姣侯震陈松景

机构地区中国医学科学院医学信息研究所

出处《图书情报工作》 CSSCI 北大核心 2015年第23期115-123,共9页 Library and Information Service

基金国家社会科学基金"面向知识服务的公众健康知识组织体系构建研究"(项目编号:14BTQ032) "十二五"国家科技支撑计划课题"公众健康知识整合与服务技术研究与应用"(项目编号:2013BAI06B01)研究成果之一

关键词互联网查询数据公众健康术语 N-GRAM 实体识别 Web query data consumer health term N-Gram entity identification

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献24

1国家卫生和计划生育委员会宣传司,中国健康教育中心.2013年中国居民健康素养监测报告[EB/OL]. Availablefrom: http://www. sdwsjs. gov. cn/xwzx/mtgz/201412/P020141217534556223215. pdf. [Accessed on 26th Decem-ber 2014].
2第八次中国公民科学素养调查结果发布[EB/OL].http://www.east.org.cn/n35081/n35518/12451858.html.2010-11-25.
3中东呼吸综合征:韩国疫情蔓延[EB/OL].[2015-07-13].http ://world. people, com. cn/n/2015/0611/e1002 -27141708. html.
4Miller T, Leroy G, Wood E. Dynamic generation of a table of con- tents with consumer-friendly labels [ EB/OL]. [ 2015 - 10 - 05]. http ://www. ncbi. nlm. nih. gov/pmc/articles/PMC1839557.
5Qing Z T, Tse T, Crowell J. Identifying consumer-friendly display (CFD) names for health concepts [ EB/OL]. [ 2015 - 10 - 05 ]. http ://www. ncbi. nlm. nih. gov/pmc/articles/PMC1560732.
6Zhang Shaodian, Elhadad N. Unsupervised biomedical named entity recognition:Experiments with clinical and biological texts [ J ]. Jour- nal Biomedical Information. 2013,46(6) :1 -29.
7宗成庆.统计自然语言处理[M].北京:清华大学出版社,2014:11-12.
8栗伟,赵大哲,李博,彭新茗,刘积仁.CRF与规则相结合的医学病历实体识别[J].计算机应用研究,2015,32(4):1082-1086. 被引量：40
9郑家恒,李文花.基于构词法的网络新词自动识别初探[J].山西大学学报（自然科学版）,2002,25(2):115-119. 被引量：56
10穗志方.信息科学技术领域术语自动识别策略[C]//北京大学计算语言研究所.第二届中日自然语言处理专家研讨会论文集,北京:万方数据,2002:32-38.

二级参考文献124

1陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
2孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
3邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
4秦浩伟,步丰林.一个中文新词识别特征的研究[J].计算机工程,2004,30(B12):369-370. 被引量：13
5张锋,许云,侯艳,樊孝忠.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5):72-73. 被引量：36
6向晓雯,史晓东,曾华琳.一个统计与规则相结合的中文命名实体识别系统[J].计算机应用,2005,25(10):2404-2406. 被引量：37
7曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
8俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
9崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
10周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112

共引文献222

1姜会珍,胡海洋,马琏,赵从朴,张锋,陈婕卿,曾可,王晓露,朱卫国.基于医患对话的病历自动生成技术研究[J].中国数字医学,2021,16(10):36-40. 被引量：3
2刘龙航,赵铁军.融合知识的中文医疗实体识别模型[J].智能计算机与应用,2021,11(3):94-97.
3Zhixiang Ji,Xiaohui Wang,Changyu Cai,Hongjian Sun.Power entity recognition based on bidirectional long short-term memory and conditional random fields[J].Global Energy Interconnection,2020,3(2):186-192. 被引量：8
4黄东平,田芳.BBS信息过滤技术研究[J].长江大学学报（自然科学版）,2004,1(1):16-18. 被引量：4
5崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
6任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
7李新福,赵杰,梁巍.基于互信息的宋史语料库词表的提取[J].河北大学学报（自然科学版）,2006,26(5):557-560. 被引量：4
8吕学强,黄河,李渝勤,施水才.BBS中文新词语自动挖掘[J].现代图书情报技术,2007(1):37-39. 被引量：2
9夏霙,刘功申,李翔.基于标引信息的网络新概念发现算法[J].微型电脑应用,2007,23(1):8-10.
10罗智勇,宋柔.基于多特征的自适应新词识别[J].北京工业大学学报,2007,33(7):718-725. 被引量：14

同被引文献18

1高永伟.近20年英语国家对新词的研究[J].外语与外语教学,1998(11):9-11. 被引量：16
2邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
3徐琳宏,林鸿飞,潘宇,任惠,陈建美.情感词汇本体的构造[J].情报学报,2008,27(2):180-185. 被引量：384
4荀恩东,李晟.采用术语定义模式和多特征的新术语及定义识别方法[J].计算机研究与发展,2009,46(1):62-69. 被引量：12
5刘耕,方勇,刘嘉勇.基于关联词和扩展规则的敏感词库设计[J].四川大学学报（自然科学版）,2009,46(3):667-671. 被引量：13
6徐建民,王金花,马伟瑜.利用本体关联度改进的TF-IDF特征词提取方法[J].情报科学,2011,29(2):279-283. 被引量：29
7吴悦,燕鹏举,翟鲁峰.基于二元背景模型的新词发现[J].清华大学学报（自然科学版）,2011,51(9):1317-1320. 被引量：10
8韩红旗,安小米.C-value值和unithood指标结合的中文科技术语抽取[J].图书情报工作,2012,56(19):85-89. 被引量：10
9刘长征.新词语的生命力[J].北华大学学报（社会科学版）,2012,13(5):4-8. 被引量：3
10黄轩,李熔烽.博客语料的新词发现方法[J].现代电子技术,2013,36(2):144-146. 被引量：17

引证文献2

1夏松,林荣蓉,刘勘.网络谣言敏感词库的构建研究——以新浪微博谣言为例[J].知识管理论坛,2019(5):267-275. 被引量：6
2雷晓,常春,刘伟.面向叙词表更新的新术语分布特征研究[J].图书情报工作,2019,63(20):121-128. 被引量：3

二级引证文献9

1甄沐华,陈鹏,王坤,范子杨,王者.基于关键词挖掘的热线文本数据犯罪线索筛查方法研究[J].知识管理论坛,2022(5):539-548. 被引量：1
2王晓光,侯西龙,程航航,夏生平.敦煌壁画叙词表构建与关联数据发布[J].中国图书馆学报,2020,46(4):69-84. 被引量：38
3李古淞,曹茹.AI谣言粉碎机的运作、不足与完善[J].青年记者,2020(36):93-94. 被引量：2
4刘艳,姚凤禄,李嘉颖,吕可.基于语料库的新冠疫情网络谣言分析[J].中国语言战略,2020(2):29-35. 被引量：1
5米源,唐恒亮.基于图卷积网络的谣言鉴别研究[J].计算机工程与应用,2021,57(13):161-167. 被引量：7
6石锴文,刘勘.突发公共卫生事件中微博谣言的识别[J].图书情报工作,2021,65(13):87-95. 被引量：15
7杨少梅,吴皓月,李胜利.在线医疗社区需求词属性分选研究——以丁香园论坛为例[J].情报探索,2022(2):43-52. 被引量：1
8齐小英,丁子仪,杨海平.多源数据融合的南海领域主题词表[J].国家图书馆学刊,2022,31(5):82-94. 被引量：3
9刘露,张萌,王萌.基于模糊决策的国网客服中心诉求服务事件分级预警方法[J].活力,2023(20):105-107.

1驳色.心跳，不止是活着而已[J].计算机应用文摘,2014,0(22):73-73.
2媒体上的“如烟”[J].中国科技财富,2007(2):46-47.
3杨建华,刘宁,姚余梁.基于BP神经网络的装备服务链信任伙伴配置[J].中国软科学,2011(S2):254-259.
4陈晓瑞.基于云计算的公众健康管理平台[J].信息技术与标准化,2014(4):25-27. 被引量：5
5彭薇.网站Web日志数据预处理模型的建立[J].企业科技与发展（下半月）,2010(9):28-31. 被引量：1
6我国到2020年初步形成健康医疗大数据产业体系[J].中国建设信息化,2016,0(13):4-4.
7马红丽.医疗大数据来了如何让“互联网+”更惠民?[J].中国信息界,2016,0(4):34-39. 被引量：1
8J. Larry Durstine,Benjamin Gordon,ZhengzhenWang,Xijuan Luo.Chronic disease and the link to physical activity[J].Journal of Sport and Health Science,2013,2(1):3-11. 被引量：9
9美国发布政府应对重大网络攻击政策指令[J].中国信息安全,2016,0(8):8-8.
10Judith Mwakalonge,Saidi Siuhi,Jamario White.Distracted walking:Examining the extent to pedestrian safety problems[J].Journal of Traffic and Transportation Engineering(English Edition),2015,2(5):327-337. 被引量：3

图书情报工作

2015年第23期

浏览历史

内容加载中请稍等...

基于混合策略的公众健康领域新词识别方法研究被引量：2

参考文献24

二级参考文献124

共引文献222

同被引文献18

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于混合策略的公众健康领域新词识别方法研究 被引量：2

参考文献24

二级参考文献124

共引文献222

同被引文献18

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于混合策略的公众健康领域新词识别方法研究被引量：2