基于逆序文本对齐的缩写词识别算法研究被引量：3

Abbreviation Recognition Algorithm Based on Reverse Text Alignment

下载PDF

导出

摘要针对生物术语的缩写词识别问题,提出了一种基于逆序文本对齐的搜索算法,它实现简单,不需要大量训练数据。该算法在对Medstract标准语料库测试中,准确率和召回率分别为91%和93%;在对包含128篇全文文本的大测试集SBQTL测试中,准确率和召回率分别为96%和84%。在详细分析实验结果后,提出了将文本预处理以及语法规则等自然语言处理技术融入搜索算法作为未来工作的方向。 The identification of abbreviations in biomedical literatures is important for all text mining tools .An abbreviation recognition algorithm based on reverse text alignment was proposed and it is easy to be implemented and need not training data . The algorithm achieves 91%precision and 93%recall on the gold standard corpus ＆quot;Medstract＆quot;and 96%precision and 84%re-call on the larger test data that includes 128 full text literatures .After analyzing the errors produced by the approach , the further improvement work of the approach was discussed .A recognition tendency was proposed that the natural language treatment tech -nology of text pretreatment and grammatical rules should be combined into text alignment algorithm .

作者彭静景成龙吴亚东童健康王鹏李东野孙红敏

机构地区东北农业大学电气与信息学院

出处《武汉理工大学学报（信息与管理工程版）》 CAS 2014年第5期592-595,604,共5页 Journal of Wuhan University of Technology：Information & Management Engineering

基金黑龙江省教育厅海外学人科研基金资助项目(1253HQ001) 东北农业大学博士科研启动基金资助项目(2012RCB54)

关键词文本挖掘文本对齐缩写词识别生物文献挖掘 text mining text alignment abbreviation recognition biomedical literatures mining

分类号 TP303 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

同被引文献18

1马绍龙,刘海砚.基于文档集的文本挖掘模型研究[J].测绘与空间地理信息,2013,36(5):48-50. 被引量：1
2王浩畅,赵铁军.生物医学文本挖掘技术的研究与进展[J].中文信息学报,2008,22(3):89-98. 被引量：23
3刘建华,张智雄.基于Stanford Parser的实体间关系识别[J].现代图书情报技术,2009(5):1-5. 被引量：8
4杨喜权,孔德冉,施华,孙娜,张野.基于领域本体的Web信息抽取[J].信息技术,2009,33(9):69-72. 被引量：2
5余肖生,孙珊.基于信息抽取的文本知识挖掘模型研究[J].情报科学,2010,28(5):776-778. 被引量：7
6胡致涌,胡迎松.基于领域本体的信息抽取系统的设计与实现[J].价值工程,2010,29(14):158-159. 被引量：2
7姚金国,代志龙.基于文本分析的知识获取系统设计与实现[J].计算机工程,2011,37(2):157-159. 被引量：9
8张振宇,程德福,连明昌,周志坚,王君.氦光泵磁力仪信号的分析及检测[J].仪器仪表学报,2011,32(12):2656-2661. 被引量：10
9胡阿沛,张静,雷孝平,张晓宇.基于文本挖掘的专利技术主题分析研究综述[J].情报杂志,2013,32(12):88-92. 被引量：42
10张谨,宗发保,邹鹏毅,陈恩.基于FPGA的铯光泵磁力仪频率计设计[J].海洋测绘,2015,35(2):80-82. 被引量：12

引证文献3

1胡青,陈永泰,唐静,聂晓芬,赵玥,翟丹丹.基于拉莫尔频率测量的弱磁检测系统[J].仪表技术与传感器,2017(10):67-69.
2孙红敏,姜楠楠,李想.基于文档集的生物信息挖掘模型研究[J].计算机工程与应用,2016,52(24):102-106. 被引量：2
3杨超宇,陈雯君,耿显亚.基于改进SVM的中文专利文本分类比较研究[J].武汉理工大学学报（信息与管理工程版）,2023,45(2):292-298. 被引量：3

二级引证文献5

1张春蓉.计算机技术在生物医学及心电监护中的应用[J].电子技术与软件工程,2017(5):168-168. 被引量：1
2许卫.计算机在生物医学及远程心电监护中的应用[J].自动化与仪器仪表,2017(7):174-175. 被引量：2
3罗丽锦,高屹,陈颂斌,樊淼.基于改进SimBERT的藏医药专利文本分类模型研究[J].西北民族大学学报（自然科学版）,2023,44(4):53-61.
4姜钰棋,强子珊,卜凡亮.面向社交平台应急关联信息的文本分类综述[J].网络安全与数据治理,2024,43(5):1-10.
5陈帅,周楚雲,郑成勇,刘铭蒽,张家荣,谭艳仪.基于太赫兹时域光谱数据的柴胡鉴别多分类器比较[J].计算机科学与应用,2023,13(8):1588-1595.

1杨海燕.文本整体把握的方法谈[J].语文教学与研究（综合天地）,2011(6):25-25.
2王加楠,鲁强.基于模式的远监督关系抽取算法[J].中文信息学报,2017,31(4):122-131. 被引量：3
3《中国药物化学杂志》投稿须知[J].中国药物化学杂志,2018,28(1):87-88.
4陈果,肖璐,孙建军.面向网络社区的分面式导航体系构建——以丁香园心血管论坛为例[J].情报理论与实践,2017,40(10):112-116. 被引量：15
5关键词标引的注意事项[J].中华护理杂志,2018,53(2):178-178.
6刘冬瑶,刘世杰,陈宇星,张文波,周振.新闻文本自动分类技术概述[J].电脑知识与技术（过刊）,2017,23(12X):87-91. 被引量：7
7李泽邦.现浇剪力墙结构体系模板工程逆序施工技术分析[J].住宅与房地产,2017(9X):160-160.
8宫学源.美国科学家利用人工智能技术从文献中获取材料合成方法[J].科技中国,2018,0(2):108-108.
9王新梅.自然语言处理技术的探讨[J].南方农机,2017,48(24):135-135. 被引量：1
10阿力木江.艾沙.基于Rapid Miner的维吾尔文文本预处理及分类实验设计[J].中国教育技术装备,2017,0(12):24-27. 被引量：1

武汉理工大学学报（信息与管理工程版）

2014年第5期

浏览历史

内容加载中请稍等...

基于逆序文本对齐的缩写词识别算法研究被引量：3

同被引文献18

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于逆序文本对齐的缩写词识别算法研究 被引量：3

同被引文献18

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于逆序文本对齐的缩写词识别算法研究被引量：3