-
题名基于预训练的藏医药实体关系抽取
- 1
-
-
作者
周青
拥措
拉毛东只
尼玛扎西
-
机构
西藏大学信息科学技术学院
西藏自治区藏文信息技术人工智能重点实验室
藏文信息技术教育部工程研究中心
-
出处
《中文信息学报》
CSCD
北大核心
2024年第8期76-83,共8页
-
基金
西藏自治区科技厅项目(XZ202401JD0010)
科技创新2030——“新一代人工智能”重大项目(2022ZD0116100)。
-
文摘
藏医药领域的文本主要以非结构化形式保存,藏医药文本的信息抽取对挖掘藏医药的知识有重要作用。针对现有藏文实体关系抽取模型语义表达能力差、嵌套实体抽取准确率低的问题,该文介绍了一种基于预训练模型的实体关系抽取方法,使用TibetanAI_ALBERT_v2.0预训练语言模型,使得模型更好地识别实体,使用Span方法解决实体嵌套问题。在Dropout的基础上,增加了一个KL散度损失函数项,提升了模型的泛化能力。在TibetanAI_TMIE_v1.0藏医药数据集上进行了实验,实验结果表明,精确率、召回率和F1值分别达到了84.5%、80.1%和82.2%,F1值较基线提升了4.4个百分点,实验结果证明了该文方法的有效性。
-
关键词
藏医药
实体关系抽取
预训练语言模型
-
Keywords
Tibetan medicine
entity relation extraction
pre-trained language model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于语义增强的藏医药命名实体识别研究
- 2
-
-
作者
才让加措
拥措
拉毛东只
张英
周青
-
机构
西藏大学信息科学技术学院
-
出处
《中国数字医学》
2024年第5期53-58,共6页
-
基金
科技创新2030⸺“新一代人工智能”重大项目(2022ZD0116100)
西藏自治区科技厅项目-藏医药古籍文献数字化及其知识挖掘技术研发
西藏自治区自然科学基金重点项目(XZ202201ZR0054G)。
-
文摘
针对通用藏文预训练语言模型在处理藏医数据时无法适应且存在词信息损失的问题,提出了一种融合藏医词汇特征与通用藏文预训练模型字特征的方法,以改善对藏医学专有名词的识别,并增强模型对藏医领域的理解能力。该方法通过构建藏医领域的特征词典,并利用词典来获取训练数据中每个字潜在的匹配词集,接着将词集特征嵌入字符表示中来增强藏医字符的表征能力。经实验表明,仅使用通用藏文预训练模型会降低对藏医实体识别的性能。融合词集特征后,F1值明显提高了17.19%,验证了此方法不仅能补充预训练模型缺乏的词汇信息,还可以有效缓解模型与藏医数据不匹配的问题。
-
关键词
命名实体识别
藏医学
语义增强
预训练语言模型
-
Keywords
Named entity recognition
Tibetan medicine
Semantic enhancement
Pre-trained language model
-
分类号
R197.3
[医药卫生—卫生事业管理]
R319
[医药卫生—基础医学]
-
-
题名藏医三因学本体知识库构建研究
- 3
-
-
作者
拉毛东只
拥措
周青
才让加措
于韬
-
机构
西藏大学信息科学技术学院
-
出处
《中国数字医学》
2023年第7期92-95,共4页
-
基金
国家重点研发计划重点专项(2017YFB1402202)。
-
文摘
藏医三因学是藏医药领域的核心理论,构建藏医三因学本体知识库对藏医药相关领域知识库构建具有重要意义。以《藏医药基本术语标准》及相关的专业教材为知识范畴;使用Protégé5.5.0,Web本体语言(OWL)作为本体的语言描述,借助斯坦福大学医学院开发的七步法来构建藏医三因学领域本体。用HermiT1.4.3.456进行推理完成一致性检验。实现了藏医三因学的知识推理和共享,对后期的藏医药相关领域知识图谱及知识库的研究具有参考价值,并且可为藏医药学习者提供参考。
-
关键词
藏医药
三因学
本体知识库
-
Keywords
Tibetan medicine
Three causes theory
Ontology knowledge base
-
分类号
R319
[医药卫生—基础医学]
-