-
题名基于词向量计算的中医症状术语相似度研究
被引量:7
- 1
-
-
作者
朱玲
李敬华
胡钦谙
杨峰
-
机构
中国中医科学院中医药信息研究所
中国社科院语言研究所
中国中医科学院针灸研究所
-
出处
《中国数字医学》
2019年第10期28-31,共4页
-
基金
十三五国家重点研发计划资助(编号:2018YFC1705401)
国家自然科学基金面上项目(编号:81873390)
中国中医科学院基本科研业务费自主选题项目-基于深度学习的临床智能知识服务与应用研究(编号:zz110327)~~
-
文摘
研究针对中医临床症状词描述的差异与分歧,以Word2vec和FastText为工具,基于现有中医药语料库,进行中医症状相似度研究,发现了一些较为晦涩、生僻的症状同义词及近义词,扩充了中医症状词的词表,并通过对Pearson、Spearman系数,以及召回率的比较,认为FastText在这一任务上有更好的表现。但是由于中文分词,特别是中医古籍分词的先天劣势,以及现有语料不够丰富,导致召回率和准确率还有很大的提升空间,未来值得进一步研究。
-
关键词
中医临床决策支持系统
Word2vec
FastText
词向量
症状相似度
-
Keywords
TCM clinical decision support system
Word2vec
Fast Text
word vector
symptom similarity
-
分类号
R319
[医药卫生—基础医学]
-
-
题名面向语料库机助辞书编纂系统的设计与实现
被引量:2
- 2
-
-
作者
张永伟
顾曰国
胡钦谙
曹新龙
-
机构
中国社会科学院语言研究所/辞书编纂研究中心
中国多语言多模态语料库暨大数据研究中心
-
出处
《辞书研究》
2021年第4期32-44,I0002,共14页
-
基金
国家语委“十三五”科研规划2020年度一般(委托)项目“辅助语文辞书编纂的人工智能关键技术研究”(项目编号WT135-69)
国家社科基金项目“基于《现代汉语词典》的词汇计量研究”(项目编号20BYY170)
中国社会科学院辞书编纂研究中心项目“面向语料库机助辞书编纂系统:V1.0版本升级V2.0”阶段性成果。
-
文摘
“面向语料库机助辞书编纂系统”由中国社会科学院语言所和中国多语言多模态语料库暨大数据研究中心研发,是一个可以充分地利用各种语料库、辞书库和其他相关资源库辅助汉语辞书编纂的平台。文章介绍了该系统的研发背景、目标、系统设计与实现。此外,对系统的技术选型也进行了简单介绍,为辞书编纂或相关系统的研制提供借鉴。
-
关键词
辞书编纂系统
语料库
设计与实现
-
Keywords
dictionary compilation system
corpus
design and implementation
-
分类号
H31
[语言文字—英语]
-
-
题名面向语文辞书编纂的神经网络语料库检索研究
- 3
-
-
作者
胡钦谙
-
机构
中国社会科学院语言研究所/辞书编纂研究中心
-
出处
《辞书研究》
2023年第1期36-45,I0002,共11页
-
基金
国家语委“十三五”科研规划2020年度一般(委托)项目“辅助语文辞书编纂的人工智能关键技术研究”(项目编号WT135-69)的研究成果之一。
-
文摘
语料库检索已成为语文辞书编纂过程中不可或缺的一个步骤。现有的语料库检索系统通常先返回句子列表,然后由人工进行筛选。然而,随着语料库规模不断扩大,海量检索结果与用户有限的语料消化能力之间的矛盾已成为辞书编纂过程中的痛点之一。文章注意到,辞书编纂人员在检索语料库时,实际上更为关注的是检索词出现的语境(或称上下文)。语境具有相对稳定的语言学规律,语料库中往往存在着大量符合同一语言规律的语境。这种同质的语境对辞书编纂提供的价值相对有限,单纯依靠增加语料数量对辞书编纂的贡献已呈现出边际效益递减的现象。因此,文章尝试以海量检索结果中的同质语境为突破口,通过人工智能中的注意力机制、上下文相关词向量以及预训练语言模型等技术,以可视化及可交互的形式为辞书编纂人员展现检索结果分布的概貌,批量处理同质的语境,以提升辞书编纂的效率。
-
关键词
语料库检索
语境
语义
上下文相关词向量
注意力机制
-
Keywords
corpus retrieval
contexts
semantics
contextual word embeddings
attentions
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
TP391.1
[自动化与计算机技术—计算机应用技术]
H16
[语言文字—汉语]
-