期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
中文医学知识大模型问答语料数据集构建研究
1
作者 吕婷钰 李晓瑛 +8 位作者 张颖 刘宇炀 杜晋华 李心怡 罗妍 唐小利 任慧玲 刘辉 尹浩 《医学信息学杂志》 CAS 2024年第5期20-25,共6页
目的/意义构建中文医学知识问答语料数据集,为医学垂域大模型提供标准化的评测基准,进而提升大模型处理中文医学问答任务的准确率和效率。方法/过程构建中文医学论文知识问答数据集、医学名词解释问答数据集和以中国执业医师资格考试真... 目的/意义构建中文医学知识问答语料数据集,为医学垂域大模型提供标准化的评测基准,进而提升大模型处理中文医学问答任务的准确率和效率。方法/过程构建中文医学论文知识问答数据集、医学名词解释问答数据集和以中国执业医师资格考试真题为基础的问答数据集,整理相关开源数据集。结果/结论自主构建的中文医学知识问答语料数据集丰富了中文医学问答语料来源,能够作为一项标准化的评测基准,推动医学领域大模型实现客观全面的定量评估,今后将利用电子病历、在线健康社区等数据,为健康中国战略的实施提供更坚实的人工智能支持。 展开更多
关键词 大语言模型 语料数据 模型评测 医学
下载PDF
基于BERT-CRF模型的火灾事故案例实体识别研究
2
作者 关斯琪 董婷婷 +1 位作者 万子敬 何元生 《消防科学与技术》 CAS 北大核心 2023年第11期1529-1534,共6页
为实现火灾事故调查档案的关键信息抽取,提出一种基于BERT-CRF模型的文本命名实体识别方法。通过对161篇事故报告进行实体标注及数据增强,构建了火灾事故文本语料集;基于BERT预训练模型,对语料集中的句子序列进行双向特征提取,深度挖掘... 为实现火灾事故调查档案的关键信息抽取,提出一种基于BERT-CRF模型的文本命名实体识别方法。通过对161篇事故报告进行实体标注及数据增强,构建了火灾事故文本语料集;基于BERT预训练模型,对语料集中的句子序列进行双向特征提取,深度挖掘事故文本上下文的语义信息;结合CRF模型,充分考虑标签转移规则,对关键实体进行预测。试验表明:本文方法在火灾事故案例实体识别任务中的精确率、召回率以及F1值分别为76.36%、86.19%、80.97%,优于BERT和BERT-BiLSTM-CRF模型,且训练时长较BERT-BiLSTMCRF模型缩短61 s。本文方法可为火灾调查知识库、案卷编制等下游系统提供准确的实体构建服务。 展开更多
关键词 命名实体识别 BERT-CRF 火灾事故 消防信息 火灾事故调查档案 语料集 火灾事故文本
下载PDF
以汉语为中心语的多语汉外平行语料库集群的研制与应用 被引量:8
3
作者 王克非 《外语教学》 CSSCI 北大核心 2022年第6期1-7,共7页
本文论述以汉语为中心语的多语汉外平行语料库集群的设计、研制及应用问题。设计上,不同于以往单一语对的平行语料库,打破了国际上大多以英语为中心语的平行语料库局面。研制上,该多语汉外平行语料库集群,既可分别为10个语种与汉语的平... 本文论述以汉语为中心语的多语汉外平行语料库集群的设计、研制及应用问题。设计上,不同于以往单一语对的平行语料库,打破了国际上大多以英语为中心语的平行语料库局面。研制上,该多语汉外平行语料库集群,既可分别为10个语种与汉语的平行语料库,又可集合成一个整体,即运行在一个多语兼容和统一的共享分析检索平台上。应用上,由于多语平行语料库的特点,该语料库集群可以在更广的视角、更多的层面,开展一系列新型的语言、翻译等方面的研究。 展开更多
关键词 汉外平行语料 语料 研制 应用
原文传递
The Design and Construction of Jiangxi Red Tourism Resource E-C/C-E Bilingual Parallel Corpus
4
作者 Zhijuan Zhu Liyong Zhu 《International Journal of Technology Management》 2015年第12期63-66,共4页
On the basis of description of the necessity in construction of the Jiangxi red tourism resource E-C/C-E bilingual parallel corpus, this paper discusses the design and construction of the corpus. In its design, it des... On the basis of description of the necessity in construction of the Jiangxi red tourism resource E-C/C-E bilingual parallel corpus, this paper discusses the design and construction of the corpus. In its design, it describes the general design and the framework of the corpus, then it describes its construction including data collection, the standard for the sorted data, data selection, data digitalization, data tagging and data aligning. With the construction, it will not only realize purposes and functions of the corpus, but also provide others with ways or means to use the corpus and to establish such kind of corpus. 展开更多
关键词 CORPUS CONSTRUCTION Jiangxi red tourism resource bilingual parallel corpus
下载PDF
An Analysis of Conceptions of Learning English Among College Students in China
5
作者 LUAN Lin 《Sino-US English Teaching》 2017年第4期228-232,共5页
In the field of second language acquisition, an increasing amount of research has been conducted on learner's beliefs. Few empirical studies, however, have been focused on students' conceptions of learning English ... In the field of second language acquisition, an increasing amount of research has been conducted on learner's beliefs. Few empirical studies, however, have been focused on students' conceptions of learning English (COLE). This study aims to assess conceptions of learning particularly in the domain of English. Data were collected through the COLE questionnaire among 284 college students in China. Seven factors of COLE are identified, such as "memorizing", "testing", "drill and practice", "increasing knowledge", "understanding", "application", and "seeing in a new way". These findings also provide some pedagogical implications for English language instructors and researchers. 展开更多
关键词 SLA conceptions of learning conceptions of language learning college students
下载PDF
项目申请书摘要文本的语步识别语料构建 被引量:1
6
作者 赵旸 张智雄 李婕 《图书情报工作》 CSSCI 北大核心 2022年第21期97-106,共10页
[目的/意义]自动识别项目申请书摘要中的科学要素,对于揭示科技项目中的科学知识具有重要的研究意义。这些科学要素的识别依赖于结构化项目摘要文本,然而目前结构化项目摘要语料资源匮乏,严重制约着相关研究的进一步发展。拟构建项目申... [目的/意义]自动识别项目申请书摘要中的科学要素,对于揭示科技项目中的科学知识具有重要的研究意义。这些科学要素的识别依赖于结构化项目摘要文本,然而目前结构化项目摘要语料资源匮乏,严重制约着相关研究的进一步发展。拟构建项目申请书摘要文本的语步语料集,为相关研究提供数据支撑。[方法/过程]首先将项目摘要内容归纳为背景及问题、目标及任务、方法内容、价值意义4种语步类型,总结每个语步结构中出现的标志性特征并制定语步标注规范;其次相继利用基于规则和基于深度学习的方法辅助人工进行项目摘要的语步结构标注,并对每轮标注后的语料进行质量评估。[结果/结论]两种方法共计标注近25000条语句,语料标注的一致性系数达到0.9839,表明该语料集基本能够区分项目摘要内的不同语步结构,初步达到了语料库建设的基本要求。 展开更多
关键词 语步识别 项目申请摘要文本 语步语料集构建 迭代标注
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部