期刊文献+

糖尿病健康管理对话数据集构建

Dialogue Dataset Construction for Diabetes Health Management
下载PDF
导出
摘要 我国是全球糖尿病患病人数最多的国家,患病人数仍在持续快速增长,糖尿病已成为我国重大公共卫生问题。该文关注的糖尿病健康管理对话系统服务于糖尿病患者,为患者解答日常生活中糖尿病相关问题,而目前缺乏用于训练对话系统模型的糖尿病相关数据。基于此,该文构建了首个标注体系完整的糖尿病健康管理中文对话数据集“Diachat”,以支持健康管理对话系统研究。Diachat收集了来自线上聊天平台糖尿病患者与医生的693段对话(Dialogue),共4686句语料(Sentence),完成了6594条对话动作(Dialogue act)标注。Diachat数据集采用基于对话动作的表示方式进行意图表示并定义了15个对话动作标签(Act label)。同时,Diachat定义了6个领域(Domain)涵盖语料涉及的领域,分别为:问题(Problem)、饮食(Diet)、行为(Behavior)、运动(Sport)、治疗(Treatment)、基本信息(Profile)。为了支持构建完整的对话系统,Diachat为用户端和系统端分别构造了对话状态,并为每段对话构造了对话目标。基于Diachat数据集,该课题进行了管道(Pipeline)体系的对话系统四个模块的基本实现。实验结果显示,Diachat数据集能够支持糖尿病健康管理对话系统构建,各模块仍有较大提升空间。 As the country with the largest number of diabetes cases in the world,diabetes has become a major public health problem in China.Onto develope the diabetes health management dialogue system,there is currently a lack of diabetes-related data for training the dialogue model.In this paper,the first Chinese diabetics-doctors dialogue dataset"Diachat"with complete annotation schemas is presented.Diachat consists of 693 conversations between diabetics and doctors from an online chat platform,with a total of 4686 sentences annotated with 6594 annotations The Diachat dataset employs a dialogue act-based representation for intent representation and defines 15 act labels.Meanwhile,Diachat defines 6 domains,including Problem,Diet,Behavior,Sport,Treatment,and user Profile,covering the major fields of the dataset.In order to support the construction of a complete dialogue system,Diachat generates dialogue states for the user side and system side respectively,together with conversation goal for each dialogue.Based on the Diachat dataset,this paper performs a preliminary implementation of the four modules under the pipeline framework.The experimental results showed that the Diachat dataset can support the construction of the diabetes health management dialogue system.
作者 汪正康 刘阳 杨锦锋 梁先桂 郭熙铜 WANG Zhengkang;LIU Yang;YANG Jinfeng;LIANG Xiangui;GUO Xitong(School of Computer Science and Technology,Harbin University of Science and Technology,Harbin,Heilongjiang 150080,China;School of Management,Harbin Institute of Technology,Harbin,Heilongjiang 150001,China)
出处 《中文信息学报》 CSCD 北大核心 2023年第9期23-37,共15页 Journal of Chinese Information Processing
基金 国家自然科学基金(72125001,72071054,72293584,72121001) 中国博士后科学基金(2016M601435)。
关键词 对话系统 数据集构建 语料标注 糖尿病健康管理 dialogue system dataset construction corpus annotation diabetes health management
  • 相关文献

参考文献1

共引文献9

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部