期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
中文医学细粒度知识表示体系与标注语料库构建 被引量:1
1
作者 杨洋 关毅 +3 位作者 李雪 姜京池 史怀璋 柳曦光 《中文信息学报》 CSCD 北大核心 2023年第6期52-66,共15页
面向医学知识的细粒度、可共享性与高精准性的需求,该文提出了中文医学文本知识表示体系,融合了电子病历、医学书籍与专业医学网站文本三个数据来源的医疗知识。该体系包括9类医学实体、60类实体关系。基于此,开发了可操作性高的标注工... 面向医学知识的细粒度、可共享性与高精准性的需求,该文提出了中文医学文本知识表示体系,融合了电子病历、医学书籍与专业医学网站文本三个数据来源的医疗知识。该体系包括9类医学实体、60类实体关系。基于此,开发了可操作性高的标注工具,并为每种来源提供了规范标注的医学文本数据,构建了涵盖范围广、一致性高的细粒度标注语料库。4名临床医生对《诊断学》书籍标注了6526个医学实体,4229条关系,标注一致性可达0.974。三个数据源融合后实体数量344475个,关系数量3196787条。该文综述了数据源融合的映射过程、标注细则,分析了各数据源的文本特点并总结标注模式,通过应用场景与文本特点表明医学书籍标注必要性。该文为中文医学语料库构建提供标注规范,并为中文医学实体识别与关系抽取提供语料支持。 展开更多
关键词 细粒度标注规范 多源医疗文本 语义标注 语料库构建
下载PDF
基于协同集成学习的医疗实体标准化方法
2
作者 姜京池 侯俊屹 +2 位作者 李雪 关毅 关昌赫 《中文信息学报》 CSCD 北大核心 2023年第3期135-142,共8页
医疗实体标准化旨在将电子病历、患者主诉等文本数据中非标准化术语映射为统一且规范的医疗实体。针对医学文本普遍存在的标注语料规模小、规范化程度低等领域特点,该文提出了一种基于多模型协同的集成学习框架,用以解决医疗实体标准化... 医疗实体标准化旨在将电子病历、患者主诉等文本数据中非标准化术语映射为统一且规范的医疗实体。针对医学文本普遍存在的标注语料规模小、规范化程度低等领域特点,该文提出了一种基于多模型协同的集成学习框架,用以解决医疗实体标准化问题。该框架通过建立多模型之间的“合作与竞争”模式,能够兼具字符级、语义级等不同标准化方法的优势。具体而言,运用知识蒸馏技术进行协同学习,从各模型中汲取有效特征;利用竞争意识综合各模型的实体标准化结果,保证候选集的多样性。在CHIP-CDN 2021医疗实体标准化评测任务中,该文提出的方法在盲测数据集上达到了73.985%的F_(1)值,在包括百度BDKG、蚂蚁金融Antins、思必驰AIspeech在内的255支队伍中,取得了第二名的成绩。后续实验结果进一步表明,该方法可有效对医疗文本中的术语进行标准化处理。 展开更多
关键词 医疗实体标准化 知识蒸馏 集成学习 CHIP-CDN 2021
下载PDF
基于中文电子病历的心血管疾病风险因素标注体系及语料库构建 被引量:14
3
作者 苏嘉 何彬 +5 位作者 吴昊 杨锦锋 关毅 姜京池 王焕政 于秋滨 《自动化学报》 EI CSCD 北大核心 2019年第2期420-426,共7页
本文讨论了从中文电子病历中标注心血管疾病风险因素及其相关信息的问题,提出了适应中文电子病历内容特点的心血管疾病风险因素标注体系,构建了中文健康信息处理领域首份关于心血管疾病风险因素的标注语料库.
关键词 心血管疾病 中文电子病历 风险因素 语料标注 自然语言处理
下载PDF
基于主动学习与众包的农业知识标注体系及语料库构建
4
作者 姜京池 关昌赫 +2 位作者 刘劼 关毅 柯善风 《中文信息学报》 CSCD 北大核心 2023年第1期33-45,共13页
农业书籍与网络知识库作为领域专家撰写的蕴含了大量农学常识与农事经验的数据源,具有高可信、知识丰富、结构规范等特点。为了挖掘此类文本源中的农学知识,该文讨论了农业命名实体和实体关系的相关问题,首次提出了主动学习与众包相结... 农业书籍与网络知识库作为领域专家撰写的蕴含了大量农学常识与农事经验的数据源,具有高可信、知识丰富、结构规范等特点。为了挖掘此类文本源中的农学知识,该文讨论了农业命名实体和实体关系的相关问题,首次提出了主动学习与众包相结合的农业知识标注体系。在农学专家的指导和参与下,构建了包含9类实体以及15大类、37小类语义关系的多源农业知识标注语料库,其中农业书籍源共3.7万个实体、3.5万个实体关系,百度百科源含1.1万个实体以及1.5万个实体关系。在实验部分,我们利用标注一致性评价标准对比了两类数据源的标注质量,并从实体识别、关系抽取两个方面证明了主动学习能够节约标注成本、提升标注效率和模型训练效果,为后续研究打下了坚实基础。 展开更多
关键词 语料构建 农业知识图谱 标注体系
下载PDF
新浪微博的大规模信息传播规律研究 被引量:14
5
作者 易成岐 鲍媛媛 +1 位作者 薛一波 姜京池 《计算机科学与探索》 CSCD 2013年第6期551-561,共11页
以Web2.0为代表的社会媒体正在深刻影响和改变信息的传播方式、人们的社交方式、大众的生活理念,社会网络也成为学术界和工业界的研究热点。以中国著名社交网站"新浪微博"的大规模数据为依托,研究了社会网络的信息传播问题,... 以Web2.0为代表的社会媒体正在深刻影响和改变信息的传播方式、人们的社交方式、大众的生活理念,社会网络也成为学术界和工业界的研究热点。以中国著名社交网站"新浪微博"的大规模数据为依托,研究了社会网络的信息传播问题,揭示了社会网络的信息传播机制,提出了几种信息传播模型,尝试剖析社会网络的信息传播规律。这些研究成果既可以应用于信息传播预测、传播态势感知、个性化信息推荐、广告精准投放等多个领域,也可以用于发现不良用户和信息,保障网络和信息安全。 展开更多
关键词 社会网络 信息传播 传播规律
下载PDF
基于社会网络特性的双混沌互反馈加密算法研究 被引量:12
6
作者 易成岐 姜京池 薛一波 《计算机工程与科学》 CSCD 北大核心 2016年第2期277-283,共7页
社会网络的数据获取已经成为社会网络分析的重要基石,虽然大多数社会媒体提供给开发者官方接口以供数据获取,但是在调用频次、权限、内容等方面都有严格的限制,难以获取全面的数据。因此,基于用户模拟登录的数据获取方法显得尤为重要,... 社会网络的数据获取已经成为社会网络分析的重要基石,虽然大多数社会媒体提供给开发者官方接口以供数据获取,但是在调用频次、权限、内容等方面都有严格的限制,难以获取全面的数据。因此,基于用户模拟登录的数据获取方法显得尤为重要,然而目前大多数社会媒体的登录过程存在较大的安全隐患,其登录密码均采用明文传输,严重威胁到用户的隐私安全。详细分析了Twitter登录过程中客户端与服务器间的交互过程,并且在流量层面解析POST请求时,发现Twitter的登录密码采用明文传输。为此,提出一种基于社会网络特性的双混沌互反馈加密算法。该算法利用登录用户的ID、创建时间、关注数作为加密函数的初始值与参数,并通过Logistic映射和Tent映射两个混沌系统交互式运算,得出密钥序列。由于输入参数的特殊性,使得密文具有不可预测性。实验表明,该算法取得了较好的加密和解密效果,同时加密与解密均处于毫秒级,可以做到用户的无感操作。此外,该算法拥有初始条件极度敏感、密钥空间大、加密强度高等特点。该算法能有效地防止攻击者使用相图、穷举、统计等方法进行密码破解,具有广阔的应用前景。 展开更多
关键词 社会网络 模拟登录 混沌加密
下载PDF
基于知识增强的多视野表征学习辅助诊断方法
7
作者 王好天 李鑫 +3 位作者 关毅 杨洋 李雪 姜京池 《中文信息学报》 CSCD 北大核心 2023年第12期167-176,共10页
针对辅助诊断过程中病人所患疾病不单一,多种疾病之间存在内在关联,及长病历文本特征提取较为困难等问题,该文提出一种基于知识增强的多视野表征学习方法。该方法首先使用Bi-LSTM和注意力网络、医疗知识图融合、预训练模型分别从字符视... 针对辅助诊断过程中病人所患疾病不单一,多种疾病之间存在内在关联,及长病历文本特征提取较为困难等问题,该文提出一种基于知识增强的多视野表征学习方法。该方法首先使用Bi-LSTM和注意力网络、医疗知识图融合、预训练模型分别从字符视野、实体视野、文档视野提取疾病表征,并通过融合多视野信息从长病历文本中准确抽取疾病诊断相关特征。而后建模疾病间内在关联关系,基于图神经网络方法进行知识融合以增强疾病表征,并实现疾病预测。该模型利用多视野表征学习与知识增强方法,提升了疾病预测的性能,通过结果可视化为模型提供了可解释性。在华为云杯评测数据上的实验表明,该方法优于其他基线方法,消融实验验证了该方法各模块的有效性。 展开更多
关键词 知识增强 多视野表征学习 辅助诊断 多标签分类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部