期刊文献+
共找到5,185篇文章
< 1 2 250 >
每页显示 20 50 100
基于特征图网络和多种生物信息预测关键蛋白质的深度学习框架 被引量:1
1
作者 刘桂霞 曹心恬 赵贺 《吉林大学学报(理学版)》 CAS 北大核心 2024年第3期593-605,共13页
针对生物实验识别关键蛋白质费时费力,使用计算方法预测关键蛋白质无法有效整合生物信息的问题,提出一个深度学习框架.首先利用网络拓扑结构、基因表达数据和GO(gene ontology)注释数据构建加权蛋白质相互作用网络;然后分别使用特征图... 针对生物实验识别关键蛋白质费时费力,使用计算方法预测关键蛋白质无法有效整合生物信息的问题,提出一个深度学习框架.首先利用网络拓扑结构、基因表达数据和GO(gene ontology)注释数据构建加权蛋白质相互作用网络;然后分别使用特征图网络和双向长短期记忆细胞从亚细胞定位数据、蛋白质复合物数据和基因表达数据中提取特征向量;最后将这些特征向量输入到任务学习层预测关键蛋白质.实验结果表明,相比于现有的计算方法,该方法预测性能更好. 展开更多
关键词 关键蛋白质 特征图网络 亚细胞定位 基因表达 GO注释 蛋白质复合物
下载PDF
ASE-ERNIE:一种基于ERNIE的中文指令动作序列生成方法
2
作者 赵逢达 郭凡 +2 位作者 李贤善 门旭静 王彬 《计算机集成制造系统》 EI CSCD 北大核心 2024年第5期1745-1753,共9页
中文结构灵活多样,同样的语义有多种表达方式,在中文指令过长或存在多组动作的情况下,家庭服务机器人很难正确理解并做出响应。此外,家庭环境的中文指令解析研究在数据方面仍然稀缺。现有的方法不能准确提取出指令中包含的全部动作序列... 中文结构灵活多样,同样的语义有多种表达方式,在中文指令过长或存在多组动作的情况下,家庭服务机器人很难正确理解并做出响应。此外,家庭环境的中文指令解析研究在数据方面仍然稀缺。现有的方法不能准确提取出指令中包含的全部动作序列。由此提出一种基于ERNIE方法的动作序列提取(ASE-ERNIE)模型来提取中文指令中的可执行动作序列,该模型通过动作类型和参数之间的关系提取指令信息,将动作序列的提取工作转化为序列标注任务。在指令中存在多组动作并且存在多个参数的情况下,依然能够提取出全部动作序列。通过实验验证了所提方法的有效性,动作序列提取任务的F 1值达到了80.37%。 展开更多
关键词 指令解析 动作序列 ERNIE方法 序列标注
下载PDF
基于自然标注的跨平台虚拟账号关联方法研究
3
作者 季铎 敬少杰 +1 位作者 彭如香 孔华锋 《计算机应用与软件》 北大核心 2024年第9期190-194,共5页
随着大数据时代的到来,跨平台虚拟账号的关联成为网络监管领域亟待解决的问题。该文以微博、微信等用户文本数据为研究对象,通过对数据的抽样和人工标注,开展开放式社交平台中跨平台账号自然标注行为的量化分析,并由此提出基于用户自然... 随着大数据时代的到来,跨平台虚拟账号的关联成为网络监管领域亟待解决的问题。该文以微博、微信等用户文本数据为研究对象,通过对数据的抽样和人工标注,开展开放式社交平台中跨平台账号自然标注行为的量化分析,并由此提出基于用户自然标注的跨平台虚拟账号的关联方法。该方法针对自然标注特点,构建基于上下字词特征的虚拟账号识别的模型,并利用二分类的深度学习模型进行昵称和用户的同一认证,最终实现对跨平台虚拟账号的识别,识别准确率达到85%以上。 展开更多
关键词 虚拟账号 自然标注 账号关联
下载PDF
BIM模型三维出图关键技术研究与应用
4
作者 吕彬 傅志浩 《水电能源科学》 北大核心 2024年第6期78-82,共5页
为解决BIM模型三维正向设计出图问题,基于MicroStation三维设计平台,通过二次开发方式系统研究成图及标注关键技术。通过提取剖切位置处模型切面、剖视范围内三维模型,实现剖面图底图绘制;通过将材料属性信息和剖面图关联,并配合预定义... 为解决BIM模型三维正向设计出图问题,基于MicroStation三维设计平台,通过二次开发方式系统研究成图及标注关键技术。通过提取剖切位置处模型切面、剖视范围内三维模型,实现剖面图底图绘制;通过将材料属性信息和剖面图关联,并配合预定义填充符号库,实现剖面图自动填充;通过将自定义数据结构在模型和图纸之间关联,实现图纸与模型联动更新;通过修改剖视图中前视范围内不可见边显示样式,实现二维剖视图中不可见边虚线显示;研发二、三维图面高程、坡比、桩号等快速标注、图框快速调用工具,实现快速成图。实例应用结果表明,该方法可明显提升基于BIM模型的二维图纸生成效率,适用直线型、折线型等不同剖面位置线图纸批量剖切,满足结构模型、地形模型、地质模型等同时剖切需求、不同出图比例图纸剖切要求、模型修改后图纸批量更新需求,研究方法和软件开发思路可为同类项目提供参考。 展开更多
关键词 MicroStation平台 二次开发 二维出图 图纸标注
下载PDF
花椒根腐病拮抗菌株W-1基因组测序及抑菌机理研究
5
作者 田凤鸣 陈强 +2 位作者 何九军 张晓娜 王国斌 《南方农业学报》 CAS CSCD 北大核心 2024年第6期1639-1652,共14页
【目的】分析贝莱斯芽孢杆菌(Bacillus velezensis)W-1的全基因组序列信息,探究其对花椒根腐病的生防机理,为该菌的高效开发和应用提供生物信息学基础,并为该菌开发为生物农药提供理论支持。【方法】采用三代PacBio平台测序技术对菌株W-... 【目的】分析贝莱斯芽孢杆菌(Bacillus velezensis)W-1的全基因组序列信息,探究其对花椒根腐病的生防机理,为该菌的高效开发和应用提供生物信息学基础,并为该菌开发为生物农药提供理论支持。【方法】采用三代PacBio平台测序技术对菌株W-1进行全基因组测序,并对测序结果进行基因功能注释和比较基因组学分析;采用菌丝生长速率法测定菌株W-1发酵液乙酸乙酯提取物对花椒根腐病病原菌菌丝形态、病原菌孢子悬浮液电导率和核酸含量的影响。【结果】菌株W-1基因组全长4166284 bp,GC含量为46.32%,其中编码蛋白基因4037个;GO、eggNOG和KEGG数据库中注释到的基因数分别为2935、3087和2185个;预测到菌株W-1能产生14种次级代谢产物合成基因簇,包括sur‐factin、butirosin A/butirosin B、planttazolicin、macrolactin H、bacilaene、fengycin、diffcidin、bacillibactin和bacilysin等9种已知基因簇及5种未知基因簇;菌株W-1特有的基因家族53个,特有基因414个,与模式菌株B.velezensis FZB42的亲缘关系较近。菌株W-1提取物对花椒根腐病病原菌菌丝生长具有明显的抑制作用,最小抑菌浓度(MIC)为4.50 mg/mL、最小杀菌浓度(MFC)为9.00 mg/mL。菌株W-1提取物可造成病原菌菌丝内含物外渗,在提取物浓度9.00 mg/mL处理10 h后,病原菌孢子悬浮液相对电导率比空白对照高57.63%、核酸含量比空白对照高64.91%。【结论】贝莱斯芽孢杆菌W-1能产生多种抗菌物质,其发酵液乙酸乙酯提取物可破坏花椒根腐病病原菌菌丝细胞膜的完整性,具有开发成生物农药的潜力,在花椒根腐病的绿色防控中具有良好的应用前景。 展开更多
关键词 花椒根腐病 贝莱斯芽孢杆菌 基因组测序 基因注释 抑菌机理
下载PDF
基于Transformer的司法文书命名实体识别方法
6
作者 王颖洁 张程烨 +1 位作者 白凤波 汪祖民 《计算机科学》 CSCD 北大核心 2024年第S01期113-121,共9页
命名实体识别是自然语言处理领域的关键任务之一,是实现下游任务的基础。目前针对司法领域的相关研究相对较少,司法系统的信息化和智能化转型仍有许多问题亟需解决。相比其他领域的文本,司法文书存在专业性强、语料资源少等局限,导致现... 命名实体识别是自然语言处理领域的关键任务之一,是实现下游任务的基础。目前针对司法领域的相关研究相对较少,司法系统的信息化和智能化转型仍有许多问题亟需解决。相比其他领域的文本,司法文书存在专业性强、语料资源少等局限,导致现有的司法文书识别结果较低。因此,从以下3方面开展研究:首先,提出了一种多标签层级迭代的文本标注方式,可以对原始司法文书文本进行自动化标注,同时有效地提升司法文书命名实体识别任务的实体识别效果;其次,提出了一种交融式的Transformer神经网络模型,对汉字固有属性的深层特征进行了充分利用,用于对司法文书进行命名实体识别;最后,对所提出的标注方法和模型与其他神经网络模型进行了对比实验。所提出的文本标注方式可以较为准确地实现司法文书的标注任务;同时,所提出的模型在通用数据集中相对于对照模型有较大的提高,并在司法领域数据集中取得了良好的效果。 展开更多
关键词 自然语言处理 数据标注 Transformer模型 深度学习 司法信息化
下载PDF
宋人注杜的三种整理本考察
7
作者 胡可先 《杜甫研究学刊》 2024年第3期1-11,20,共12页
宋代杜诗学极盛,有“千家注杜”之誉。宋人对于杜诗的注释,是杜诗学史上的开创和奠基之作。上海古籍出版社出版的三种宋人杜诗注释的整理本,分别代表了古籍整理的三种类型:《杜诗赵次公先后解辑校》,是在原本散佚较多的情况下辑佚而成... 宋代杜诗学极盛,有“千家注杜”之誉。宋人对于杜诗的注释,是杜诗学史上的开创和奠基之作。上海古籍出版社出版的三种宋人杜诗注释的整理本,分别代表了古籍整理的三种类型:《杜诗赵次公先后解辑校》,是在原本散佚较多的情况下辑佚而成的整理著作;《新定杜工部草堂诗笺斠证》,是在原本基础上进行了正本清源、斠证发微、订讹掘隐工作,而与原本相较,成为了一种融合较多整理者见解的新著;《新刊校定集注杜诗》,则是恪守古籍整理规范,重在校点勘误、旨在恢复原貌的精审著作。 展开更多
关键词 宋人注杜 《杜诗赵次公先后解辑校》 《新定杜工部草堂诗笺斠证》 《新刊校定集注杜诗》
下载PDF
人工智能囊胚形态评估数据集构建与质控专家共识
8
作者 王浩 张孝东 +25 位作者 孙莹璞 孙海翔 邓成艳 黄学锋 刘平 周灿权 冯云 郝桂敏 卢文红 沈浣 师娟子 张松英 滕晓明 王晓红 王秀霞 伍琼芳 全松 曾勇 钟影 邵小光 柯林楠 毛歆 韩倩倩 黄国宁 中华医学会生殖医学分会第五届委员会 中国食品药品检定研究院 《生殖医学杂志》 CAS 2024年第7期843-851,共9页
囊胚形态人工智能(AI)评估是AI医疗器械发展的新兴方向,也是AI在辅助生殖领域的重要应用。AI在新领域应用的起步阶段,数据集的构建与质控对产品质量有重要影响。目前,囊胚形态学AI评估在数据采集、标注、质控等方面尚未形成统一的规范... 囊胚形态人工智能(AI)评估是AI医疗器械发展的新兴方向,也是AI在辅助生殖领域的重要应用。AI在新领域应用的起步阶段,数据集的构建与质控对产品质量有重要影响。目前,囊胚形态学AI评估在数据采集、标注、质控等方面尚未形成统一的规范。在参考AI医疗器械、辅助生殖医疗器械现有国家行业标准的基础上,本文以囊胚形态AI评估数据集为主题,对数据集构建与质控要求进行了探讨,对数据集质量特性进行了解析,旨在指导数据集制造责任方加强数据集全生命周期管理,更好地为产品研发、测试、临床试验等环节提供质量保障,助力产业发展。 展开更多
关键词 人工智能(AI) 囊胚形态评估 数据集构建 数据集标注 数据集质量控制
下载PDF
基于自监督的主动标签清洗
9
作者 林晓 张秋阳 +1 位作者 郑晓妹 杨启哲 《图学学报》 CSCD 北大核心 2024年第3期495-504,共10页
主动标签清洗利用主动学习来进行标签噪声处理,以降低人工标注成本。现有的主动标签清洗方法仍然存在人工额外标注成本较高的问题,即挑选出的可疑样本中正确样本所占比例较高。为了缓解这一问题,提出了一种基于核心集的自监督主动标签... 主动标签清洗利用主动学习来进行标签噪声处理,以降低人工标注成本。现有的主动标签清洗方法仍然存在人工额外标注成本较高的问题,即挑选出的可疑样本中正确样本所占比例较高。为了缓解这一问题,提出了一种基于核心集的自监督主动标签清洗方法。首先利用自监督任务进行表征学习,随后将数据映射到特征空间中,并利用贪婪的K-Center集合覆盖方法挑选出可疑样本,最后根据不确定性筛选出标签噪声样本进行重标注。并同时考虑到了样本的代表性与不确定性,能够有效降低可疑样本中正确样本的比例。在含有不同比例标签噪声的公开数据集上的实验结果表明,在各迭代轮次中明显地降低了人工额外标注成本,同时也在一定程度上缓解了冷启动问题。此外,还通过消融实验证明了方法中自监督核心集采样模块和不确定性预测模块的有效性。 展开更多
关键词 主动学习 自监督学习 标签噪声 标签清洗 人工额外标注成本
下载PDF
《钱注杜诗》整理刍议
10
作者 曾祥波 《杜甫研究学刊》 2024年第3期12-20,共9页
《钱注杜诗》一向被认为是清代“集大成”杜诗注的源头与最具原创性的注本。比对宋注与钱注,发现钱注承袭宋注的内容占全书百分之七十以上,在观点原创性上超出宋注的内容不多;受文献搜集的限制,钱注未能全面掌握宋注,且对宋注颇多误解... 《钱注杜诗》一向被认为是清代“集大成”杜诗注的源头与最具原创性的注本。比对宋注与钱注,发现钱注承袭宋注的内容占全书百分之七十以上,在观点原创性上超出宋注的内容不多;受文献搜集的限制,钱注未能全面掌握宋注,且对宋注颇多误解。在钱注并无整体原创性的前提下,其他直接或间接遵从钱注的清人代表注本(如仇、浦、杨等)对宋注的承袭问题也将逐次呈现。所以,杜诗研究应以宋代注本为起点,不应以清代注本为起点。 展开更多
关键词 《钱注杜诗》 杜诗宋注 稿本 原创性
下载PDF
基于可调场景语义标注范围的家庭室内语义地图构建
11
作者 张淑珍 何镇 +2 位作者 查富生 侯致远 马玉祥 《中国惯性技术学报》 EI CSCD 北大核心 2024年第4期371-378,共8页
针对家庭室内环境语义地图建图速度较慢和在门口场景语义标注易出现错误等问题,提出一种基于可调场景语义标注范围的家庭室内语义地图构建方法。首先根据YOLOv5s识别的物体大小赋予相应的场景置信度,基于该场景置信度设置阈值使得语义... 针对家庭室内环境语义地图建图速度较慢和在门口场景语义标注易出现错误等问题,提出一种基于可调场景语义标注范围的家庭室内语义地图构建方法。首先根据YOLOv5s识别的物体大小赋予相应的场景置信度,基于该场景置信度设置阈值使得语义标注范围限制在机器人当前所在区域,确保场景切换时语义标注范围不会立即改变。然后基于人工势场虚拟力“引力斥力”原理,实现语义标注范围的扩大或缩小。最后结合阈值和动态语义标注范围,避免在门口场景中出现语义标注错误。实验结果表明:与Places205-VGG16神经网络建立家庭室内语义地图相比,所提方法平均效率和平均精准率分别提升了11.0%和7.8%,在家庭室内环境中具有一定的优越性。 展开更多
关键词 家庭室内环境 语义地图 场景识别模型 场景置信度 变语义标注范围
下载PDF
基于Yolov5的交通信号灯智能识别程序开发
12
作者 郑国荣 张尊栋 +2 位作者 赵文芊 柏卓茁 贾菲儿 《智能城市》 2024年第3期18-21,共4页
交通信号检测是智能汽车识别交通环境的一项重要辅助技术,现有的算法能够解决单一交叉口环境下的信号检测问题,但需要在十字路口的复杂交通环境中提高算法的精度和干扰可靠性。文章以one-stage目标检测算法Yolov5的应用为研究基础,实现... 交通信号检测是智能汽车识别交通环境的一项重要辅助技术,现有的算法能够解决单一交叉口环境下的信号检测问题,但需要在十字路口的复杂交通环境中提高算法的精度和干扰可靠性。文章以one-stage目标检测算法Yolov5的应用为研究基础,实现多场景下的交通信号灯自动检测与识别,使用Labeling进行图片标注,通过镜像、裁剪、反转、等运行增强数据集,不断地调参实验与迭代模型训练,目标检测精度达到80%。 展开更多
关键词 目标检测 Yolov5 Labeling图片标注 模型训练
下载PDF
吕才《阴阳书·历注》与唐历——具注历源起新说
13
作者 赵江红 《敦煌研究》 北大核心 2024年第1期112-121,共10页
唐太宗曾命吕才等人编修《阴阳书》,此书“历注”二卷被作为注历书长期使用,可以视作最早的注历书。梳理敦煌吐鲁番出土具注历与日本藏《大唐阴阳书》抄本后发现:一、《大唐阴阳书》抄本即《阴阳书》卷三十二、三十三“历注”部分,与出... 唐太宗曾命吕才等人编修《阴阳书》,此书“历注”二卷被作为注历书长期使用,可以视作最早的注历书。梳理敦煌吐鲁番出土具注历与日本藏《大唐阴阳书》抄本后发现:一、《大唐阴阳书》抄本即《阴阳书》卷三十二、三十三“历注”部分,与出土唐至宋初具注历历注顺序、类目相同,内容相关;二、今存最早的具注历为唐高宗显庆三年具注历,晚于《阴阳书》,具注历阴阳历注内容应系从后者抄出。因此推断,具注历的产生与《阴阳书》有关,时间不早于太宗贞观十五年。 展开更多
关键词 《阴阳书·历注》 《大唐阴阳书》 注历 历注 具注历
下载PDF
黄国瑾致友朋信札及上呈奏折考释
14
作者 郑海涛 黄卫瑶 《贵阳学院学报(社会科学版)》 2024年第4期46-51,共6页
黄国瑾是晚清诗人和藏书家,著述多有亡佚。民国三十二年(1943年)紫江朱氏存素堂排印《训真书屋遗稿》,后收入《黔南丛书》别集之中,所存内容均为诗文。近来北京师范大学图书馆新刊《贵筑黄氏手稿辑存》,也仅在朱本基础上对黄氏《郢爰考... 黄国瑾是晚清诗人和藏书家,著述多有亡佚。民国三十二年(1943年)紫江朱氏存素堂排印《训真书屋遗稿》,后收入《黔南丛书》别集之中,所存内容均为诗文。近来北京师范大学图书馆新刊《贵筑黄氏手稿辑存》,也仅在朱本基础上对黄氏《郢爰考》一文进行字句修改,可见黄国瑾佚文弥足珍贵。经笔者多方寻觅,中国科学院图书馆邓之诚所藏盛昱《双隐楼藏盛祭酒往还书札》中有黄氏信札原稿一通;缪荃孙《艺风堂友朋书札》刊有黄氏信札九通;《张佩纶家藏信札》中印有黄氏信札原稿近四百通;《清光绪中日交涉史料选辑》收录有黄氏上呈奏折一封。除黄氏致盛昱、缪荃孙信札以及上呈奏折外,笔者还遴选黄氏致张佩纶信札六通,考订黄氏信札、奏折内容。 展开更多
关键词 黄国瑾 信札 奏折 考释
下载PDF
基于多层优选卷积的水声信号样本自动标注方法
15
作者 王红滨 张帅 +1 位作者 何鸣 陈夏可 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2024年第4期758-763,共6页
针对深度学习在水声研究领域的应用中面临大数据量要求和现有样本量限制的问题,本文提出了一种多层优选卷积网络模型。通过基于相似度的优选方法选出最佳卷积核,以提取更具代表性的特征。利用探索层特征融合策略,叠加多层卷积输出,获取... 针对深度学习在水声研究领域的应用中面临大数据量要求和现有样本量限制的问题,本文提出了一种多层优选卷积网络模型。通过基于相似度的优选方法选出最佳卷积核,以提取更具代表性的特征。利用探索层特征融合策略,叠加多层卷积输出,获取更全面的特征信息。采用约减策略优化模型,有效缩短运算时间。通过优选、特征融合和注意力机制,有效解决此类问题。实验结果表明,该模型在数据集上取得的最好的标注准确率为高基线模型1.12%;同时运行时间减少了43.5%。因此,该模型的使用提高了水声信号标注的准确率和效率。 展开更多
关键词 水声信号 自动标注 声纹识别 多层优选卷积模型 时间优化 注意力机制 特征融合
下载PDF
安乐哲《中庸》英译本中注释的哲学建构
16
作者 易红波 《沈阳建筑大学学报(社会科学版)》 2024年第2期197-202,共6页
对安乐哲(Roger T.Ames)《中庸》英译本中的注释进行了研究,发现译者运用了形音型、比照型、解释型和评价型4类注释,藉此阐明了译者源文本翻译的哲学基础,彰显了其术语翻译的中国哲学特色,凸显了中国古典哲学的现代意义,体现了《中庸》... 对安乐哲(Roger T.Ames)《中庸》英译本中的注释进行了研究,发现译者运用了形音型、比照型、解释型和评价型4类注释,藉此阐明了译者源文本翻译的哲学基础,彰显了其术语翻译的中国哲学特色,凸显了中国古典哲学的现代意义,体现了《中庸》对中国古典哲学发展的重要性,并展示了丰硕的儒学研究成果。 展开更多
关键词 安乐哲 《中庸》 注释 哲学建构 典籍翻译
下载PDF
领域大语言模型下的古籍词性标注应用研究
17
作者 朱丹浩 赵志枭 +3 位作者 胡蝶 赵文华 孙光耀 王东波 《科技情报研究》 2024年第2期21-29,共9页
[目的/意义]大语言模型的发展为古籍文本挖掘带来了新的思路,将大语言模型与古籍数字化、智能化相结合是新时代古籍工作的必经之路。[方法/过程]文章使用《左传》词性标注语料,通过数据清洗和预处理,构建了一批高质量的词性标注指令数据... [目的/意义]大语言模型的发展为古籍文本挖掘带来了新的思路,将大语言模型与古籍数字化、智能化相结合是新时代古籍工作的必经之路。[方法/过程]文章使用《左传》词性标注语料,通过数据清洗和预处理,构建了一批高质量的词性标注指令数据,在此基础上,分别使用500、1 000、2 000、5 000条数据对大语言模型进行指令微调,并在另外1 000条数据上进行性能测试。[结果/结论]实验结果表明,“荀子”系列模型在古籍文本词性标注任务上性能优于通用领域模型,在微调数据量达到5 000时,Xunzi-Baichuan2-7B模型表现出了最优性能,F1值达到81.67%。 展开更多
关键词 大语言模型 “荀子”大模型 《左传》 词性标注 指令微调
下载PDF
《甬言稽诂》的校注特色和价值
18
作者 郑晓芳 《宁波教育学院学报》 2024年第1期124-130,共7页
《甬言稽诂》是近人应钟撰写的一部考释宁波方言的专著,用文言写成,征引丰富,考证详尽,观点或是或非,不好裁择。《〈甬言稽诂〉校注及研究》一书对其进行了校注,探赜发微,正讹辨误,多有创获。今就“校注”的特色和价值略作分析和评述,... 《甬言稽诂》是近人应钟撰写的一部考释宁波方言的专著,用文言写成,征引丰富,考证详尽,观点或是或非,不好裁择。《〈甬言稽诂〉校注及研究》一书对其进行了校注,探赜发微,正讹辨误,多有创获。今就“校注”的特色和价值略作分析和评述,便于读者更好地了解《甬言稽诂》,更好地传承方言文化。 展开更多
关键词 《甬言稽诂》 校注 特色 价值
下载PDF
基于大语言模型的中文科技文献标注方法
19
作者 杨冬菊 黄俊涛 《计算机工程》 CAS CSCD 北大核心 2024年第9期113-120,共8页
高质量的标注数据是中文科技文献领域自然语言处理任务的重要基石。针对目前缺乏中文科技文献的高质量标注语料以及人工标注质量参差不齐且效率低下的问题,提出一种基于大语言模型的中文科技文献标注方法。首先,制定适用于多领域中文科... 高质量的标注数据是中文科技文献领域自然语言处理任务的重要基石。针对目前缺乏中文科技文献的高质量标注语料以及人工标注质量参差不齐且效率低下的问题,提出一种基于大语言模型的中文科技文献标注方法。首先,制定适用于多领域中文科技文献的细粒度标注规范,明确标注实体类型以及标注粒度;其次,设计结构化文本标注提示模板和生成解析器,将中文科技文献标注任务设置成单阶段单轮问答过程,将标注规范和带标注文本填充至提示模板中相应的槽位以构建任务提示词;然后,将提示词注入到大语言模型中生成包含标注信息的输出文本,经由解析器解析得到结构化的标注数据;最后,利用基于大语言模型的提示学习生成中文科技文献实体标注数据集ACSL,其中包含分布在48个学科的10000篇标注文档以及72536个标注实体,并在ACSL上提出基于RoBERTa-wwm-ext的3个基准模型。实验结果表明,BERT+Span模型在长跨度的中文科技文献实体识别任务中表现最佳,F1值为0.335。上述结果可作为后续研究的测试基准。 展开更多
关键词 文本标注方法 中文科技文献 大语言模型 提示学习 信息抽取
下载PDF
杜甫“江州妹”小考及其它
20
作者 孙微 《杜甫研究学刊》 2024年第2期1-8,共8页
杜甫诗“长葛书难得,江州涕不禁”之“江州”乃指其妹,旧注以为这个“江州妹”即《乾元中寓居同谷县作歌七首》其四中提到的“韦氏妹”。然“韦氏妹”所嫁之地钟离(今安徽凤阳)距江州遥远,其《五盘》曰:“故乡有弟妹,流落随丘墟。”这... 杜甫诗“长葛书难得,江州涕不禁”之“江州”乃指其妹,旧注以为这个“江州妹”即《乾元中寓居同谷县作歌七首》其四中提到的“韦氏妹”。然“韦氏妹”所嫁之地钟离(今安徽凤阳)距江州遥远,其《五盘》曰:“故乡有弟妹,流落随丘墟。”这个故乡的妹妹与“韦氏妹”显然并非一人,令杜甫“涕不禁”的“江州妹”应是另有其人。明确杜甫有个“江州妹”之后,便需要重新解读杜诗中的“九江”“庐山”“柴桑”等语词之涵义。杜诗旧注中此类失误不止一处。 展开更多
关键词 杜甫 “江州妹” “韦氏妹” 旧注 失误
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部