期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
从全文检索到语言计量和语言智能——语料库研究应用的三个层次及资源 被引量:2
1
作者 李斌 张艺璇 冯敏萱 《外语研究》 CSSCI 北大核心 2024年第1期20-27,45,共9页
20世纪中后期,随着计算机软硬件技术的快速发展,语料库在规模、深度甚至模态上都有了长足进步,实现了由全文检索到语言智能的巨大飞跃。语料库的分类一般从收录语言材料的地域、时代、语种、语体、语域等层面,或语音、词法、句法、语义... 20世纪中后期,随着计算机软硬件技术的快速发展,语料库在规模、深度甚至模态上都有了长足进步,实现了由全文检索到语言智能的巨大飞跃。语料库的分类一般从收录语言材料的地域、时代、语种、语体、语域等层面,或语音、词法、句法、语义、篇章等标注层级,或面向具体的研究问题等角度来划分。但更基本的、却较少关注的问题是语料库的构建和应用是面向学者的语言研究需要,还是面向计算机的语言计算建模需要。本文从语料库研究和应用的角度出发,将语料库研究划分为面向全文检索、语言计量和语言智能等三个层次,着重介绍了与后两者相关的期刊、会议和成果资源,助力研究者确定研究范式,构建和使用相匹配的标注语料库,实现多学科的交叉融合和应用。 展开更多
关键词 语料库 全文检索 语言计量 语言智能 计算语言学
下载PDF
可供性在情感化食品包装设计中的应用路径研究
2
作者 王佳春 冯敏萱 陈浩 《包装工程》 CAS 北大核心 2024年第22期242-249,共8页
目的从可供性的视角出发,探讨情感化食品包装设计的新路径,以带给用户良好的情感体验。方法首先通过收集优秀的情感化食品包装设计案例,然后以可供性理论为基础对优秀案例进行深入分析,探索可供性在各个优秀案例中的具象体现形式,在此... 目的从可供性的视角出发,探讨情感化食品包装设计的新路径,以带给用户良好的情感体验。方法首先通过收集优秀的情感化食品包装设计案例,然后以可供性理论为基础对优秀案例进行深入分析,探索可供性在各个优秀案例中的具象体现形式,在此分析的基础上挖掘出可供性与情感化食品包装设计之间的链接点,并归纳提炼出可供性理论指导下的情感化食品包装设计策略,为情感化食品包装设计提供新的思路。结论通过探索分析情感化食品包装中的可供性体现,总结归纳出了商品本源表征的直接映射、用户心智模型的合理迁移,以及剖析使用场景的外延需求三条可操作性的思路,为情感化食品包装在本能层、行为层,以及反思层的设计提供参考,从可供性的视角助力食品包装的情感化设计。同时文中将可供性理论引入情感化食品包装设计中,不仅是对拓宽食品包装的情感化设计思路进行的一次积极探索,也是对拓展可供性理论应用方向的一次尝试。 展开更多
关键词 食品包装设计 情感化 可供性 用户体验
下载PDF
第一届古代汉语分词和词性标注国际评测 被引量:5
3
作者 李斌 袁义国 +4 位作者 芦靖雅 冯敏萱 许超 曲维光 王东波 《中文信息学报》 CSCD 北大核心 2023年第3期46-53,64,共9页
中文古籍数量庞大,亟待智能处理方法进行自动处理。古文的自动分词和词性标注,是古汉语信息处理的基础任务。而大规模词库和标注语料库的缺失,导致古汉语自动分析技术发展较慢。该文介绍了第一届古代汉语分词和词性标注国际评测的概况,... 中文古籍数量庞大,亟待智能处理方法进行自动处理。古文的自动分词和词性标注,是古汉语信息处理的基础任务。而大规模词库和标注语料库的缺失,导致古汉语自动分析技术发展较慢。该文介绍了第一届古代汉语分词和词性标注国际评测的概况,评测以人工标校的精加工语料库作为统一的训练数据,以F_(1)值作为评测指标,比较了古汉语词法分析系统在测试数据(基测集和盲测集)上的优劣。评测还根据是否使用外部资源,区分出开放和封闭两种测试模式。该评测在第十三届语言资源与评测会议的第二届历史和古代语言技术研讨会上举办,共有14支队伍参赛。在基测集上,封闭测试模式分词和词性标注的F_(1)值分别达到了96.16%和92.05%,开放测试模式分词和词性标注的F_(1)值分别达到了96.34%和92.56%。在盲测集上,封闭测试分词和词性标注的F_(1)值分别达到93.64%和87.77%,开放测试分词和词性标注F_(1)值则分别达到95.03%和89.47%。未登录词依然是古代汉语词法分析的瓶颈。该评测的最优系统把目前古汉语词法分析提高到新的水平,深度学习和预训练模型有力地提高了古汉语自动分析的效果。 展开更多
关键词 古汉语 评测 自动分词 词性标注 古文信息处理
下载PDF
利用Sentinel-1A数据监测大西安2019~2022年大西安地表形变 被引量:3
4
作者 冯旻譞 齐琦 +6 位作者 董英 曾磊 张新社 刘文辉 李勇 王涛 张戈 《西北地质》 CAS CSCD 北大核心 2023年第3期178-185,共8页
西安是中国地面沉降和地裂缝等地质灾害集中发育的地区之一。西安市的地面沉降与地下水超采密切相关。近年来,西安市持续开展的地下水人工回灌,地下水位有所恢复。笔者采用小基线集干涉测量InSAR技术对西安城区2019年1月至2022年8月期间... 西安是中国地面沉降和地裂缝等地质灾害集中发育的地区之一。西安市的地面沉降与地下水超采密切相关。近年来,西安市持续开展的地下水人工回灌,地下水位有所恢复。笔者采用小基线集干涉测量InSAR技术对西安城区2019年1月至2022年8月期间的47景升轨Sentinel-1A数据进行处理,获取了西安地区最新的地面形变特征。研究发现,随着地下水位回升,西安市目前地面沉降已经有效缓解,典型沉降区鱼化寨、电子城等已经出现了地面回弹现象,大范围的地面沉降几乎不可见,仅在城区东南处见零星分布的沉降区。地下水位变化是导致地表回弹的重要原因。无论是电子城区域还是鱼化寨区域,其地表抬升形变已经度过土层快速变形的弹性形变时期。总体回弹量在安全范围,对周边的地铁及建筑的影响有限。 展开更多
关键词 西安 地面回弹 地下水 地面沉降 小基线集干涉测量InSAR技术
下载PDF
数字人文视域下的诗歌意象研究——现状与展望 被引量:1
5
作者 冯敏萱 葛四嘉 《南京师范大学文学院学报》 2021年第4期10-17,共8页
数字人文作为一种方法和技术手段已经深入到文学研究的诸多领域。中国传统诗词也贯入了数字人文的研究,不过多集中于电子化、声律、作家、写作地域等元数据构建,诗歌内容的研究相对较少。论文重点介绍了在数字人文视域下,对意象这一古... 数字人文作为一种方法和技术手段已经深入到文学研究的诸多领域。中国传统诗词也贯入了数字人文的研究,不过多集中于电子化、声律、作家、写作地域等元数据构建,诗歌内容的研究相对较少。论文重点介绍了在数字人文视域下,对意象这一古典诗词核心要素进行的三项代表性研究,进而指出数字人文方法在构建意象的字面义和深层情感义方面的优点和不足,最后提出构建大规模古典诗词语义体系和意象知识库的构想,以更有针对性地服务于诗词数字人文研究。 展开更多
关键词 意象 古诗词 认知语义 数字人文
下载PDF
我国大规模通用语普及率调查研究及改进策略
6
作者 冯敏萱 毛雪芬 +2 位作者 曹紫琰 李素琴 陈小荷 《南京师范大学文学院学报》 2021年第1期130-136,共7页
科学制定语言政策,发挥语言效用,离不开大规模通用语普及率的调查研究。本文综述了国内外大规模通用语普及历程及调查方法,指出我国当前调查的个别指标精确性有待提升,分析出样本选择、调查场景、评测机制及实施规范等均有可提升空间并... 科学制定语言政策,发挥语言效用,离不开大规模通用语普及率的调查研究。本文综述了国内外大规模通用语普及历程及调查方法,指出我国当前调查的个别指标精确性有待提升,分析出样本选择、调查场景、评测机制及实施规范等均有可提升空间并提出相应改进策略。此外,结合少数民族和汉族地区学习普通话的特点与差异,提出普及率分体系评估以及各指标设计权重的设想。未来工作,应更重视通用语普及质量并继续加大计算机投入,确保语言普查的最终实现。 展开更多
关键词 国家通用语 普及率调查 普通话评测 改进策略
下载PDF
面向数字人文的《四库全书》子部自动分类研究——以SikuBERT和SikuRoBERTa预训练模型为例 被引量:16
7
作者 胡昊天 张逸勤 +4 位作者 邓三鸿 王东波 冯敏萱 刘浏 李斌 《图书馆论坛》 CSSCI 北大核心 2022年第12期138-148,共11页
文章基于面向古文自然语言处理的SikuBERT和SikuRoBERTa预训练语言模型,在《四库全书》子部14个类别的古籍文本上开展典籍自动分类模型的构建,并与BERT、BERT-wwm、RoBERTa和RoBERTa-wwm基线模型进行对比。文章提出的两种分类模型效果... 文章基于面向古文自然语言处理的SikuBERT和SikuRoBERTa预训练语言模型,在《四库全书》子部14个类别的古籍文本上开展典籍自动分类模型的构建,并与BERT、BERT-wwm、RoBERTa和RoBERTa-wwm基线模型进行对比。文章提出的两种分类模型效果均优于基线模型,SikuBERT模型取得90.39%的整体分类F值,在天文算法类古籍上的分类F值达98.83%。在类别自动识别任务中,SikuRoBERTa的预测正确率达95.30%。基于SikuBERT和SikuRoBERTa预训练语言模型的四库自动分类体系可以将典籍文本划分为所属子部类别,构建的分类工具为高效自动化典籍分类提供了新途径。 展开更多
关键词 预训练模型 SikuBERT 文本分类 数字人文 《四库全书》子部
下载PDF
面向数字人文的先秦两汉典籍自动标点研究——以SikuBERT预训练模型为例 被引量:7
8
作者 赵连振 张逸勤 +3 位作者 刘江峰 王东波 冯敏萱 李斌 《图书馆论坛》 CSSCI 北大核心 2022年第12期120-128,137,共10页
古籍自动标点研究成为推动古籍研究在人文社科领域发展的关键环节。文章利用SikuBERT模型,以“中国哲学书电子化计划”古籍数据库中的先秦两汉典籍为数据源,进行自动标点训练,探索基于深度学习技术的古文自动标点模型。实验结果表明:Sik... 古籍自动标点研究成为推动古籍研究在人文社科领域发展的关键环节。文章利用SikuBERT模型,以“中国哲学书电子化计划”古籍数据库中的先秦两汉典籍为数据源,进行自动标点训练,探索基于深度学习技术的古文自动标点模型。实验结果表明:SikuBERT模型对先秦两汉典籍自动标点的整体效果比较优越,对书名号、冒号、句号以及逗号,预测表现良好,尤其是书名号与冒号标签的识别准确率、召回率与F1值均达到95%以上。文章验证了BERT模型在古籍文本自动标点中的可行性。 展开更多
关键词 数字人文 汉语典籍 自动标点 SikuBERT模型
下载PDF
数字人文视域下典籍动物命名实体识别研究——以SikuBERT预训练模型为例 被引量:10
9
作者 林立涛 王东波 +2 位作者 刘江峰 李斌 冯敏萱 《图书馆论坛》 CSSCI 北大核心 2022年第10期42-50,共9页
通用命名实体识别难以满足不同领域研究的需要,特定领域命名实体识别研究对于提升文本挖掘精度具有重要意义。文章基于SikuBERT预训练模型,构建用于典籍动物命名实体识别模型,为典籍动物知识挖掘提供有效方法。利用25部经人工标注动物... 通用命名实体识别难以满足不同领域研究的需要,特定领域命名实体识别研究对于提升文本挖掘精度具有重要意义。文章基于SikuBERT预训练模型,构建用于典籍动物命名实体识别模型,为典籍动物知识挖掘提供有效方法。利用25部经人工标注动物命名实体的先秦典籍语料,对SikuBERT等由BERT预训练模型发展而来的系列模型以及CRF、Bi-LSTM-CRF进行训练,构建多种用于识别典籍中动物命名实体的模型,并对这些模型进行识别性能测试,比较验证SikuBERT预训练模型的识别性能。结果表明:基于SikuBERT经训练所构建的动物命名实体识别模型效果最优,十折交叉测试的平均调和平均值(F1)为85.46%,最高一次达86.29%,应用于《史记》动物命名实体识别准确率达91.6%。 展开更多
关键词 数字人文 典籍 动物命名实体识别 SikuBERT 深度学习
下载PDF
基于概念关系对齐的中文抽象语义表示解析评测方法 被引量:3
10
作者 肖力铭 李斌 +4 位作者 许智星 霍凯蕊 冯敏萱 周俊生 曲维光 《中文信息学报》 CSCD 北大核心 2022年第1期21-30,38,共11页
抽象语义表示(Abstract Meaning Representation,AMR)是一种句子语义表示方法,能够将句子的语义表示为一个单根有向无环图。随着中文AMR语料库规模的扩大,解析系统的研究也相继展开,将句子自动解析为中文AMR。然而,现有的AMR解析评测方... 抽象语义表示(Abstract Meaning Representation,AMR)是一种句子语义表示方法,能够将句子的语义表示为一个单根有向无环图。随着中文AMR语料库规模的扩大,解析系统的研究也相继展开,将句子自动解析为中文AMR。然而,现有的AMR解析评测方法并不能处理中文AMR的重要组成部分——概念对齐和关系对齐信息,尤其是关系对齐中对应到有向弧上的虚词信息。因此,为了弥补中文AMR解析评测在这两个方面上的空缺,该文在Smatch指标的基础上加入了描写概念对齐和关系对齐的三元组,得到用以评测中文AMR的整体性指标Align-Smatch。选取100句人工标注语料与标准语料进行评测对照实验,结果显示,Align-Smatch有效兼容了对齐信息,对有向弧的评测比Smatch更合理。该文还提出了概念对齐指标、关系对齐指标、隐含概念指标共三个分项指标,以进一步评测中文AMR解析器在对齐子任务中的分项性能。 展开更多
关键词 抽象语义表示 评测方法 概念对齐 关系对齐 语义分析
下载PDF
历史典籍的结构化探索——《史记·列传》数字人文知识库的构建与可视化研究 被引量:5
11
作者 郑童哲恒 李斌 +2 位作者 冯敏萱 常博林 王东波 《大数据》 2022年第6期40-55,共16页
中国古代典籍文献浩如烟海,蕴藏了大量的历史人文知识。以电子化和全文检索为主要方法的古籍数字化开发应用模式已经成为语言文学、历史、哲学等学科的重要基础资源和工具。随着人工智能与大数据技术的发展,数字人文的研究范式不断演进... 中国古代典籍文献浩如烟海,蕴藏了大量的历史人文知识。以电子化和全文检索为主要方法的古籍数字化开发应用模式已经成为语言文学、历史、哲学等学科的重要基础资源和工具。随着人工智能与大数据技术的发展,数字人文的研究范式不断演进,将传统典籍的文本转换为高度结构化的新型数字人文数据库是一项新的探索,将文本中词汇、人物、地理实体等要素有机组织起来,对于历史现象可视化、历史规律量化具有重大意义。以《史记·列传》为对象,进行古汉语自动分词及词性标注、人工校对以及实体信息人工标注,形成多层次、高质量的数字人文知识库,实现包含古籍词汇、人物、地点等要素的定量分析与可视化检索,挖掘出《史记·列传》人物和地点分布情况、人物关系、人地关系等信息。得出:《史记·列传》共出现人物1787位、地点1173个;相比《史记·本纪》和《史记·世家》,《史记·列传》特有人物共1092位,特有地点共556个。本文研究内容为古籍数字人文知识库的构建提供了新的思路与框架。 展开更多
关键词 数字人文 《史记·列传》 知识服务 大数据 古汉语信息处理
下载PDF
基于关系对齐的汉语虚词抽象语义表示与分析 被引量:3
12
作者 戴玉玲 戴茹冰 +2 位作者 冯敏萱 李斌 曲维光 《中文信息学报》 CSCD 北大核心 2020年第4期21-29,共9页
虚词具有丰富的语法意义,对句子理解起着不可或缺的作用。虚词的语言学研究成果丰富,但缺乏形式化表示,无法直接被计算机利用。为了表示虚词的句法语义信息,该文首先在抽象语义表示(abstract meaning representation,AMR)这种基于概念... 虚词具有丰富的语法意义,对句子理解起着不可或缺的作用。虚词的语言学研究成果丰富,但缺乏形式化表示,无法直接被计算机利用。为了表示虚词的句法语义信息,该文首先在抽象语义表示(abstract meaning representation,AMR)这种基于概念图的语义表示方法的基础上,增加了词语和概念关系的对齐信息,使得虚词对应于概念节点或节点之间的关系弧。其次,选取了语言规范的人教版小学语文课本8 587句作为语料,进行AMR的标注。然后,针对语料中24 801个虚词实例进行统计,发现介词、连词、结构助词对应概念间的关系,占虚词总数的58.80%;而语气词和体助词表示概念,占41.20%。这表明AMR可以动态地描写出虚词功能,为整句句法语义分析提供更好的理论与资源。 展开更多
关键词 虚词 抽象语义表示 关系对齐 语言知识库
下载PDF
细颗粒度汽车评论语料库的构建和分析 被引量:2
13
作者 曹紫琰 冯敏萱 +3 位作者 毛雪芬 程宁 宋阳 李斌 《中文信息学报》 CSCD 北大核心 2020年第9期28-35,共8页
产品评论文本是情感分析的重要研究对象,目前已有的产品评论语料库大都较为粗疏,没有完整地标注出对象、属性、极性"三要素",影响自动分析的应用场景。对此,该文构建了细颗粒度评论语料库,共包含9343句汽车评论短文本,不仅人... 产品评论文本是情感分析的重要研究对象,目前已有的产品评论语料库大都较为粗疏,没有完整地标注出对象、属性、极性"三要素",影响自动分析的应用场景。对此,该文构建了细颗粒度评论语料库,共包含9343句汽车评论短文本,不仅人工标注了"三要素"的具体词语,而且将其对应到产品和属性的知识本体树上。此外,对无情感词的隐含表达、特殊文本(如建议文本、比较句等)也标注出对应的三元组并予以特殊标签。语料统计表明,对象和属性要素的共现率高达77.54%,验证了构建"三要素"齐全标注体系的必要性;基于该语料库的"三要素"自动标注实验F1值可达70.82%,验证了细颗粒度标注体系的可计算性以及语料库构建的规范性和应用价值。该语料库可以为细颗粒度情感分析研究提供基础数据。 展开更多
关键词 情感分析 细颗粒度 语料库
下载PDF
Geochronology, Geochemistry and Tectonic Significance of Dike Swarms in Beishan, Gansu 被引量:1
14
作者 QI Qi WANG Yonghe +4 位作者 feng minxuan YANG Jianguo YU Jiyuan WANG Lei WANG Xiaohong 《Acta Geologica Sinica(English Edition)》 SCIE CAS CSCD 2016年第S1期114-115,共2页
Study area is located at Beishan,Gansu province.Beishan area located at conjunction site among Tarim plate,Sino-Korean plate and Kazakhstan plate,this special tectonic position has a very complex geological tectonic.
关键词 Th GANSU Geochemistry and Tectonic Significance of Dike Swarms in Beishan GEOCHRONOLOGY
下载PDF
面向信息处理的《古籍汉字分级字表(7000字)》的研制
15
作者 余雪 冯敏萱 李斌 《辞书研究》 2024年第6期66-80,I0002,共16页
分级字表是文本难度分级的重要基础资源。文章基于大规模古籍文本语料库,在统计构建《古籍汉字通用字表》的基础上,通过挖掘古籍汉字在字形、字音、字义以及应用层面的11个分级计量特征,设计了古籍汉字学习优先级的分级评价体系,将各汉... 分级字表是文本难度分级的重要基础资源。文章基于大规模古籍文本语料库,在统计构建《古籍汉字通用字表》的基础上,通过挖掘古籍汉字在字形、字音、字义以及应用层面的11个分级计量特征,设计了古籍汉字学习优先级的分级评价体系,将各汉字表示为基于计量特征学习优先级的字向量,借助相似度计算,实现了古籍汉字学习优先级别的3级划分,得到《古籍汉字分级字表(7000字)》。该字表包括甲级字1516个、乙级字2421个,丙级字3063个,能够从文字层面为古汉语文本难度分级提供必要的基础字表,有助于古汉语文本分级研究,助力面向辞书编撰的语言文字信息化平台建设,进而为古文读写能力水平测试、古文篇章的自动分级等研究奠定基础。 展开更多
关键词 信息处理 古籍汉字 分级字表 古文文本分级
下载PDF
面向多领域先秦典籍的分词词性一体化自动标注模型构建 被引量:22
16
作者 张琪 江川 +4 位作者 纪有书 冯敏萱 李斌 许超 刘浏 《数据分析与知识发现》 CSSCI CSCD 北大核心 2021年第3期2-11,共10页
【目的】探究基于深度学习方法的古籍分词词性一体化标注技术,构建覆盖多领域古籍的自动标注模型。【方法】采用涵盖"经史子集"的25部先秦典籍作为训练语料,在未加入任何人工特征的前提下,基于BERT构建了先秦典籍分词词性一... 【目的】探究基于深度学习方法的古籍分词词性一体化标注技术,构建覆盖多领域古籍的自动标注模型。【方法】采用涵盖"经史子集"的25部先秦典籍作为训练语料,在未加入任何人工特征的前提下,基于BERT构建了先秦典籍分词词性一体化标注模型。最终将模型应用于《史记》,并对《史记》中构成事件的4种基本词类(人名、地名、时间词、动词)进行整体统计与个例分析。【结果】在语料涵盖历史、政论等多种领域且体裁多样的条件下,所构建的先秦典籍分词词性一体化标注模型在开放测试中分词准确率达到95.98%,词性标注准确率达到88.97%。在《史记》上的应用进一步证明了模型的稳定性和实用性。【局限】通过绘制词类标注混淆热力图分析模型错标类型,发现因词类分布样本不均衡、部分词类句法特征相似、兼类等所造成的词性误标有待进一步解决。【结论】将深度学习模型BERT应用于古汉语分词与词性标注,所构建的分词词性一体化标注模型适用于史籍、诗歌、典章制度等多领域的先秦典籍。 展开更多
关键词 数字人文 先秦典籍 古籍智能处理技术 分词 词性标注 深度学习
原文传递
基于词和实体标注的古籍数字人文知识库的构建与应用——以《资治通鉴·周秦汉纪》为例 被引量:13
17
作者 常博林 万晨 +3 位作者 李斌 陈欣雨 冯敏萱 王东波 《图书情报工作》 CSSCI 北大核心 2021年第22期134-142,共9页
[目的/意义]探索能够实现基于词和实体的检索与知识挖掘的人文知识库构建方法。[方法/过程]以《资治通鉴·周秦汉纪》为例,对68卷60万字的文本自动分词与词性标注之后,人工标注文本中的人物、地点GIS、时间等实体信息,实现基于词和... [目的/意义]探索能够实现基于词和实体的检索与知识挖掘的人文知识库构建方法。[方法/过程]以《资治通鉴·周秦汉纪》为例,对68卷60万字的文本自动分词与词性标注之后,人工标注文本中的人物、地点GIS、时间等实体信息,实现基于词和实体的全文检索和地图检索系统;利用同现信息,统计出人物关系与人物游历信息;进而使用TF-IDF方法,通过时间序列分析,挖掘出多事之秋、风云人物、风云之地等结果。[结果/结论]基于词和实体的深度信息标注,能够解决缺乏词界、同名异指和异名同指的检索难题,更可以为古籍多角度的知识发掘与知识服务提供基础支撑。 展开更多
关键词 《资治通鉴》 数字人文 知识挖掘 古籍检索 古文信息处理
原文传递
基于深度学习的古籍文本自动断句与标点一体化研究 被引量:3
18
作者 袁义国 李斌 +2 位作者 冯敏萱 贺胜 王东波 《图书情报工作》 CSSCI 北大核心 2022年第22期134-141,共8页
[目的/意义]中国拥有海量的古代典籍,利用计算机对古籍文本进行自动断句与标点有助于加快古籍资源的转化利用。现有研究主要存在两个亟待解决的问题。首先,将古籍断句与标点分为两个串行任务,会引起错误传递。其次,自动标注的标点也较... [目的/意义]中国拥有海量的古代典籍,利用计算机对古籍文本进行自动断句与标点有助于加快古籍资源的转化利用。现有研究主要存在两个亟待解决的问题。首先,将古籍断句与标点分为两个串行任务,会引起错误传递。其次,自动标注的标点也较为混乱,对长距离可嵌套的成对引号标注研究较少。[方法/过程]通过对大规模古籍语料库的标点符号频率统计,结合现有标点符号用法标准,明确古文自动标点的符号体系。根据点号含有断句信息,提出断句标点一体化处理方案,直接在没有断句的古籍文本上进行自动标点。并通过设计多元引号标记集和段首填充占位符,解决长距离可嵌套成对引号的自动标注难题。算法上根据序列标注方法,采用SikuRoBRETa-BiLSTM-CRF在1亿多字的繁体古籍文本语料上完成模型训练。[结果/结论]在开放测试集《左传》上,点号标注的F1值为77.09%,断句达到91.72%;对单个引号的标注F1值达到89.28%,成对引号为83.88%。结果表明本文的方法有效地提升了古籍文本的自动断句与自动标点效果,有效地解决了引号的自动标注问题。 展开更多
关键词 自动断句 自动标点 古籍 深度学习 数字人文
原文传递
IKBKB基因c.1183T>C点突变小鼠的建立及基本表型分析
19
作者 冯苠璇 周丽娜 +2 位作者 秦涛 赵晓东 贾彦军 《中国细胞生物学学报》 CAS CSCD 2020年第3期469-477,共9页
该研究主要为探究IKBKB基因c.1183T>C位点突变对人免疫器官淋巴细胞的影响。采用CRISPR/Cas9技术构建相应点突变模式小鼠,并提取小鼠(C57BL/6J)基因组DNA进行PCR及一代测序、鉴定及扩繁,使用密度梯度离心法提取小鼠脾脏及胸腺淋巴细... 该研究主要为探究IKBKB基因c.1183T>C位点突变对人免疫器官淋巴细胞的影响。采用CRISPR/Cas9技术构建相应点突变模式小鼠,并提取小鼠(C57BL/6J)基因组DNA进行PCR及一代测序、鉴定及扩繁,使用密度梯度离心法提取小鼠脾脏及胸腺淋巴细胞,采用Real-time PCR及Western blot检测淋巴细胞中IKKs家族各亚基(IKKα、IKKβ和IKKγ) mRNA及蛋白的表达,并使用分子运行模式(molecular operating environment,MOE)软件分析蛋白PDB结构及建立3D模型。小鼠基因测序结果表明成功构建点突变稳定基因型小鼠;与野生型小鼠相比,纯合突变小鼠IKBKB mRNA表达无明显变化,而IKKβ蛋白表达明显降低;蛋白结构分析结果提示,突变后的IKKβ蛋白空间构型明显改变。研究初步表明,IKBKB Y397H突变导致小鼠脾脏及胸腺的淋巴细胞中IKKβ蛋白明显下降,可能是由于突变导致蛋白结构发生改变而使其稳定性降低,这为进一步探究该位点突变对免疫细胞稳态调节及其致病机制提供了新思路及实验基础。 展开更多
关键词 CRISPR/Cas9 IKBKB基因 小鼠模型 蛋白预测 淋巴细胞
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部