期刊文献+
共找到148篇文章
< 1 2 8 >
每页显示 20 50 100
基于Transformer的司法文书命名实体识别方法
1
作者 王颖洁 张程烨 +1 位作者 白凤波 汪祖民 《计算机科学》 CSCD 北大核心 2024年第S01期113-121,共9页
命名实体识别是自然语言处理领域的关键任务之一,是实现下游任务的基础。目前针对司法领域的相关研究相对较少,司法系统的信息化和智能化转型仍有许多问题亟需解决。相比其他领域的文本,司法文书存在专业性强、语料资源少等局限,导致现... 命名实体识别是自然语言处理领域的关键任务之一,是实现下游任务的基础。目前针对司法领域的相关研究相对较少,司法系统的信息化和智能化转型仍有许多问题亟需解决。相比其他领域的文本,司法文书存在专业性强、语料资源少等局限,导致现有的司法文书识别结果较低。因此,从以下3方面开展研究:首先,提出了一种多标签层级迭代的文本标注方式,可以对原始司法文书文本进行自动化标注,同时有效地提升司法文书命名实体识别任务的实体识别效果;其次,提出了一种交融式的Transformer神经网络模型,对汉字固有属性的深层特征进行了充分利用,用于对司法文书进行命名实体识别;最后,对所提出的标注方法和模型与其他神经网络模型进行了对比实验。所提出的文本标注方式可以较为准确地实现司法文书的标注任务;同时,所提出的模型在通用数据集中相对于对照模型有较大的提高,并在司法领域数据集中取得了良好的效果。 展开更多
关键词 自然语言处理 数据标注 Transformer模型 深度学习 司法信息化
下载PDF
基于CRF的中文语法错误诊断系统的实现与应用
2
作者 李斌 王浩畅 《计算机科学》 CSCD 北大核心 2024年第S01期1129-1134,共6页
随着中国国际影响力的提高和汉语国际地位的提升,将中文作为第二语言学习的外国人数量逐年增加,中文已成为世界上最为流行的语言之一。基于此,中文语法错误诊断的研究备受关注。首先,从中文语法错误诊断的定义出发,总结目前的研究现状... 随着中国国际影响力的提高和汉语国际地位的提升,将中文作为第二语言学习的外国人数量逐年增加,中文已成为世界上最为流行的语言之一。基于此,中文语法错误诊断的研究备受关注。首先,从中文语法错误诊断的定义出发,总结目前的研究现状。其次,通过对各种中文语法错误诊断方法的分析,构建了基于条件随机场的中文语法错误诊断系统,探究中文语法自动检错系统及其具体应用流程,以帮助中文学习者提高学习效率。在CGED2016数据集上的实验结果表明,该系统在检测层和识别层上的性能较好,在位置层上还需要改进。 展开更多
关键词 中文语法错误诊断 序列标注 条件随机场 自然语言处理
下载PDF
宋建本《六臣注文选》音注构成、来源考
3
作者 黄仁瑄 李慈 《南京师范大学文学院学报》 2023年第3期23-29,共7页
宋建本《六臣注文选》音注材料包括正文夹音和注中音。正文夹音大体上是五臣音,注中音可细分为李善自作音以及李善引旧注音、引旧有集注音、引其他诸家音。从版本系统来看,建州本李善音主要来源于北宋国子监本系统,五臣音主要来源于平... 宋建本《六臣注文选》音注材料包括正文夹音和注中音。正文夹音大体上是五臣音,注中音可细分为李善自作音以及李善引旧注音、引旧有集注音、引其他诸家音。从版本系统来看,建州本李善音主要来源于北宋国子监本系统,五臣音主要来源于平昌孟氏本系统。这跟已有的建州本版本研究结果基本吻合。 展开更多
关键词 《六臣注文选》 音注构成 音注来源
下载PDF
面向模型检测的LTL语句自动生成方法 被引量:1
4
作者 段喜龙 陆智伟 +3 位作者 郑巍 陈晋升 樊鑫 肖鹏 《计算机工程与设计》 北大核心 2023年第8期2337-2344,共8页
为优化线性时态逻辑语句的生成过程,减少模型检测的时间,提出一种面向模型检测的基于自然语言处理生成线性时态逻辑验证语句的方法。对需求文档提取关键词,将文档中的数据和可以代表模型中状态的名词进行提取,注释UML模型,对UML模型中... 为优化线性时态逻辑语句的生成过程,减少模型检测的时间,提出一种面向模型检测的基于自然语言处理生成线性时态逻辑验证语句的方法。对需求文档提取关键词,将文档中的数据和可以代表模型中状态的名词进行提取,注释UML模型,对UML模型中的状态进行归类,将模型中的状态分为数据属性类和调用操作类,利用配对的线性时态逻辑格式生成线性时态逻辑,用于软件模型一致性验证。实验结果表明,该方法与ST模型相比可以提高模型检测的效率。 展开更多
关键词 自然语言处理 模型一致性 线性时态逻辑 UML模型 形式化验证工具 模型验证 模型注释
下载PDF
基于计算技术的语音语料库标注方法研究
5
作者 杨政 马延周 《软件》 2023年第3期167-169,共3页
在现代信息技术革新发展中,科研学者在开发设计语音识别系统时,需要利用正确的音标标注和词汇标注,构建规范有效的语音语言模型。由于在语音语料库中添加音标和词汇标注,需要消耗大量的人力物力,并且现有系统无法实现自动标注,所以只能... 在现代信息技术革新发展中,科研学者在开发设计语音识别系统时,需要利用正确的音标标注和词汇标注,构建规范有效的语音语言模型。由于在语音语料库中添加音标和词汇标注,需要消耗大量的人力物力,并且现有系统无法实现自动标注,所以只能利用手工标注来完成。本文在了解数据标注技术研究现状的基础上,根据语音语料库的标注形式和影响因素,分析以计算技术为核心的语音语料库标注方法,而后结合实践应用结果进行验证分析。最终结果显示,利用计算技术进行标注,能有效低成本的生成词汇和音标的标注。 展开更多
关键词 计算技术 语音语料库 标注方法 音标标注 词汇标注
下载PDF
裴务齐正字本《刊谬补缺切韵》校勘举隅
6
作者 端佳伟 《东莞理工学院学报》 2023年第4期94-99,共6页
裴务齐正字本《刊谬补缺切韵》一般被学界称作《王二》。此书由于传抄或韵书作者编纂的主观性,导致在用字、注音、引书和释义等方面存在不少谬误。故以《王二》原卷为研究对象,参证其他韵书典籍,采用声训、义训和境训等训诂方法,从文字... 裴务齐正字本《刊谬补缺切韵》一般被学界称作《王二》。此书由于传抄或韵书作者编纂的主观性,导致在用字、注音、引书和释义等方面存在不少谬误。故以《王二》原卷为研究对象,参证其他韵书典籍,采用声训、义训和境训等训诂方法,从文字、注音和引书等方面去校勘讹谬,以期为唐五代韵书的整理和研究提供实证性的支持。 展开更多
关键词 裴务齐正字本《刊谬补缺切韵》 文字 注音 引书 校勘
下载PDF
基于大数据的政务数据全网搜索系统的设计与实现
7
作者 郑如顺 《移动信息》 2023年第12期210-212,共3页
全网搜索系统是政务大数据平台的重要基础性应用。该系统通过对海量数据的采集、治理、挖掘和分析,建设规范的核心基础库、通用指标库和领域基础数据库,并应用数据标注、元数据梳理、主数据服务、指标构建、模型分析、自然语义等核心技... 全网搜索系统是政务大数据平台的重要基础性应用。该系统通过对海量数据的采集、治理、挖掘和分析,建设规范的核心基础库、通用指标库和领域基础数据库,并应用数据标注、元数据梳理、主数据服务、指标构建、模型分析、自然语义等核心技术,将数据与业务关联起来。其还通过语义识别和语义对齐来智能判别用户的搜索意图,提供标准、个性、精准的数据搜索,并结合数据实际对搜索结果进行可视化分析与呈现,实现跨层级、跨区域、跨系统、跨部门、跨业务的数据关联查询与共享,实现政务数据的全网搜索。 展开更多
关键词 全网搜索 数据标注 自然语义 元数据 模型
下载PDF
Image interpretation: mining the visible and syntactic correlation of annotated words
8
作者 Ding-yin XIA Fei WU Wen-hao LIU Han-wang ZHANG 《Journal of Zhejiang University-Science A(Applied Physics & Engineering)》 SCIE EI CAS CSCD 2009年第12期1759-1768,共10页
Automatic web image annotation is a practical and effective way for both web image retrieval and image understanding. However, current annotation techniques make no further investigation of the statement-level syntact... Automatic web image annotation is a practical and effective way for both web image retrieval and image understanding. However, current annotation techniques make no further investigation of the statement-level syntactic correlation among the annotated words, therefore making it very difficult to render natural language interpretation for images such as "pandas eat bamboo". In this paper, we propose an approach to interpret image semantics through mining the visible and textual information hidden in images. This approach mainly consists of two parts: first the annotated words of target images are ranked according to two factors, namely the visual correlation and the pairwise co-occurrence; then the statement-level syntactic correlation among annotated words is explored and natural language interpretation for the target image is obtained. Experiments conducted on real-world web images show the effectiveness of the proposed approach. 展开更多
关键词 文字信息 图像解译 句法 注释 开采 自然语言 目标图像 图像理解
原文传递
中文文本的地理空间关系标注 被引量:22
9
作者 张雪英 张春菊 朱少楠 《测绘学报》 EI CSCD 北大核心 2012年第3期468-474,共7页
为有效地解决当前相关标准和标准数据匮乏的问题,通过分析中文文本中地理空间关系描述的语言特点,提出中文文本的地理空间关系标注体系,并以GATE(General Architecture for Text Engineering)为标注工具,以《中国大百科全书中国地理》... 为有效地解决当前相关标准和标准数据匮乏的问题,通过分析中文文本中地理空间关系描述的语言特点,提出中文文本的地理空间关系标注体系,并以GATE(General Architecture for Text Engineering)为标注工具,以《中国大百科全书中国地理》为文本数据源,采用交叉校验方式建立了地理空间关系标注语料库。实现了中文文本中地理空间关系描述的结构化表达,提供了地理空间关系信息抽取的标准化测试数据。 展开更多
关键词 自然语言 中文文本 地理空间关系 标注体系 标注语料库
下载PDF
中文文本的地理命名实体标注 被引量:26
10
作者 张雪英 朱少楠 张春菊 《测绘学报》 EI CSCD 北大核心 2012年第1期115-120,共6页
地理信息的语义解析有效地解决自然语言与地理信息系统之间的语义障碍问题。在分析中文文本和地理信息系统中地理实体描述和表达机制差异的基础上,结合地理命名实体描述的语言特点,制定中文文本的地理命名实体标注体系和标注规范,并以GA... 地理信息的语义解析有效地解决自然语言与地理信息系统之间的语义障碍问题。在分析中文文本和地理信息系统中地理实体描述和表达机制差异的基础上,结合地理命名实体描述的语言特点,制定中文文本的地理命名实体标注体系和标注规范,并以GATE(General Architecture for Text Engineering)作为标注平台,构建基于《中国大百科全书中国地理》的大规模标注语料库,以解决当前相关标准和规模化标准数据匮乏的问题。 展开更多
关键词 中文文本 地理命名实体 标注体系 标注语料库 自然语言
下载PDF
基于用户自然标注的微博文本的消费意图识别 被引量:7
11
作者 付博 陈毅恒 +1 位作者 邵艳秋 刘挺 《中文信息学报》 CSCD 北大核心 2017年第4期208-215,共8页
消费意图是指用户在文本中明确表达出的购买产品或服务等一些商业消费的意愿,如"想买一部手机"。该文针对微博上的消息文本,提出一种基于用户自然标注的微博消费意图识别方法。该方法将微博消费意图识别看作为领域自适应学习... 消费意图是指用户在文本中明确表达出的购买产品或服务等一些商业消费的意愿,如"想买一部手机"。该文针对微博上的消息文本,提出一种基于用户自然标注的微博消费意图识别方法。该方法将微博消费意图识别看作为领域自适应学习问题,通过自动获取的训练语料基于源域和目标域共同特征设计分类器,抽取置信度高的伪标注消费意图微博,再利用微博特征训练新的分类器对微博进行消费意图识别。实验结果表明该文所采用的方法是有效的,F值达到69%和77%,其中使用的各种特征对于提高消费意图识别的效果皆有帮助。 展开更多
关键词 消费意图 自然标注 社会媒体 领域自适应
下载PDF
《经典释文》中的“又音”与音义匹配 被引量:6
12
作者 岳利民 张翠翠 《语言科学》 CSSCI 北大核心 2016年第1期42-51,共10页
《经典释文》中的"又音"用例多,性质复杂。有些"又音"不为字头注音,被注字另有其字;有些"又音"为字头注音,但"首音"不为字头注音;有些"又音"是为异义异音字的字头注音;有些"又... 《经典释文》中的"又音"用例多,性质复杂。有些"又音"不为字头注音,被注字另有其字;有些"又音"为字头注音,但"首音"不为字头注音;有些"又音"是为异义异音字的字头注音;有些"又音"是为同义异音字的字头注音;有些"又音"是用来易字的无效音切。 展开更多
关键词 经典释文 又音 音义匹配
下载PDF
常见医学单词释义与注音掌握情况的调查分析 被引量:9
13
作者 孔令泉 吴凯南 +3 位作者 罗国辉 潘永林 王立贵 黄征丽 《医学教育探索》 2003年第4期67-69,共3页
为了解学生对医学专业英语释义与注音掌握情况及存在问题,对我校98级七年制学生进行测试并对结果进行分析,以探索全面提高医学英语水平的有效方法。
关键词 医学专业英语 注音 释义
下载PDF
基于Android的智能中文输入法 被引量:5
14
作者 刘峰 王晔晗 +2 位作者 汤步洲 王晓龙 王轩 《计算机工程》 CAS CSCD 北大核心 2011年第7期225-227,共3页
介绍语句级汉字拼音输入技术的基本原理,讨论在移动设备上面临的问题和解决方案,并实现基于Android操作系统的语句级汉字拼音输入法。将该输入法应用于多普达A3288手机,运行状态良好,汉字输入流畅,音字转换准确率为86.92%。随着用户对... 介绍语句级汉字拼音输入技术的基本原理,讨论在移动设备上面临的问题和解决方案,并实现基于Android操作系统的语句级汉字拼音输入法。将该输入法应用于多普达A3288手机,运行状态良好,汉字输入流畅,音字转换准确率为86.92%。随着用户对输入法和输入习惯的适应,准确率还会有一定的提高。 展开更多
关键词 输入法 ANDROID操作系统 音字转换 自然语言处理
下载PDF
基于中文电子病历的心血管疾病风险因素标注体系及语料库构建 被引量:14
15
作者 苏嘉 何彬 +5 位作者 吴昊 杨锦锋 关毅 姜京池 王焕政 于秋滨 《自动化学报》 EI CSCD 北大核心 2019年第2期420-426,共7页
本文讨论了从中文电子病历中标注心血管疾病风险因素及其相关信息的问题,提出了适应中文电子病历内容特点的心血管疾病风险因素标注体系,构建了中文健康信息处理领域首份关于心血管疾病风险因素的标注语料库.
关键词 心血管疾病 中文电子病历 风险因素 语料标注 自然语言处理
下载PDF
基于自然标注信息和隐含主题模型的无监督文本特征抽取 被引量:4
16
作者 饶高琦 于东 荀恩东 《中文信息学报》 CSCD 北大核心 2015年第6期141-149,共9页
术语和惯用短语可以体现文本特征。无监督的抽取特征词语对诸多自然语言处理工作起到支持作用。该文提出了"聚类-验证"过程,使用主题模型对文本中的字符进行聚类,并采用自然标注信息对提取出的字符串进行验证和过滤,从而实现... 术语和惯用短语可以体现文本特征。无监督的抽取特征词语对诸多自然语言处理工作起到支持作用。该文提出了"聚类-验证"过程,使用主题模型对文本中的字符进行聚类,并采用自然标注信息对提取出的字符串进行验证和过滤,从而实现了从未分词领域语料中无监督获得词语表的方法。通过优化和过滤,我们可以进一步获得了富含有术语信息和特征短语的高置信度特征词表。在对计算机科学等六类不同领域语料的实验中,该方法抽取的特征词表具有较好的文体区分度和领域区分度。 展开更多
关键词 自然标注信息 自然语块 隐含主题模型 领域特征 文体特征
下载PDF
《经典释文》音切类目研究的基本结论 被引量:6
17
作者 万献初 《语言研究》 CSSCI 北大核心 2003年第4期72-77,共6页
从性质上看,《释文》是一部因音辨义的训诂书;《释文》音切叠合了多层面的书面文献语言读书音;《释文》音切对汉语词汇发展史、构词法和上古汉语形态构成的研究有更为突出的价值。使用《释文》音切要正确区分真值注音音切和假性注音音... 从性质上看,《释文》是一部因音辨义的训诂书;《释文》音切叠合了多层面的书面文献语言读书音;《释文》音切对汉语词汇发展史、构词法和上古汉语形态构成的研究有更为突出的价值。使用《释文》音切要正确区分真值注音音切和假性注音音切、要正确认识“首音”和“又音”、要正确理解“如字”的作用。 展开更多
关键词 经典释文 音切研究 性质 价值
下载PDF
网页语义标注研究综述 被引量:5
18
作者 郭少友 窦畅 常桢 《情报杂志》 CSSCI 北大核心 2015年第4期169-175,共7页
网页语义标注是指利用本体对蕴含在网页中的知识进行描述以便计算机和人均能理解。首先对网页语义标注的涵义、要求和形式进行分析,然后分别讨论静态网页和动态网页的语义标注方法,并对现有的标注工具进行总结,最后提出有待进一步研究... 网页语义标注是指利用本体对蕴含在网页中的知识进行描述以便计算机和人均能理解。首先对网页语义标注的涵义、要求和形式进行分析,然后分别讨论静态网页和动态网页的语义标注方法,并对现有的标注工具进行总结,最后提出有待进一步研究的几个问题。 展开更多
关键词 网页 语义标注 本体 自然语言处理
下载PDF
基于自然标注的网页信息抽取研究 被引量:3
19
作者 李志义 沈之锐 《情报学报》 CSSCI 北大核心 2013年第8期853-859,共7页
随着Web网页数量的爆炸式增长和网页噪声不断增多,网上获取重要信息变得越来越困难。本文从一个新的角度,提出了一种基于自然标注的网页信息抽取方法。依据这种方法,首先对网页进行聚类,提取具有相似结构的网页并进行相同的标注,... 随着Web网页数量的爆炸式增长和网页噪声不断增多,网上获取重要信息变得越来越困难。本文从一个新的角度,提出了一种基于自然标注的网页信息抽取方法。依据这种方法,首先对网页进行聚类,提取具有相似结构的网页并进行相同的标注,然后采用SVM对抽取项进行训练,最后提取到需要抽取的数据。文章的主要贡献在于对网页中的自然标注进行分析和发现,给出了九大类自然标注的例子,并结合聚类和支持向量机,给出了训练方法。从实验结果上看,本方法优于其他方法。 展开更多
关键词 自然标注 信息抽取 聚类 支持向量机 语义
下载PDF
语料库自然标注信息与中文分词应用研究(英文) 被引量:2
20
作者 饶高琦 修驰 荀恩东 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第1期140-146,共7页
以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语言计算的影响。结果表明,两者都直接或间接地表达了作者对语言的分割意志,因而对分词具有积极的影响。... 以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语言计算的影响。结果表明,两者都直接或间接地表达了作者对语言的分割意志,因而对分词具有积极的影响。通过词语抽取测试,发现在缺乏丰富显性标注信息的文本中,来自语言固有规律的自然标注信息对字符串有着强大的分割性能。 展开更多
关键词 自然标注信息 中文分词 词语抽取 大规模语料库
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部