期刊文献+
共找到74篇文章
< 1 2 4 >
每页显示 20 50 100
基于局部Transformer的泰语分词和词性标注联合模型
1
作者 朱叶芬 线岩团 +1 位作者 余正涛 相艳 《智能系统学报》 CSCD 北大核心 2024年第2期401-410,共10页
泰语分词和词性标注任务二者之间存在高关联性,已有研究表明将分词和词性标注任务进行联合学习可以有效提升模型性能,为此,提出了一种针对泰语拼写和构词特点的分词和词性标注联合模型。针对泰语中字符构成音节,音节组成词语的特点,采... 泰语分词和词性标注任务二者之间存在高关联性,已有研究表明将分词和词性标注任务进行联合学习可以有效提升模型性能,为此,提出了一种针对泰语拼写和构词特点的分词和词性标注联合模型。针对泰语中字符构成音节,音节组成词语的特点,采用局部Transformer网络从音节序列中学习分词特征;考虑到词根和词缀等音节与词性的关联,将用于分词的音节特征融入词语序列特征,缓解未知词的词性标注特征缺失问题。在此基础上,模型采用线性分类层预测分词标签,采用线性条件随机场建模词性序列的依赖关系。在泰语数据集LST20上的试验结果表明,模型分词F1、词性标注微平均F1和宏平均F1分别达到96.33%、97.06%和85.98%,相较基线模型分别提升了0.33%、0.44%和0.12%。 展开更多
关键词 泰语分词 词性标注 联合学习 局部Transformer 构词特点 音节特征 线性条件随机场 联合模型
下载PDF
Language-Independent Text Tokenization Using Unsupervised Deep Learning
2
作者 Hanan A.Hosni Mahmoud Alaaeldin M.Hafez Eatedal Alabdulkreem 《Intelligent Automation & Soft Computing》 SCIE 2023年第1期321-334,共14页
Languages–independent text tokenization can aid in classification of languages with few sources.There is a global research effort to generate text classification for any language.Human text classification is a slow p... Languages–independent text tokenization can aid in classification of languages with few sources.There is a global research effort to generate text classification for any language.Human text classification is a slow procedure.Conse-quently,the text summary generation of different languages,using machine text classification,has been considered in recent years.There is no research on the machine text classification for many languages such as Czech,Rome,Urdu.This research proposes a cross-language text tokenization model using a Transformer technique.The proposed Transformer employs an encoder that has ten layers with self-attention encoding and a feedforward sublayer.This model improves the efficiency of text classification by providing a draft text classification for a number of documents.We also propose a novel Sub-Word tokenization model with frequent vocabulary usage in the documents.The Sub-Word Byte-Pair Tokenization technique(SBPT)utilizes the sharing of the vocabulary of one sentence with other sentences.The Sub-Word tokenization model enhances the performance of other Sub-Word tokenization models such pair encoding model by+10%using precision metric. 展开更多
关键词 Text classification language-independent tokenization sub word tokenization
下载PDF
论廖平《论语微言述》残本的引书与引文
3
作者 张林杰 《宜宾学院学报》 2023年第10期10-16,共7页
大约成书于清末最后几年的《论语微言述》残本是经学大师廖平在论语学方面的一部重要作品。该残本在注解《论语》时引用了大量书籍,其引书呈以经部为主,尤其以十三经为主,兼及史、子、集各部的特点;在引文上呈所选引文的妥当性、对部分... 大约成书于清末最后几年的《论语微言述》残本是经学大师廖平在论语学方面的一部重要作品。该残本在注解《论语》时引用了大量书籍,其引书呈以经部为主,尤其以十三经为主,兼及史、子、集各部的特点;在引文上呈所选引文的妥当性、对部分引文的补充性说明、不同出处引文的并列使用问题等特点。加强对这些引书、引文的研究,或有助于我们进一步解读该残本,并理清廖平的解经思路。 展开更多
关键词 《论语微言述》残本 引书 引文 儒家十三经
下载PDF
基于迁移学习的化学键能数据自动抽取
4
作者 庞娜 袁钺 薛秋红 《现代情报》 2023年第1期19-28,共10页
[目的/意义]在计算化学中,化学键能是重要的化学领域科学数据,目前化学键能数据抽取工作主要是由领域专家手动抽取,效率低下,大多数化学键能科学数据被湮没于海量文献中,无益于深入的、创新的科学数据分析。[方法/过程]为了解决该问题,... [目的/意义]在计算化学中,化学键能是重要的化学领域科学数据,目前化学键能数据抽取工作主要是由领域专家手动抽取,效率低下,大多数化学键能科学数据被湮没于海量文献中,无益于深入的、创新的科学数据分析。[方法/过程]为了解决该问题,本研究以ChemBE化学键能语料为实验对象,设计在较少专家支持的情况下,使用迁移学习的方法在化学论文中自动抽取与化学键能相关的科学数据。本文提出了一种端到端的BERT-CRF模型,通过构建领域高频子词的方法来解决大量未登录词的问题,并在后续深度学习模型的训练中,将构建好的领域高频子词作为领域特征输入到深度学习模型中,实现了对论文中的化学键能科学数据自动、高效地抽取。[结果/结论]实验表明,端到端的BERT-CRF模型与需要专家构建规则的基线模型相比,取得了理想的实验结果,F1值达到了88.56%。本文通过构建领域高频子词来解决大量未登录词的问题,降低了对领域专家的要求,可以较为容易地、低成本地迁移到其他领域。本文的研究结果是情报分析技术在化学领域的实践,为化学键能的智能知识检索提供了重要支撑。 展开更多
关键词 迁移学习 化学键能 深度学习 自动抽取 智能知识检索 领域高频子词 联合抽取模型 科学数据 文本挖掘
下载PDF
面向舆情事件的子话题标签生成模型ET-TAG 被引量:18
5
作者 周楠 杜攀 +2 位作者 靳小龙 刘悦 程学旗 《计算机学报》 EI CSCD 北大核心 2018年第7期1490-1503,共14页
关于舆情事件的新闻数据是纷繁复杂的.即便是关于同一舆情事件的新闻数据,往往包含有不同的子话题(事件的不同侧面).因此,如何生成能够准确描述事件子话题含义的标签对深入分析舆情事件(包括掌握事件热点、监测发展走向等)具有重要意义... 关于舆情事件的新闻数据是纷繁复杂的.即便是关于同一舆情事件的新闻数据,往往包含有不同的子话题(事件的不同侧面).因此,如何生成能够准确描述事件子话题含义的标签对深入分析舆情事件(包括掌握事件热点、监测发展走向等)具有重要意义.事件子话题标签的生成通常包括两个关键步骤:首先发现子话题,然后依据每个子话题的关键词或文档内容生成描述该子话题的有效标签.传统方法在发现话题时多采用聚类或分类的方法,它们将同一个话题的文档整合到一个簇中.然而,由于隶属同一事件的文档具有很强的相似性,现有方法难以度量他们之间的距离,因此无法应用于发现事件子话题这一任务.此外,在为子话题生成标签时,传统的方法通常通过抽取来实现.此类方法所生成标签的准确性无法保证.为此,该文提出了一种基于PLSA with Background Language并结合关键词聚类发现事件内部子话题,进而基于维基百科等知识库生成事件子话题标签的模型ET-TAG.在多类舆情事件数据集上的实验结果表明,ET-TAG算法相比K-means和LDA等已有子话题发现方法具有更好的性能;从子话题标签生成角度而言,ET-TAG生成的标签相对于传统方法也具有更好的准确性和概括性.该文最后将ET-TAG算法生成的子话题标签用于事件的对比和追踪,结果表明通过子话题标签可以发现事件共性,并反映事件子话题热度的变化趋势. 展开更多
关键词 子话题发现 PLSA with BACKGROUND LANGUAGE 关键词聚类 子话题标签生成
下载PDF
基于局部特征和语义信息的扣件图像检测 被引量:9
6
作者 罗建桥 刘甲甲 +1 位作者 李柏林 熊鹰 《计算机应用研究》 CSCD 北大核心 2016年第8期2514-2518,2523,共6页
针对现有底层特征识别扣件状态的算法存在描述能力差、错误率高等问题,提出一种基于扣件局部特征和语义信息的扣件检测模型。首先,在图像的非线性空间中计算扣件底层局部特征来表达扣件轮廓信息;然后,将图像分为四个子图,有效克服了由... 针对现有底层特征识别扣件状态的算法存在描述能力差、错误率高等问题,提出一种基于扣件局部特征和语义信息的扣件检测模型。首先,在图像的非线性空间中计算扣件底层局部特征来表达扣件轮廓信息;然后,将图像分为四个子图,有效克服了由于扣件左右对称、上下相似造成的单词多义性问题;再根据扣件子图构造视觉单词,由底层特征整合得到语义信息向量;最后,以该向量训练分类器,判断待检扣件状态。对均衡的扣件样本进行测试,漏检率仅为0.67%。实验表明所提算法较现有方法,漏检率和误报率明显降低,检测能力增强。 展开更多
关键词 铁路扣件检测 非线性空间 局部特征 扣件子图 视觉单词 语义信息
下载PDF
基于重复字串的微博新词非监督自动抽取 被引量:4
7
作者 孙晓 李承程 +1 位作者 叶嘉麒 任福继 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第6期674-678,724,共6页
文章基于重复字串的统计特征,同时分析微博中存在的口语化语言特点制定相应的语言规则,采用统计和规则相结合的方法,首先对微博的语料进行分词,然后从分词碎片中提取重复出现2次及2次以上的新词,通过多层过滤,得到最终的候选新词。实验... 文章基于重复字串的统计特征,同时分析微博中存在的口语化语言特点制定相应的语言规则,采用统计和规则相结合的方法,首先对微博的语料进行分词,然后从分词碎片中提取重复出现2次及2次以上的新词,通过多层过滤,得到最终的候选新词。实验结果证明,该方法有效地保证了较高的准确率和召回率,同时保证了新词的抽取速度。 展开更多
关键词 自然语言处理 中文分词 重复字串 分词碎片
下载PDF
通用处理器多媒体支持功能的分析与研究 被引量:1
8
作者 成运 戴葵 +1 位作者 王志英 岳虹 《计算机科学》 CSCD 北大核心 2004年第9期78-81,共4页
大量的多媒体信息处理是现代通用处理器面临的一个现实问题,本文在对通用处理器中的多媒体扩展进行简单的回顾之后,对多媒体的特征进行了分析,得出了现有通用处理器中多媒体扩展的共同特征,然后对现有多媒体扩展指令集进行了分类介绍,... 大量的多媒体信息处理是现代通用处理器面临的一个现实问题,本文在对通用处理器中的多媒体扩展进行简单的回顾之后,对多媒体的特征进行了分析,得出了现有通用处理器中多媒体扩展的共同特征,然后对现有多媒体扩展指令集进行了分类介绍,研究了在通用处理器中进行多媒体功能扩展的发展特点,最后,指出发展多线程或超线程多媒体处理器将是通用处理器发展的必然趋势。 展开更多
关键词 通用处理器 多媒体功能 扩展 超线程 指令集 多线程 多媒体处理器 多媒体信息处理
下载PDF
加速器驱动次临界系统注入器离子源控制系统 被引量:10
9
作者 姜子运 郭玉辉 +6 位作者 刘海涛 武启 余泽民 马鸿义 于春蕾 胡建军 何源 《强激光与粒子束》 EI CAS CSCD 北大核心 2014年第5期276-279,共4页
强流质子源及低能传输线是加速器驱动次临界系统(ADS)项目注入器的重要组成部分,为了保证其工作效率设计了一种基于实验物理及工业控制系统(EPICS)架构的远程控制系统。根据被控设备硬件接口的特点及控制需求分别采用可编程控制器(PLC)... 强流质子源及低能传输线是加速器驱动次临界系统(ADS)项目注入器的重要组成部分,为了保证其工作效率设计了一种基于实验物理及工业控制系统(EPICS)架构的远程控制系统。根据被控设备硬件接口的特点及控制需求分别采用可编程控制器(PLC)和串口服务器等作为控制部件,在主控机中使用LabVIEW编程实现了对系统内所有设备的监控,并借助于DSC模块把设备状态和参数等以过程变量的形式进行网络发布。设计的控制系统具有结构简单、工作可靠的特点,已经在系统调试中发挥了重要作用。 展开更多
关键词 加速器驱动次临界系统 离子源和低能传输线 实验物理及工业控制系统
下载PDF
纺织品中有害分散染料的细粒径柱液相色谱光谱质谱检测技术 被引量:5
10
作者 丁友超 曹锡忠 +2 位作者 蔡建和 周佳 钱凯 《纺织学报》 EI CAS CSCD 北大核心 2011年第1期89-95,共7页
采用液相色谱二极管光谱检测器串联四级杆质谱(LC-PDA-MS/MS)同时快速测定纺织品中的22种有害分散染料。研究设计的氯苯蒸气回流提取法的提取效率是超声波辅助甲醇提取方法的2.3~11倍,采用的1.8μm细粒径液相色谱柱比传统的5μm色谱柱... 采用液相色谱二极管光谱检测器串联四级杆质谱(LC-PDA-MS/MS)同时快速测定纺织品中的22种有害分散染料。研究设计的氯苯蒸气回流提取法的提取效率是超声波辅助甲醇提取方法的2.3~11倍,采用的1.8μm细粒径液相色谱柱比传统的5μm色谱柱的分析时间缩短了近三分之二,而检测灵敏度至少提高了4倍。通过电喷雾串联质谱鉴别,确认DIN 54231标准中的分散蓝35(b)物质为分散蓝26染料。22种分散染料的测定低限在0.8~5 mg/kg之间,回收率均在86.4%~98.7%之间,相对标准偏差值小于10%。在面料、服装衬里布以及缝纫线和拉链边布等一些辅料中都检测出有害分散染料,检出率较高的是分散黄23和分散橙37/76。 展开更多
关键词 分散染料 液相色谱-串联质谱 光谱分析 细粒径色谱柱 纺织品
下载PDF
广播数据系统(RDS)的信道编解码 被引量:6
11
作者 姚冬苹 蔡超时 宋宜纯 《铁道学报》 EI CAS CSCD 北大核心 1997年第1期71-75,共5页
在介绍广播数据系统多工广播信息的基础上,讨论了作者开发的RDS系统各层数据的帧结构,分析了信道编解码及特点,说明了寄存器编解码的实现方法及同步的获取手段。
关键词 广播数据系统 信道编解码 寄存器编解码
下载PDF
新型可重构移位-置换单元研究与设计 被引量:2
12
作者 马超 李伟 +1 位作者 戴紫彬 冯晓 《电子学报》 EI CAS CSCD 北大核心 2017年第5期1025-1034,共10页
本文利用Inverse Butterfly/Butterfly多级动态网络的自重构特性,提出了一种针对循环移位操作的高速可重构控制信息生成算法,该算法不仅具有极高的并行性和较小的资源消耗,还首次将循环移位、双向循环移位和以2~i(i=0,1,2…)为位宽的短... 本文利用Inverse Butterfly/Butterfly多级动态网络的自重构特性,提出了一种针对循环移位操作的高速可重构控制信息生成算法,该算法不仅具有极高的并行性和较小的资源消耗,还首次将循环移位、双向循环移位和以2~i(i=0,1,2…)为位宽的短字循环移位等10余种不同类型的移位操作统一在一个算法中.并在此基础上,设计了一种新型可重构移位-置换单元.该单元在SMIC 65nm工艺完成了逻辑综合.实验结果表明,当该单元只实现循环移位时,与以往研究成果相比,频率提升了6.4%~12%,面积减小了22%~30%;当该单元实现多种移位操作时,频率下降约8.4%,但能够支持的移位操作类型是以往研究成果的2倍. 展开更多
关键词 INVERSE Butterfly/Butterfly网络 循环移位算法 可重构 短字循环移位
下载PDF
关于次酉矩阵与次镜象矩阵 被引量:16
13
作者 袁晖坪 《数学杂志》 CSCD 北大核心 2002年第3期314-318,共5页
提出了共轭次转置矩阵、次酉矩阵与次镜象矩阵的概念 ,对它们的基本性质及其与(反 )次 Hermite阵的关系进行了深入的研究 ,获得了一些新的结果 ,将正交阵的广义 Gayley分解推广到了次酉阵上 .
关键词 共轭次转置矩阵 次酉矩阵 次镜象矩阵 次Hermite阵
下载PDF
基于分块权值的语义图像检索 被引量:1
14
作者 夏利民 朱城 +1 位作者 张海燕 彭东亮 《计算机科学》 CSCD 北大核心 2013年第9期266-269,共4页
图像低层视觉特征和高层语义间的"语义鸿沟"是图像检索的关键问题。为了进一步提高基于语义的图像检索系统工作效率,以分块权值和视觉词库为基础,结合图像低层特征和高层语义的相关性,提出了一种基于分块权值的语义图像模型,... 图像低层视觉特征和高层语义间的"语义鸿沟"是图像检索的关键问题。为了进一步提高基于语义的图像检索系统工作效率,以分块权值和视觉词库为基础,结合图像低层特征和高层语义的相关性,提出了一种基于分块权值的语义图像模型,该模型用来反映图像的视觉特性,对图像的高层语义进行有效检测,从而提高语义图像的检索效率。实验结果表明,该方法提高了语义图像检索系统的查全率和查准率。 展开更多
关键词 词袋 图像检索 子块 语义
下载PDF
汉字亚词汇部件语音加工的P200效应 被引量:3
15
作者 孔令跃 张豹 《心理与行为研究》 CSSCI 北大核心 2020年第3期304-310,共7页
亚词汇加工是词汇识别研究中的一个重要领域,本研究考察了早期ERP成分P200如何受到汉字亚词汇部件语音信息的影响。在ERP实验中,被试对顺序呈现的启动字和目标字对进行语义判断。实验中"启动字–目标字"字对共享一个共同的可... 亚词汇加工是词汇识别研究中的一个重要领域,本研究考察了早期ERP成分P200如何受到汉字亚词汇部件语音信息的影响。在ERP实验中,被试对顺序呈现的启动字和目标字对进行语义判断。实验中"启动字–目标字"字对共享一个共同的可发音或不可发音的部件(如"吹–砍"、"扬–场")。对目标字的P200效应分析显示:与部件不发音的目标字相比,部件可发音的目标字所诱发的P200显著增强。这种增强的ERP效应表明P200对汉字识别中亚词汇部件的语音加工非常敏感,其效应变化受到亚词汇语音的单独调节,同时也表明在汉字识别的早期阶段亚词汇部件语音信息就已被激活并在汉字加工中起重要作用。 展开更多
关键词 P200 部件 语音 亚词汇 汉字识别
下载PDF
单音节词三叠式的分布、功能及意义 被引量:3
16
作者 方寅 段业辉 《汉语学习》 CSSCI 北大核心 2015年第1期23-29,共7页
汉语单音节词三次重叠现象大量存在。动词、形容词、名词、量词、方位词、区别词、数词、指示词、副词、代词、拟声词、叹词都有单音节三叠式分布。从功能上看,该形式能独立成句或带陈述、指称、修饰功能并于主、谓、宾、定、状、补等... 汉语单音节词三次重叠现象大量存在。动词、形容词、名词、量词、方位词、区别词、数词、指示词、副词、代词、拟声词、叹词都有单音节三叠式分布。从功能上看,该形式能独立成句或带陈述、指称、修饰功能并于主、谓、宾、定、状、补等句法位置上分布,这体现了其多功能性和特殊库藏价值,即通过去范畴化形态操作进而实现指称、陈述、修饰等表述功能之间的承继与流转。从意义上看,该形式不仅能表生动摹状和复元体量,还能表达或积极或消极的色彩义,这反映出其作为整体所独有的构式义及对应的"增效"特征。 展开更多
关键词 单音节词三次重叠式 类别 多功能性 构式义
下载PDF
彝文自动分词技术研究 被引量:3
17
作者 陈顺强 《中文信息学报》 CSCD 北大核心 2011年第3期123-128,共6页
该文介绍了彝文自动分词的技术。首先阐述了研究彝文自动分词的必要性和重要意义,然后介绍了彝文分词规范的原则及词表,讨论了彝文分词的算法,最后根据彝文的特性,设计了基于Java语言的彝文自动分词软件并得出了良好的分词结果。
关键词 自动分词 彝文 分词单位
下载PDF
基于条件随机场的藏文人名识别研究 被引量:2
18
作者 兰义湧 龙从军 赵小兵 《中央民族大学学报(自然科学版)》 2018年第1期34-40,共7页
本文首先分析了藏文人名的特点以及藏文人名识别的难点,在此基础上,利用条件随机场模型,分别提出了采用基于亚音节标注的藏文人名识别方法和分词与词性标注一体化的藏文人名识别方法.
关键词 藏文人名 条件随机场 亚音节 分词 词性标注 一体化
下载PDF
论中国文明进程中的潜文化形态 被引量:3
19
作者 郭洪纪 《西北师大学报(社会科学版)》 北大核心 2004年第6期130-135,共6页
在中国文明进程中,"潜文化"作为一种"文化原型",充当了沟通人们心态和行为的特殊角色,传达着某种特定的历史文化信息,具有不可忽视的重要地位和作用。正是这些突显华夏民族心理特征的潜文化意象,成为塑造中国人的... 在中国文明进程中,"潜文化"作为一种"文化原型",充当了沟通人们心态和行为的特殊角色,传达着某种特定的历史文化信息,具有不可忽视的重要地位和作用。正是这些突显华夏民族心理特征的潜文化意象,成为塑造中国人的思想空间、人格行为与伦理典范的不尽源泉。 展开更多
关键词 中国文明 自然物象 潜文化 儒家思想
下载PDF
频繁子树模式在中心词识别中的应用研究 被引量:1
20
作者 田卫东 黄勇 《微电子学与计算机》 CSCD 北大核心 2015年第11期27-32,共6页
中文问句中心词识别领域中,现有方法未能有效利用依存句法中的深层统计关系.为解决此问题并探究中心词在词的多维属性上的统计关系,首次提出多维树概念,给出多维频繁模式挖掘方案并应用于中文问句中心词识别中.针对此应用给出频繁子树... 中文问句中心词识别领域中,现有方法未能有效利用依存句法中的深层统计关系.为解决此问题并探究中心词在词的多维属性上的统计关系,首次提出多维树概念,给出多维频繁模式挖掘方案并应用于中文问句中心词识别中.针对此应用给出频繁子树模式精简及规则冲突解决方案,训练出一个中文中心词识别模型.此方法是典型的客观方法,实验表明,此方法有较好的稳定性、适应性与鲁棒性,且较条件随机场模型在准确率上有进一步提高. 展开更多
关键词 条件随机场 依存关系树 频繁子树模式 模式精简 规则冲突 中心词
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部