期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
Language-Independent Text Tokenization Using Unsupervised Deep Learning
1
作者 Hanan A.Hosni Mahmoud Alaaeldin M.Hafez Eatedal Alabdulkreem 《Intelligent Automation & Soft Computing》 SCIE 2023年第1期321-334,共14页
Languages–independent text tokenization can aid in classification of languages with few sources.There is a global research effort to generate text classification for any language.Human text classification is a slow p... Languages–independent text tokenization can aid in classification of languages with few sources.There is a global research effort to generate text classification for any language.Human text classification is a slow procedure.Conse-quently,the text summary generation of different languages,using machine text classification,has been considered in recent years.There is no research on the machine text classification for many languages such as Czech,Rome,Urdu.This research proposes a cross-language text tokenization model using a Transformer technique.The proposed Transformer employs an encoder that has ten layers with self-attention encoding and a feedforward sublayer.This model improves the efficiency of text classification by providing a draft text classification for a number of documents.We also propose a novel Sub-Word tokenization model with frequent vocabulary usage in the documents.The Sub-Word Byte-Pair Tokenization technique(SBPT)utilizes the sharing of the vocabulary of one sentence with other sentences.The Sub-Word tokenization model enhances the performance of other Sub-Word tokenization models such pair encoding model by+10%using precision metric. 展开更多
关键词 Text classification language-independent tokenization sub word tokenization
下载PDF
自然语言处理领域中的词嵌入方法综述 被引量:5
2
作者 曾骏 王子威 +2 位作者 于扬 文俊浩 高旻 《计算机科学与探索》 CSCD 北大核心 2024年第1期24-43,共20页
词嵌入作为自然语言处理任务的第一步,其目的是将输入的自然语言文本转换为模型可以处理的数值向量,即词向量,也称词的分布式表示。词向量作为自然语言处理任务的根基,是完成一切自然语言处理任务的前提。然而,国内外针对词嵌入方法的... 词嵌入作为自然语言处理任务的第一步,其目的是将输入的自然语言文本转换为模型可以处理的数值向量,即词向量,也称词的分布式表示。词向量作为自然语言处理任务的根基,是完成一切自然语言处理任务的前提。然而,国内外针对词嵌入方法的综述文献大多只关注于不同词嵌入方法本身的技术路线,而未能将词嵌入的前置分词方法以及词嵌入方法完整的演变趋势进行分析与概述。以word2vec模型和Transformer模型作为划分点,从生成的词向量是否能够动态地改变其内隐的语义信息来适配输入句子的整体语义这一角度,将词嵌入方法划分为静态词嵌入方法和动态词嵌入方法,并对此展开讨论。同时,针对词嵌入中的分词方法,包括整词切分和子词切分,进行了对比和分析;针对训练词向量所使用的语言模型,从概率语言模型到神经概率语言模型再到如今的深度上下文语言模型的演化,进行了详细列举和阐述;针对预训练语言模型时使用的训练策略进行了总结和探讨。最后,总结词向量质量的评估方法,分析词嵌入方法的当前现状并对其未来发展方向进行展望。 展开更多
关键词 词向量 词嵌入方法 自然语言处理 语言模型 分词 词向量评估
下载PDF
RED-DTB: A Dual Token Bucket Based Queue Management Algorithm
3
作者 YinJian-hua CaoYang +1 位作者 LingJun HuangTian-xi 《Wuhan University Journal of Natural Sciences》 EI CAS 2003年第02A期388-392,共5页
Improving the Quality of Service (QoS) of Internet traffic is widely recognized as a critical issue for the next-generation networks. In this paper, we present a new algorithm for the active queue management, namely R... Improving the Quality of Service (QoS) of Internet traffic is widely recognized as a critical issue for the next-generation networks. In this paper, we present a new algorithm for the active queue management, namely RED-DTB. This buffer control technique is used to enforce approximate fairness among a large number of concurrent Internet flows. Like RED (Random Early Detection) algorithm, the RED-DTB mechanism can be deployed to actively respond to the gateway congestion, keep the gateway in a healthy state, and protect the fragile flows from being stolen bandwidth by greedy ones. The algorithm is based on the so-called Dual Token Bucket (DTB) pattern. That is, on the one hand, every flow is rate-limited by its own token bucket, to ensure that it can not consume more than its fair share of bandwidth; On the other hand, to make some compensations to less aggressive flows, such as connections with larger round trip time or smaller sending window, and to gain a relatively higher system utilization coefficient, all flows, depending on their individual behavior, may have a chance to fetch tokens from the public token bucket when they run out of their own share of tokens. The algorithm is analyzed and evaluated by simulations, and is proved to be effective in protecting the gateway buffer and controlling the fair allocation of bandwidth among flows. 展开更多
关键词 Key words congestion control active queue management Dual token Bucket fair bandwidth allocation network simulation
下载PDF
NMT语料库中语符不平衡度的测评研究
4
作者 王海波 余丽丽 王宏伟 《电子学报》 EI CAS CSCD 北大核心 2023年第10期2884-2893,共10页
语符不平衡是神经机器翻译(Neural Machine Translation,NMT)语料库中普遍存在的现象.评估NMT语料库的语符不平衡度对提升语料库质量和翻译效果具有重要意义.针对现有的语符不平衡度测评研究在算法和分词范围上的缺陷与不足,本文提出语... 语符不平衡是神经机器翻译(Neural Machine Translation,NMT)语料库中普遍存在的现象.评估NMT语料库的语符不平衡度对提升语料库质量和翻译效果具有重要意义.针对现有的语符不平衡度测评研究在算法和分词范围上的缺陷与不足,本文提出语符分布离散度算法(Dispersion of Token Distribution,DTD),用以计算语符不平衡度,并扩大分词范围,从字符、子词和词3种粒度对语料库进行评估.实验结果表明,该算法在准确度、有效性和鲁棒性方面较以往研究有较大提升;语料库在不同分词粒度下的语符不平衡度差异很大,其中字符粒度的语符不平衡度最大,子词粒度次之,词粒度最小. 展开更多
关键词 神经机器翻译 语料库 分词 粒度 语符不平衡度
下载PDF
兼类说反思 被引量:12
5
作者 周韧 《语言科学》 CSSCI 北大核心 2015年第5期504-516,共13页
朱德熙先生的词类观和他确立的汉语词类体系在汉语语法学界影响深远。本文认为,如果深入贯彻朱先生最主要的词类观,那么在汉语的词类划分体系当中,便不宜有兼类的概念。文章首先说明设立兼类词所依据的"数量原则"其实难以把握... 朱德熙先生的词类观和他确立的汉语词类体系在汉语语法学界影响深远。本文认为,如果深入贯彻朱先生最主要的词类观,那么在汉语的词类划分体系当中,便不宜有兼类的概念。文章首先说明设立兼类词所依据的"数量原则"其实难以把握,进而从概括词和个体词关系、词类划分标准的确定和词性标注三个方面说明兼类概念带来的理论困境。我们认为,一旦确立"汉语词类和句法成分不是一一对应关系"这一重要原则,那么设置兼类便会多多少少和这一原则产生矛盾。 展开更多
关键词 兼类 概括词和个体词 词类划分标准 词性标注
下载PDF
重复知盲效应产生的机制——来自汉语叠词加工的证据 被引量:4
6
作者 冷英 何秀丽 《心理科学》 CSSCI CSCD 北大核心 2012年第2期299-303,共5页
以汉语中的叠词为实验材料,对重复知盲产生机制的类型标记个体化理论和建构理论进行检验。采用快速系列视觉呈现(RapidSerial Visual Presentation,简称RSVP)研究范式,在两个实验中让178名被试口头报告RSVP列表中出现的所有汉字(全部报... 以汉语中的叠词为实验材料,对重复知盲产生机制的类型标记个体化理论和建构理论进行检验。采用快速系列视觉呈现(RapidSerial Visual Presentation,简称RSVP)研究范式,在两个实验中让178名被试口头报告RSVP列表中出现的所有汉字(全部报告)或列表中最后两个字(部分报告)。结果发现:(1)在呈现速率为128ms和198ms时,完全重复的汉字在全部报告任务中存在RB效应,在部分报告任务下RB效应消失了,但没有出现RP效应,符合建构理论的假设。(2)在全部报告条件下,不仅重复刺激的正确报告率会降低,而且与重复刺激相关的非重复刺激的正确报告率也会降低。研究表明建构理论比类型标记个体化理论更能解释RB效应的产生机制。 展开更多
关键词 汉语叠词 重复知盲 类型标记个体化理论 建构理论
下载PDF
称名词与表征词——广告语言名性词种研究 被引量:1
7
作者 刘惠琼 屈哨兵 《华南农业大学学报(社会科学版)》 2003年第1期97-107,共11页
文章从称名和表征两个角度讨论了广告语言中名词词种的诸种表现。共四部分 ,首先对词种及名性词种进行界定与划分 ,第二讨论称名词 ,分析商品名称词的类名表现的基本类型和品牌名意义获取的基本途径及在广告语言中的表现方法 ;第三讨论... 文章从称名和表征两个角度讨论了广告语言中名词词种的诸种表现。共四部分 ,首先对词种及名性词种进行界定与划分 ,第二讨论称名词 ,分析商品名称词的类名表现的基本类型和品牌名意义获取的基本途径及在广告语言中的表现方法 ;第三讨论表征词 ,分析了广告语言中表征词意义系统的获取与开发可能及相关表现 ,列举分析了几类重要的表证词 :场景词、质项词、症象词、结果词、格品词 ; 展开更多
关键词 广告语言 名性词种 称名词 表证词
下载PDF
词汇能力评测的立体观 被引量:3
8
作者 赵守辉 《暨南大学华文学院学报》 CSSCI 2008年第2期22-30,56,共10页
本文考察语言学习中的一个重要组成部分——词汇能力。关于语言学习者的词汇能力,传统上一般以词汇总量为衡量标准。这里我们力图强调可以代表词语能力的其他几个方面,并试图说明,词汇总量实际上只是评估词语能力的一个最直观常用的指标... 本文考察语言学习中的一个重要组成部分——词汇能力。关于语言学习者的词汇能力,传统上一般以词汇总量为衡量标准。这里我们力图强调可以代表词语能力的其他几个方面,并试图说明,词汇总量实际上只是评估词语能力的一个最直观常用的指标,只有结合其他几个侧面,特别是词语的丰富度和词语的个性(或难度),多侧面立体看待词汇发展,才能全面准确地了解一个语言学习者在词语方面的发展。本文着重介绍评价国际上比较通行的几种词汇评测手段,希望对我们的对外汉语教学实践有所启迪。 展开更多
关键词 词种 词数 丰富度 词汇难度(或个性) 语言学习 表达能力
下载PDF
开源中文分词器在web搜索引擎中的应用 被引量:12
9
作者 刘晓婉 胡燕祝 艾新波 《软件》 2013年第3期80-83,共4页
目前,在信息检索方面,一般分词器对英文的支持相对较好,但对中文分词效果不太理想;随着web搜索在互联网中的广泛应用,中文分词器也出现了突飞猛进的发展,尤其以IKAnalyzer分词器为主的分词工具,为更多企事业单位所采纳。本文主要在词条... 目前,在信息检索方面,一般分词器对英文的支持相对较好,但对中文分词效果不太理想;随着web搜索在互联网中的广泛应用,中文分词器也出现了突飞猛进的发展,尤其以IKAnalyzer分词器为主的分词工具,为更多企事业单位所采纳。本文主要在词条化等方面对分词原理进行深入的分析,并且对如何构造智能分词词典进行了探讨。同时,对分词内部结构进行研究,在分词数目和速率方面对目前主流的中文分词器进行了比较,并运用htmlparser库对北京邮电大学的网站进行解析,采用分词工具Paoding Analysis建立索引文件存入本地,利用solt4.0全文搜索服务器给出运用中文分词后的查询效果图,实现对北京邮电大学网站的全文搜索功能。 展开更多
关键词 分词器 WEB搜索 信息检索 智能分词 全文搜索
下载PDF
英语专业学生产出性词汇发展的实验研究 被引量:2
10
作者 童淑华 张文忠 《湘潭师范学院学报(社会科学版)》 2004年第2期108-113,共6页
通过对英语专业学生的产出性(口语)词汇的实证调查表明:受试者在大学的英语学习过程中不断扩大产出词汇。词类、词标和词汇密度三类指标连续上升;词频概貌的发展体现在第一个最常用的1000词目,第二个最常用的1000词目和3000以外的词目,... 通过对英语专业学生的产出性(口语)词汇的实证调查表明:受试者在大学的英语学习过程中不断扩大产出词汇。词类、词标和词汇密度三类指标连续上升;词频概貌的发展体现在第一个最常用的1000词目,第二个最常用的1000词目和3000以外的词目,在0.05的置信水平上,3000以外词目的增长有显著意义,但第三个最常用的1000词目指标的结果呈非连续性的发展趋势;词汇变体的结果在下降之后微弱上升。 展开更多
关键词 产出性词汇 英语教学 大学 心理机制 课堂教学 词类 词标 词汇密度
下载PDF
文字的起源 被引量:11
11
作者 郑也夫 《北京社会科学》 CSSCI 北大核心 2014年第10期4-34,共31页
本文从文字的定义开端,分析了亚里士多德与杨雄的定义,莱布尼茨、德里达与索绪尔的分野,以及唐兰、陈梦家的文字学思想。文章认为陶符不是文字,反驳了文字起源的"约定俗成"说,指出启动文字的最初社会系统非国家权力莫属。既... 本文从文字的定义开端,分析了亚里士多德与杨雄的定义,莱布尼茨、德里达与索绪尔的分野,以及唐兰、陈梦家的文字学思想。文章认为陶符不是文字,反驳了文字起源的"约定俗成"说,指出启动文字的最初社会系统非国家权力莫属。既而分析了对两河流域文字起源做出解释的泥筹理论,提出经济生活的需要不是文字产生的充分条件,国家管理机构是文字产生的第一推手。文章分析了商代甲骨文及贞人集团,进而论证了"文字的孕育很可能是一个漫长期和一个短暂期之结合,前者是多种视觉符号形式(包括陶符)的呈现期,后者是文字系统的初创时"的观点。文章还比较了埃及象形文字与中文的构造法,特别是两种声借方式的差异,讨论了何以前者能够诱发字母的产生。文章最后阐释了汉字与希腊字母文字对东西方文明差异的影响,并指出:在人类的智力生活中,无论过去、现在、还是未来,无论在微观上还是宏观上,口语与文字的并重,都是至关重要的。 展开更多
关键词 文字起源 泥筹 贞人 声借 字母
下载PDF
语音合成中的文本归一化问题 被引量:1
12
作者 冯志伟 《北华大学学报(社会科学版)》 2010年第2期41-49,共9页
文本归一化是语音合成中一个与语言规划联系最为密切的问题。英语文本归一化的3个任务是:句子的词例还原,非标准词的处理,同形异义词的排歧。根据汉语语音合成的实际,汉语文本归一化应当解决的问题是:汉语文本的词例还原,汉语文本非标... 文本归一化是语音合成中一个与语言规划联系最为密切的问题。英语文本归一化的3个任务是:句子的词例还原,非标准词的处理,同形异义词的排歧。根据汉语语音合成的实际,汉语文本归一化应当解决的问题是:汉语文本的词例还原,汉语文本非标准词的处理,汉语文本同形异义词的排歧。此外,还应注意汉语语音合成中特殊韵律现象的处理。 展开更多
关键词 语音合成 词例还原 非标准词 同形异义词 排歧 韵律
下载PDF
维-汉统计机器翻译中维吾尔语预处理研究 被引量:3
13
作者 艾孜孜.吐尔逊 杨雅婷 +2 位作者 吐尔洪.吾司曼 周俊林 李晓 《计算机工程与设计》 CSCD 北大核心 2014年第11期4034-4039,共6页
为有效降低维-汉统计机器翻译中语料质量对翻译质量的影响,对维吾尔语文本预处理技术进行研究,结合维吾尔语文本语料的语言特征和多样性,提出基于语法规则和词法规则结合的维吾尔语文本预处理方法。在对维吾尔语文本中的语义单元、对偶... 为有效降低维-汉统计机器翻译中语料质量对翻译质量的影响,对维吾尔语文本预处理技术进行研究,结合维吾尔语文本语料的语言特征和多样性,提出基于语法规则和词法规则结合的维吾尔语文本预处理方法。在对维吾尔语文本中的语义单元、对偶词和标点符号进行特征分析的基础上,导出维吾尔语文本词例化和标点符号规范化的规则和处理流程。实验结果表明,该研究有效降低了词对齐阶段的单词数量、缓解了数据稀疏,提高了翻译质量。 展开更多
关键词 维汉机器翻译 维吾尔语 单词 词例化 标点符号
下载PDF
基于平行语料库的《红楼梦》英译本文体风格研究
14
作者 李敏杰 朱薇 《电子科技大学学报(社科版)》 2012年第3期90-94,共5页
已有的《红楼梦》英译研究多属赏析性研究,主观性较强,在深度和广度上都远远不够。基于《红楼梦》汉英平行语料库,研究者可以统计霍译本和杨译本的形符数、类符/形符比、平均词长、高频词、平均句长等,发现两者的不同特点。总体上,较之... 已有的《红楼梦》英译研究多属赏析性研究,主观性较强,在深度和广度上都远远不够。基于《红楼梦》汉英平行语料库,研究者可以统计霍译本和杨译本的形符数、类符/形符比、平均词长、高频词、平均句长等,发现两者的不同特点。总体上,较之杨译本,霍译本显化特征更明显,这有利于西方读者的理解和接受;杨译本更强调译作对原作的重视,同时更强调译作的文学性,因而表达方式更加丰富、生动。 展开更多
关键词 红楼梦 语料库 形符/类符比 平均词长 平均句长
下载PDF
基于最大熵和HMM的藏文新词识别对比研究 被引量:2
15
作者 色差甲 贡保才让 才让加 《青海师范大学学报(自然科学版)》 2018年第1期12-16,共5页
藏文新词在科技、新闻和网络等领域不断出现,对藏文自动分析带来了挑战.本文将使用序列标注方法来识别藏文新词,首先用规则方式将时间词、数词、后接成份嵌入到统计模型中,然后利用统计学习的方法对包括新闻、法律、小说、诗歌、中小学... 藏文新词在科技、新闻和网络等领域不断出现,对藏文自动分析带来了挑战.本文将使用序列标注方法来识别藏文新词,首先用规则方式将时间词、数词、后接成份嵌入到统计模型中,然后利用统计学习的方法对包括新闻、法律、小说、诗歌、中小学教材和地名等多种题材的共15万藏文句子进行统计建模,最后对3087句(其中包含12348个新词)开放语料进行测试,实验结果表明将规则嵌人到最大熵模型比嵌入到HMM模型中的正确率、召回率、F值分别高1.772、0.3905、1.0912个百分点,对于藏文新词识别最大熵模型优于HMM模型. 展开更多
关键词 藏文新词 最大熵模型 HMM模型 自动分词
下载PDF
基于BERT-CRF的领域词向量生成研究 被引量:2
16
作者 郭振东 林民 +1 位作者 李成城 赵佳鹏 《计算机工程与应用》 CSCD 北大核心 2022年第21期156-162,共7页
如何在中文BERT字向量基础上进一步得到高质量的领域词向量表示,用于各种以领域分词为基础的文本分析任务是一个亟待解决的问题。提出了一种基于BERT的领域词向量生成方法。建立一个BERT-CRF领域分词器,在预训练BERT字向量基础上结合领... 如何在中文BERT字向量基础上进一步得到高质量的领域词向量表示,用于各种以领域分词为基础的文本分析任务是一个亟待解决的问题。提出了一种基于BERT的领域词向量生成方法。建立一个BERT-CRF领域分词器,在预训练BERT字向量基础上结合领域文本进行fine-tuning和领域分词学习;通过领域分词解码结果进一步得到领域词向量表示。实验表明,该方法仅利用少量的领域文本就可以学习出符合领域任务需求的分词器模型,并能获得相比原始BERT更高质量的领域词向量。 展开更多
关键词 BERT 领域分词器 领域词向量 条件随机场 词向量可视化
下载PDF
2008—2017年江苏省高考英语阅读理解文本的词汇研究 被引量:5
17
作者 王蓉 《教育测量与评价》 2018年第1期19-25,53,共8页
本文使用语料软件Wordsmith、赋码软件Treetagger,对2008—2017年江苏省高考英语40篇阅读理解文本的词汇进行了研究。结果表明:(1)不同体裁文本的类符形符比有一定差异,应用文相对较高,记叙文较低,每一年度的文本总量类符形符比差异不大... 本文使用语料软件Wordsmith、赋码软件Treetagger,对2008—2017年江苏省高考英语40篇阅读理解文本的词汇进行了研究。结果表明:(1)不同体裁文本的类符形符比有一定差异,应用文相对较高,记叙文较低,每一年度的文本总量类符形符比差异不大,十年文本总的类符形符比为21%;(2)文本词汇的整体分布以实词为主,功能词为辅,功能词位居高频词的首位且重复率高;(3)功能词对构建文本有一定意义,主要表现在介词to、从属连词和情态动词等上。基于研究发现,命题人员有必要进一步优化试卷结构,使得阅读文本的布局更加合理,体裁和题材更全面;高中英语教师应从体裁、词汇广度、词块和功能词等方面着手,提高阅读教学的有效性。 展开更多
关键词 高考英语 阅读理解 类符形符比 高频词 词汇分布
下载PDF
阿拉伯文文本预处理方法研究综述
18
作者 罗姝匀 于娟 《情报探索》 2021年第7期122-128,共7页
[目的/意义]旨在促进阿拉伯文文本挖掘的研究与应用,为其他学者提供参考。[方法/过程]概述阿拉伯文的基本特征与语法规则,从分词、词性标注、词干提取、词形还原四个方面对比分析阿拉伯文文本预处理方法及主流应用,并指出现有研究的不... [目的/意义]旨在促进阿拉伯文文本挖掘的研究与应用,为其他学者提供参考。[方法/过程]概述阿拉伯文的基本特征与语法规则,从分词、词性标注、词干提取、词形还原四个方面对比分析阿拉伯文文本预处理方法及主流应用,并指出现有研究的不足与未来研究方向。[结果/结论]未来研究中,可以通过完善词典、改进词义消歧效果等方法进一步提高阿拉伯文文本预处理的效率和准确率。 展开更多
关键词 阿拉伯文 文本预处理 阿拉伯文分词 词性标注 词干提取 词形还原
下载PDF
英语名词、动词、形容词的转类现象及认知阐释 被引量:2
19
作者 卢美艳 《西安外国语大学学报》 CSSCI 2018年第2期24-28,共5页
借助2011年出版的《简明牛津英语词典》的词类标注,我们收集到7406个转类词。在对其中与名词、动词、形容词相关的转类词进行研究后,我们把它们分为名—动、名—形、动—形、名—动—形、名—副、动—副、形—副等66种类型。通过分析这... 借助2011年出版的《简明牛津英语词典》的词类标注,我们收集到7406个转类词。在对其中与名词、动词、形容词相关的转类词进行研究后,我们把它们分为名—动、名—形、动—形、名—动—形、名—副、动—副、形—副等66种类型。通过分析这些转类词的特点和表现,我们发现英语词汇形成转类词必须具备两个基本条件:第一,词义概念具有二元结构,具备转类引申的基础;第二,词素语义具备转喻视角化的特点,能提供正确的联想。 展开更多
关键词 英语转类词 符号概念 类概念 转喻视角化
原文传递
理解时间与语言的关系——赖兴巴赫的RES理论视角 被引量:1
20
作者 叶起昌 赵新 《外语学刊》 CSSCI 北大核心 2016年第1期15-20,共6页
本文追溯和梳理RES理论,明确该理论源于分析哲学并属于B-系列理论,阐释其目的及其对语言学界的影响。同时,本文强调时间本体在研究语言与时间关系中的重要性以及RES理论对研究上述关系所具有的启迪作用。
关键词 时态 反身型符词 RES 静态理论 动态理论
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部