期刊文献+
共找到250篇文章
< 1 2 13 >
每页显示 20 50 100
Animal Words: Parts of Speech and Metaphoricity
1
作者 许焕荣 《海外英语》 2015年第23期261-263,共3页
The study in this paper belongs to the field of the grammar of metaphor. Six types of animal words were investigated in order to find the connection between their parts of speech and metaphorical relationship by apply... The study in this paper belongs to the field of the grammar of metaphor. Six types of animal words were investigated in order to find the connection between their parts of speech and metaphorical relationship by applying the British National Corpus in combination with Collins Dictionary. It is found that not all verbs formed via conversion from nominal animal words carry the conceptual features of the animal entities, and in this case, the resultant verbs do not form metaphors. Where the verbs carry over the conceptual features of the nominal animal words, metaphors will occur. Of course, there are a few exceptions, like fish in fish for, which forms a metaphor though fish as a verb here does not carry over the conceptual features of the nominal fish.As to adjectives and adverbs derived from nominal animal words, they form metaphors in most cases by carrying over the conceptual features of the relevant animals. The study can be broadened to other entity nouns in order to find regularities about when their derivatives form metaphoricity. 展开更多
关键词 ANIMAL words parts of speech metaphoricity
下载PDF
Improve Neural Machine Translation by Building Word Vector with Part of Speech 被引量:2
2
作者 Jinyingming Zhang Jin Liu Xinyue Lin 《Journal on Artificial Intelligence》 2020年第2期79-88,共10页
Neural Machine Translation(NMT)based system is an important technology for translation applications.However,there is plenty of rooms for the improvement of NMT.In the process of NMT,traditional word vector cannot dist... Neural Machine Translation(NMT)based system is an important technology for translation applications.However,there is plenty of rooms for the improvement of NMT.In the process of NMT,traditional word vector cannot distinguish the same words under different parts of speech(POS).Aiming to alleviate this problem,this paper proposed a new word vector training method based on POS feature.It can efficiently improve the quality of translation by adding POS feature to the training process of word vectors.In the experiments,we conducted extensive experiments to evaluate our methods.The experimental result shows that the proposed method is beneficial to improve the quality of translation from English into Chinese. 展开更多
关键词 Machine translation parts of speech word vector
下载PDF
A New Part-of-Speech Tagging System Based on Closed-words,Word Form and Rules
3
作者 吴岩 李修昆 王开铸 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 1999年第1期43-45,共3页
A method of part-of-speech tagging of English text based on closed-words, wold-form and rules, its abstract model and formal description of its realizing procedure are presented. Finally, an experimental example is gi... A method of part-of-speech tagging of English text based on closed-words, wold-form and rules, its abstract model and formal description of its realizing procedure are presented. Finally, an experimental example is givento illustrate the application of this method. 展开更多
关键词 Part-of-speech tagging closed-words
下载PDF
合成语音与自然语音的音高差异——从18种语言核心词看合成语音的音高特点
4
作者 王帅 《天津外国语大学学报》 2024年第5期88-98,F0003,共12页
论文以18种语言核心词的合成语音和自然语音为研究对象,从音高均值、最大值、最小值、标准差以及单位时间内词的音高变化幅度分析了合成语音和自然语音的音高表现,考察了合成语音的音高特点。整体看来,较之自然语音,合成语音的整体音高... 论文以18种语言核心词的合成语音和自然语音为研究对象,从音高均值、最大值、最小值、标准差以及单位时间内词的音高变化幅度分析了合成语音和自然语音的音高表现,考察了合成语音的音高特点。整体看来,较之自然语音,合成语音的整体音高均值低于自然语音。在具体的语言中,合成语音的音高表现存在语言间的差异,部分语言的合成语音和自然语音的音高表现非常接近,而部分语言的合成语音和自然语音的音高表现呈现出了较大的差异。就单位时间内词音高的变化幅度而言,大部分语言的合成语音词音高变化幅度大于自然语音的词音高变化幅度,这种情况与合成语音中的词音高曲线存在畸变的现象有关。 展开更多
关键词 核心词 合成语音 自然语音 音高差异
下载PDF
基于词性标注的启发式在线日志解析方法 被引量:2
5
作者 蒋金钊 傅媛媛 徐建 《计算机应用研究》 CSCD 北大核心 2024年第1期217-221,共5页
为了解决现有启发式日志解析方法中日志特征表示区分能力不足导致解析精度低、泛化差的问题,提出了一种启发式在线日志解析方法PosParser。该方法使用来源于触发词概念的功能词序列作为特征表示,包含解决复杂日志易过度解析问题的两阶... 为了解决现有启发式日志解析方法中日志特征表示区分能力不足导致解析精度低、泛化差的问题,提出了一种启发式在线日志解析方法PosParser。该方法使用来源于触发词概念的功能词序列作为特征表示,包含解决复杂日志易过度解析问题的两阶段检测方法和处理变长参数日志的后处理流程。PosParser在16个真实日志数据集上取得了0.952的平均解析准确率,证明了功能词序列具有良好区分性、PosParser有良好的解析效果和鲁棒性。 展开更多
关键词 日志分析 日志解析 触发词提取 词性标注 系统运维
下载PDF
基于局部Transformer的泰语分词和词性标注联合模型
6
作者 朱叶芬 线岩团 +1 位作者 余正涛 相艳 《智能系统学报》 CSCD 北大核心 2024年第2期401-410,共10页
泰语分词和词性标注任务二者之间存在高关联性,已有研究表明将分词和词性标注任务进行联合学习可以有效提升模型性能,为此,提出了一种针对泰语拼写和构词特点的分词和词性标注联合模型。针对泰语中字符构成音节,音节组成词语的特点,采... 泰语分词和词性标注任务二者之间存在高关联性,已有研究表明将分词和词性标注任务进行联合学习可以有效提升模型性能,为此,提出了一种针对泰语拼写和构词特点的分词和词性标注联合模型。针对泰语中字符构成音节,音节组成词语的特点,采用局部Transformer网络从音节序列中学习分词特征;考虑到词根和词缀等音节与词性的关联,将用于分词的音节特征融入词语序列特征,缓解未知词的词性标注特征缺失问题。在此基础上,模型采用线性分类层预测分词标签,采用线性条件随机场建模词性序列的依赖关系。在泰语数据集LST20上的试验结果表明,模型分词F1、词性标注微平均F1和宏平均F1分别达到96.33%、97.06%和85.98%,相较基线模型分别提升了0.33%、0.44%和0.12%。 展开更多
关键词 泰语分词 词性标注 联合学习 局部Transformer 构词特点 音节特征 线性条件随机场 联合模型
下载PDF
武威汉代医简虚词研究
7
作者 徐玉玉 《文化创新比较研究》 2024年第21期58-65,共8页
汉语虚词在语法结构方面起着重要的作用,是重要的语法手段。学术界对武威汉代医简的研究多注重其医学价值,语言文字角度的研究多是古文字领域内的文字考释,虚词研究的成果不多见。该文试图对武威汉代医简的虚词首次做全面的调查和整理,... 汉语虚词在语法结构方面起着重要的作用,是重要的语法手段。学术界对武威汉代医简的研究多注重其医学价值,语言文字角度的研究多是古文字领域内的文字考释,虚词研究的成果不多见。该文试图对武威汉代医简的虚词首次做全面的调查和整理,这是汉语史领域有意义的工作,不足之处还请各方指正。汉语是一种非形态语言,虚词是重要的表示语法意义的语法形式,虚词的研究在古籍作品研究领域一直具有较高价值。经过整理,发现武威汉代医简共出现虚词74个,总使用量为497例,由于武威汉代医简92枚医学简册多记载医方,对话少,所以其中出现的语气词、叹词不多,副词是武威汉代医简虚词中使用最多的一类虚词,其次是介词和连词。 展开更多
关键词 武威汉代医简 虚词 语法 词性 先秦汉语 总数可观
下载PDF
融合词性、语义及词序因子的中文短文本相似度计算方法
8
作者 祖月芳 凌海风 +2 位作者 汤润之 翟仕奇 王涛 《计算机与数字工程》 2024年第8期2420-2424,2468,共6页
论文针对中文短文本特性,综合考虑词性、词序和语义等因素提出了一种新的文本相似度计算方法[1]。这种方法是在余弦相似度的基础上计算中文短文本的语义相似度,并通过加权词性、词序权重优化相似度计算结果。实验证明,论文的方法与其他... 论文针对中文短文本特性,综合考虑词性、词序和语义等因素提出了一种新的文本相似度计算方法[1]。这种方法是在余弦相似度的基础上计算中文短文本的语义相似度,并通过加权词性、词序权重优化相似度计算结果。实验证明,论文的方法与其他方法相比,准确率和召回率有了显著提高,获得的相似度结果更具说服力。 展开更多
关键词 中文短文本相似度 词性 词序 语义
下载PDF
汉英词典中怀疑类词的词类标注问题
9
作者 赵云梅 《鲁东大学学报(哲学社会科学版)》 2024年第5期1-8,共8页
词类标注是汉英词典编撰不可回避的问题。怀疑类词具有丰富的语义层次和复杂的语法功能,但目前缺乏基于词典怀疑类词的词类标注现状调查和深入分析。通过对5部汉语/汉英词典中怀疑类词的词类标注调查,可以发现汉英词典中怀疑类词的词类... 词类标注是汉英词典编撰不可回避的问题。怀疑类词具有丰富的语义层次和复杂的语法功能,但目前缺乏基于词典怀疑类词的词类标注现状调查和深入分析。通过对5部汉语/汉英词典中怀疑类词的词类标注调查,可以发现汉英词典中怀疑类词的词类标注分歧的原因。汉英词典中词类标注应尊重语言事实,同时词类标注应基于语料库大数据进行用法调查,并根据词类的规约化程度将其归入所属的常规词类,从而提高汉英词典编撰的质量。 展开更多
关键词 汉英词典 怀疑类词 词类标注 语料库
下载PDF
基于BERT的金融文本情感分析模型 被引量:6
10
作者 朱鹤 陆小锋 薛雷 《上海大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第1期118-128,共11页
在金融领域,越来越多的投资者选择在互联网平台上发表自己的见解.这些评论文本作为舆情的载体,可以充分反映投资者情绪,影响投资决策和市场走势.情感分析作为自然语言处理(natural language processing,NLP)中重要的分支,为分析海量的... 在金融领域,越来越多的投资者选择在互联网平台上发表自己的见解.这些评论文本作为舆情的载体,可以充分反映投资者情绪,影响投资决策和市场走势.情感分析作为自然语言处理(natural language processing,NLP)中重要的分支,为分析海量的金融文本情感类型提供了有效的研究手段.由于特定领域文本的专业性和大标签数据集的不适用性,金融文本的情感分析是对传统情感分析模型的巨大挑战,传统模型在准确率与召回率上表现较差.为了克服这些挑战,针对金融文本的情感分析任务,从词表示模型出发,提出了基于金融领域的全词覆盖与特征增强的BERT(bidirectional encoder representations from Transformers)预处理模型. 展开更多
关键词 情感分析 词嵌入向量 BERT 词性特征 命名实体识别
下载PDF
上古汉语分词与词性标注加工规范——基于《史记》深加工语料库的标注实践 被引量:1
11
作者 郑童哲恒 李斌 《语言文字应用》 CSSCI 北大核心 2023年第4期93-104,共12页
上古(先秦两汉)时期流传至今的古籍经典数量大、价值高,亟需进行计算处理和挖掘,作为词法分析的分词与词性标注就成为古汉语信息处理的基础性工作。古汉语文本具有缺乏词语边界、内容艰深、与现代汉语差异大、不同时期差异大等特点,古... 上古(先秦两汉)时期流传至今的古籍经典数量大、价值高,亟需进行计算处理和挖掘,作为词法分析的分词与词性标注就成为古汉语信息处理的基础性工作。古汉语文本具有缺乏词语边界、内容艰深、与现代汉语差异大、不同时期差异大等特点,古文分词与词性标注一直处于研究不足、缺乏标注规范的状态,限制了语料库构建和自动分析的研究。本文针对这一问题,根据现代汉语研究领域相关成果以及上古汉语词汇特点,构建出信息处理用上古汉语分词与词性标注规范。规范由原则和细则两部分组成。原则部分包括单字词优先等7条分词原则,具体语境中的语法功能等3条词类划分及词性标注原则。古汉语词类划分为14个一级类和15个二级类,细则部分包含了大量语言现象标注实例。该规范在45万余字《史记》语料库的建设过程中不断修改完善。语料统计得出了《史记》单字词和多字词的词例数量以及最高频词类。本文可以为上古汉语深加工语料库建设提供基础支撑,助推古汉语信息处理标准化和规范化。 展开更多
关键词 上古汉语 词语切分 词性标注 规范 《史记》
下载PDF
基于结巴分词的领域自适应分词方法研究 被引量:5
12
作者 邢玲 程兵 《计算机仿真》 北大核心 2023年第4期310-316,503,共8页
利用Jieba分词(结巴分词)对中文文本进行分词时,对于领域词组分词效果不是很理想,需要通过加载自定义词典解决这个问题。提出一种领域自适应分词方法,将结巴分词后相邻词语组合为词组,利用标准化点互信息(NPMI)及词频统计两种方法分别... 利用Jieba分词(结巴分词)对中文文本进行分词时,对于领域词组分词效果不是很理想,需要通过加载自定义词典解决这个问题。提出一种领域自适应分词方法,将结巴分词后相邻词语组合为词组,利用标准化点互信息(NPMI)及词频统计两种方法分别计算词组凝聚度,利用左右信息熵计算词组自由度,通过设定凝聚度与自由度阈值识别领域词组,利用文中提出的词性约束规则进一步筛选词组,将得到的词组作为自定义词典加入到结巴分词中,再次对文本进行分词。通过在自己构建的金融和法律领域语料库进行实验,证明了所提算法可以有效发现领域词组,利用该算法进行领域分词时,准确率和召回率高于只利用结巴分词的准确率和召回率。最后提出了一种基于区分不同领域的领域自适应分词算法评价方法。实验结果表明,上述算法能够有效区分不同领域,即可以有效实现领域分词。 展开更多
关键词 结巴分词 领域自适应 标准化点互信息 词频统计 左右信息熵 词性约束
下载PDF
基于BiLSTM-CRF的中文分词和词性标注联合方法 被引量:3
13
作者 袁里驰 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第8期3145-3153,共9页
针对中文分词、词性标注等序列标注任务,提出结合双向长短时记忆模型、条件随机场模型和马尔可夫族模型或树形概率构建的中文分词和词性标注联合方法。隐马尔可夫词性标注方法忽略了词本身到词性的发射概率。在基于马尔可夫族模型或树... 针对中文分词、词性标注等序列标注任务,提出结合双向长短时记忆模型、条件随机场模型和马尔可夫族模型或树形概率构建的中文分词和词性标注联合方法。隐马尔可夫词性标注方法忽略了词本身到词性的发射概率。在基于马尔可夫族模型或树形概率的词性标注中,当前词的词性不但与前面词的词性有关,而且与当前词本身有关。使用联合方法有助于使用词性标注信息实现分词,有机地将两者结合起来有利于消除歧义和提高分词、词性标注任务的准确率。实验结果表明:本文使用的中文分词和词性标注联合方法相比于通常的双向长短时记忆模型−条件随机场分词模型能够大幅度提高分词的准确率,并且相比于传统的隐马尔可夫词性标注方法能够大幅度提高词性标注的准确率。 展开更多
关键词 双向长短时记忆模型 中文分词 词性标注 马尔可夫族模型 树形概率
下载PDF
基于BERT-BiLSTM-CRF的中文分词和词性标注联合方法 被引量:4
14
作者 袁里驰 《小型微型计算机系统》 CSCD 北大核心 2023年第9期1906-1911,共6页
针对中文分词、词性标注等序列标注任务,本文提出了结合BERT语言模型、BiLSTM(双向长短时记忆模型)、CRF(条件随机场模型)和马尔可夫族模型(MFM)或树形概率(TLP)构建的中文分词和词性标注联合方法.隐马尔可夫(HMM)词性标注方法忽略了词... 针对中文分词、词性标注等序列标注任务,本文提出了结合BERT语言模型、BiLSTM(双向长短时记忆模型)、CRF(条件随机场模型)和马尔可夫族模型(MFM)或树形概率(TLP)构建的中文分词和词性标注联合方法.隐马尔可夫(HMM)词性标注方法忽略了词本身到词性的发射概率,而在利用树形概率或马尔可夫族统计模型的词性标记中,一个词的词性不仅和该词前一个词的词性关联,且与该词自身关联.使用联合方法有助于使用词性信息帮助分词,将两者紧密结合能够帮助消除歧义和改进分词、词性标记的性能.实验结果表明本文使用的中文分词和词性标注联合方法与普通的BiLSTM-CRF分词算法相比,可以明显提升分词性能,而且相比于通常的隐马尔可夫词性标注方法能够大幅度提高词性标注的准确率. 展开更多
关键词 BERT 双向长短时记忆模型 中文分词 词性标注 马尔可夫族模型 树形概率
下载PDF
“私下”和“私自”的差异与关联
15
作者 高翀 《台州学院学报》 2023年第2期67-72,89,共7页
“私下”和“私自”在词性和词义上都有较大差异,但在实际运用中常出现两者混用的现象。这是由于“私下”和“私自”在使用形式和意义上具有隐性关联,因此一定条件下可以替换。现有语文辞书对“私下“”私自”的标注和释义定论不一的现... “私下”和“私自”在词性和词义上都有较大差异,但在实际运用中常出现两者混用的现象。这是由于“私下”和“私自”在使用形式和意义上具有隐性关联,因此一定条件下可以替换。现有语文辞书对“私下“”私自”的标注和释义定论不一的现象,也随着对“私下“”私自”的进一步认识而做了修改。 展开更多
关键词 私下 私自 词性 词义 词典释义
下载PDF
郭店楚简虚词调查及相关词类比较
16
作者 张卉 邓跃敏 《阿坝师范学院学报》 2023年第1期93-103,共11页
研究郭店楚简虚词及其在语法史中的发展阶段,可以更精确地解释文献内容。为此全面梳理郭店楚简词类,把虚词分为介词、连词、结构助词和语气词,描述其语法功能和语法意义,呈现郭店楚简虚词框架,为语法研究提供资料。从所处结构、意义等... 研究郭店楚简虚词及其在语法史中的发展阶段,可以更精确地解释文献内容。为此全面梳理郭店楚简词类,把虚词分为介词、连词、结构助词和语气词,描述其语法功能和语法意义,呈现郭店楚简虚词框架,为语法研究提供资料。从所处结构、意义等方面对介词与动词,单音连词与相关词类,结构助词与代词作共时的比较分析,说明双音连词的性质及成因,以厘清虚词用法,为考察词和词类的演变提供线索。 展开更多
关键词 郭店楚简 虚词 调查 词类比较
下载PDF
北京大学现代汉语语料库基本加工规范 被引量:126
17
作者 俞士汶 段慧明 +1 位作者 朱学锋 孙斌 《中文信息学报》 CSCD 北大核心 2002年第5期49-64,共16页
北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语... 北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉,更广泛地向专家、同行征询意见,以便进一步修订。 展开更多
关键词 北京大学 现代汉语语料库 基本加工规范 词语切分 词性标注 汉字处理系统 名词标注 语素子类标注
下载PDF
北京大学现代汉语语料库基本加工规范(续) 被引量:18
18
作者 俞士汶 段慧明 +1 位作者 朱学锋 孙斌 《中文信息学报》 CSCD 北大核心 2002年第6期58-65,共8页
北京大学计算语言学研究所已经完成了一个有 2 70 0万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外 ,还包括专有名词 (人名、地名、团体机构名称等 )标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规... 北京大学计算语言学研究所已经完成了一个有 2 70 0万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外 ,还包括专有名词 (人名、地名、团体机构名称等 )标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉 ,更广泛地向专家、同行征询意见 ,以便进一步修订。 展开更多
关键词 北京大学 现代汉语语料库 加工规范 词语切分 词性标注 名词标注 汉字处理系统
下载PDF
基于多知识源的中文词法分析系统 被引量:29
19
作者 姜维 王晓龙 +1 位作者 关毅 赵健 《计算机学报》 EI CSCD 北大核心 2007年第1期137-145,共9页
汉语词法分析是中文自然语言处理的首要任务.文中深入研究中文分词、词性标注、命名实体识别所面临的问题及相互之间的协作关系,并阐述了一个基于混合语言模型构建的实用汉语词法分析系统.该系统采用了多种语言模型,有针对性地处理词法... 汉语词法分析是中文自然语言处理的首要任务.文中深入研究中文分词、词性标注、命名实体识别所面临的问题及相互之间的协作关系,并阐述了一个基于混合语言模型构建的实用汉语词法分析系统.该系统采用了多种语言模型,有针对性地处理词法分析所面临的各个问题.其中分词系统参加了2005年第二届国际汉语分词评测,在微软亚洲研究院、北京大学语料库开放测试中,分别获得F量度为97.2%与96.7%.而在北京大学标注的《人民日报》语料库的开放评测中,词性标注获得96.1%的精确率,命名实体识别获得的F量度值为88.6%. 展开更多
关键词 词法分析 汉语分词 词性标注 命名实体识别 语言模型
下载PDF
TIP-LAS:一个开源的藏文分词词性标注系统 被引量:27
20
作者 李亚超 江静 +1 位作者 加羊吉 于洪志 《中文信息学报》 CSCD 北大核心 2015年第6期203-207,共5页
TIP-LAS是一个开源的藏文分词词性标注系统,提供藏文分词、词性标注功能。该系统基于条件随机场模型实现基于音节标注的藏文分词系统,采用最大熵模型,并融合音节特征,实现藏文词性标注系统。经过试验及对比分析,藏文分词系统和词性标注... TIP-LAS是一个开源的藏文分词词性标注系统,提供藏文分词、词性标注功能。该系统基于条件随机场模型实现基于音节标注的藏文分词系统,采用最大熵模型,并融合音节特征,实现藏文词性标注系统。经过试验及对比分析,藏文分词系统和词性标注系统取得了较好的实验效果,系统的源代码可以从网上获取。希望该研究可以推动藏文分词、词性标注等基础工作的发展,提供一个可以比较、共享的研究平台。 展开更多
关键词 藏文 分词 词性标注 条件随机场 最大熵
下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部