期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
融合乌尔都语词性序列预测的汉乌神经机器翻译
1
作者 陈欢欢 王剑 Muhammad Naeem Ul Hassan 《计算机工程与科学》 CSCD 北大核心 2024年第3期518-524,共7页
面向南亚和东南亚的小语种机器翻译,目前已有不少研究团队开展了深入研究,但作为巴基斯坦官方语言的乌尔都语,由于稀缺的数据资源和与汉语之间的巨大差距,有针对性的汉乌机器翻译方法研究非常稀少。针对这种情况,提出了基于Transformer... 面向南亚和东南亚的小语种机器翻译,目前已有不少研究团队开展了深入研究,但作为巴基斯坦官方语言的乌尔都语,由于稀缺的数据资源和与汉语之间的巨大差距,有针对性的汉乌机器翻译方法研究非常稀少。针对这种情况,提出了基于Transformer的融合乌尔都语词性序列的汉乌神经机器翻译模型。首先利用Transformer对目标语言乌尔都语的词性序列进行预测,然后将翻译模型的预测结果和词性序列模型的预测结果相结合进行联合预测,从而实现语言知识到翻译模型的融入。在现有小规模汉乌数据集上的实验表明,所提方法在数据集上的BLEU值相较于基准模型提升了0.13,取得了较为明显的效果。 展开更多
关键词 TRANSFORMER 神经机器翻译 乌尔都语 词性序列
下载PDF
基于词性标注序列特征提取的微博情感分类 被引量:7
2
作者 卢伟胜 郭躬德 陈黎飞 《计算机应用》 CSCD 北大核心 2014年第10期2869-2873,共5页
传统的n-gram文本特征提取方法会产生高维度的特征向量,高维数据不但增大了分类的难度,同时也会增加分类的时间。针对这一问题,提出了一种基于词性(POS)标注序列的特征提取方法,根据词性序列能够代表一类文本的这一个特点,利用词性序列... 传统的n-gram文本特征提取方法会产生高维度的特征向量,高维数据不但增大了分类的难度,同时也会增加分类的时间。针对这一问题,提出了一种基于词性(POS)标注序列的特征提取方法,根据词性序列能够代表一类文本的这一个特点,利用词性序列组作为文本的特征以达到降低特征维度的效果。在实验中,词性序列特征提取方法比n-gram特征提取方法至少提高了9%的分类精度,降低4816个维度。实验结果表明,该方法能够适用于微博情感分类。 展开更多
关键词 特征提取 词性 标注序列 微博情感分类 极性分类
下载PDF
基于词性标记序列逆序数的文本信息隐藏算法 被引量:4
3
作者 戴祖旭 洪帆 《计算机工程与应用》 CSCD 北大核心 2007年第14期160-161,198,共3页
文本信息隐藏技术可应用于数字媒体版权和完整性保护。自然语言文本经词性标注处理后变换为词性标记序列,提出了利用序列逆序数奇偶性隐藏信息的算法。证明了逆序数奇偶性在序列符号对换、增加和删除变换下的性质。根据隐藏信息的要求,... 文本信息隐藏技术可应用于数字媒体版权和完整性保护。自然语言文本经词性标注处理后变换为词性标记序列,提出了利用序列逆序数奇偶性隐藏信息的算法。证明了逆序数奇偶性在序列符号对换、增加和删除变换下的性质。根据隐藏信息的要求,先对词性标记序列作适当变换,再在变换后的词性标记序列指导下修改自然语言句子,从理论上保证了可行修改的存在性,并能避免直接在自然语言句子层面上作修改的盲目性。 展开更多
关键词 文本信息隐藏 词性标注 序列逆序数
下载PDF
基于术语语料库的术语词性序列研究
4
作者 张榕 《术语标准化与信息技术》 2011年第1期36-38,共3页
文章基于术语数据库,分别考察了包含命名实体、数词、标点符号的术语以及字母词术语,采用统计的方法获取有效的术语内部词性序列以及高频术语内部词性序列,该研究有助于术语的语言学研究,以及术语识别与抽取等应用领域的研究。
关键词 术语 词性标注 词性序列
下载PDF
符号序列空间共存性与时间相继性的兼容——关于名词性并列句叙述性实现机制之探讨
5
作者 王晓娜 《江苏社会科学》 CSSCI 北大核心 2004年第6期201-204,共4页
本文论证了符号序列的空间共存性与时间相继性的兼容之可能,探讨了名词性并列句的叙述性实现机制。时空要素的获得,是偏正词组成为名词性并列句构成要件的基础;空间共存和时间相继的双重负载,是名词性并列句实现叙述化的必要条件;名词... 本文论证了符号序列的空间共存性与时间相继性的兼容之可能,探讨了名词性并列句的叙述性实现机制。时空要素的获得,是偏正词组成为名词性并列句构成要件的基础;空间共存和时间相继的双重负载,是名词性并列句实现叙述化的必要条件;名词性并列句叙述、描写的时空范围,由句外隐性话题加以框定。另外,本文还探讨了时空要素对结构转换的功能值增减的影响等问题。 展开更多
关键词 符号序列 空间共存性 时间相继性 词性并列句 叙述性 实现机制 语言学
下载PDF
“上”、“下”动词性组合搭配的认知优选机制 被引量:6
6
作者 杨子 淡晓红 《语言科学》 CSSCI 北大核心 2010年第4期364-371,共8页
有关"上"、"下"动词性用法不对称性,现有研究缺乏系统性。文章在对"上"、"下"动词性义项进行认知范畴描述和共性、差异性分析的基础上,以优选论为框架构建"上"、"下"动词... 有关"上"、"下"动词性用法不对称性,现有研究缺乏系统性。文章在对"上"、"下"动词性义项进行认知范畴描述和共性、差异性分析的基础上,以优选论为框架构建"上"、"下"动词性组合的优选评估机制,指出"上/下+宾语"结构中后续名词对"上/下"动词性义项的选择及其分别与这两个动词的搭配能力,由"上/下"所有动词性义项科学排列而成的制约条件等级序列决定。该优选评估机制通过系统解释"上/下"共性、个性义项在与后续名词搭配中的活跃度规律,比以往研究更深入全面地揭示了"上"、"下"动词性组合的搭配规律,并挖掘了"上"、"下"用法的各类不对称现象的深层驱动因素。 展开更多
关键词 词性组合 不对称性 原型范畴 制约条件等级序列 优选 “上” “下”
下载PDF
结合触发事件及词性分析的敏感信息识别方法 被引量:5
7
作者 刘聪 王永利 +2 位作者 周子韬 犹锋 张才俊 《计算机工程与应用》 CSCD 北大核心 2020年第20期132-137,共6页
针对传统敏感信息识别方法忽略了上下文语境和关键词词性而导致的漏报、误报问题,提出一种改进文本敏感信息识别的方法STEAP。构建暴恐敏感词典;通过敏感触发事件的抽取构建敏感触发事件序列,结合敏感触发事件及关键词的词性为待识别的... 针对传统敏感信息识别方法忽略了上下文语境和关键词词性而导致的漏报、误报问题,提出一种改进文本敏感信息识别的方法STEAP。构建暴恐敏感词典;通过敏感触发事件的抽取构建敏感触发事件序列,结合敏感触发事件及关键词的词性为待识别的信息分配权重;将构建的触发事件与词向量、暴恐敏感词典进行相似度的计算,结合权重获得文本的敏感度。实验结果证明,与传统敏感信息识别方法相比,STEAP方法能够有效识别出文本中的敏感信息,并且在精确度上得到了一定提高。 展开更多
关键词 敏感触发事件 词性序列 敏感信息识别 文本相似度
下载PDF
中心词驱动的汉语统计句法分析模型的改进 被引量:3
8
作者 何亮 戴新宇 +1 位作者 周俊生 陈家骏 《中文信息学报》 CSCD 北大核心 2008年第4期3-9,共7页
在对Dan Bikel基于Collins中心词驱动概率句法分析模型实现的句法分析器进行深入研究分析的基础上,对其进行了两个方面的改进。一是通过提供N-best词性候选序列,改进原模型在词性方面的处理,改善了句法分析的结果;二是在该模型中引进单... 在对Dan Bikel基于Collins中心词驱动概率句法分析模型实现的句法分析器进行深入研究分析的基础上,对其进行了两个方面的改进。一是通过提供N-best词性候选序列,改进原模型在词性方面的处理,改善了句法分析的结果;二是在该模型中引进单独的基本名词短语识别,从而降低句法分析的复杂度,提高了效率,其中,针对中文的特点,通过对BaseNP的概念进行一系列的扩展,深入研究了基于不同层次概念的BaseNP对句法分析的影响并探讨更适合中文句法分析的BaseNP定义。利用改进的句法分析模型进行中文句法分析实验,实验结果表明,改进模型可以缩短分析时间26%,提高F值4.4个百分点,交叉括号平均减少18%。 展开更多
关键词 计算机应用 中文信息处理 中心词驱动PCFG概率模型 基本名词短语 n-best词性序列 汉语句法分析
下载PDF
基于多特征的藏文微博情感倾向性分析 被引量:8
9
作者 江涛 袁斌 +1 位作者 于洪志 加羊吉 《中文信息学报》 CSCD 北大核心 2017年第3期163-169,共7页
中英文微博大都以单一语种来表述,而将近80%的藏文微博都是以藏汉混合文本形式呈现,若只针对藏文内容或中文内容进行情感倾向性分析会造成情感信息丢失,无法达到较好效果。根据藏文微博的表述特点,该文提出了基于多特征的情感倾向性分... 中英文微博大都以单一语种来表述,而将近80%的藏文微博都是以藏汉混合文本形式呈现,若只针对藏文内容或中文内容进行情感倾向性分析会造成情感信息丢失,无法达到较好效果。根据藏文微博的表述特点,该文提出了基于多特征的情感倾向性分析算法,算法使用情感词、词性序列、句式信息和表情符号作为特征,并针对藏文微博常出现中文表述的情况,将中文的情感信息也作为特征进行情感计算,利用双语情感特征有效提高了情感倾向性分析的效果。实验显示,该方法对纯藏文表述的微博情感倾向性分析正确率可达到79.8%,针对藏汉双语表述的微博在加入中文情感词、中文标点符号等特征后,正确率能够达到82.8%。 展开更多
关键词 藏文微博 混合文本 情感倾向 情感词 词性序列
下载PDF
构词法多义聚合及中介配列法略论 被引量:2
10
作者 卓勇光 《外语与外语教学》 北大核心 2003年第6期17-20,共4页
本文运用功能语法理论,把派生、复合等构词法纳入认知研究.研究论证了两大构词法的多义聚合现象与词法、形态结构、音位、隐喻、文体之间的逻辑-语义关系.在此基础上,提出并阐述从派生、复合中分支出的中介配列法--元音结尾连接规则(VEL... 本文运用功能语法理论,把派生、复合等构词法纳入认知研究.研究论证了两大构词法的多义聚合现象与词法、形态结构、音位、隐喻、文体之间的逻辑-语义关系.在此基础上,提出并阐述从派生、复合中分支出的中介配列法--元音结尾连接规则(VELR).本文还认为以上构词法的线性序列/结构为递归性分布,并对Halliday的名词性词组的逻辑结构之阐述提出相关的商榷意见. 展开更多
关键词 构词法 多义聚合现象 中介配列法 功能语法理论 派生 复合 认知研究 词法 形态结构 音位 隐喻 文体 逻辑-语义关系 元音结尾连接规则 VELR 线性序列 HALLIDAY 词性词组 逻辑结构 递归性分布
下载PDF
基于序列比对算法的中文文本相似度计算研究 被引量:12
11
作者 赵登鹏 熊回香 +1 位作者 田丰收 李昕然 《图书情报工作》 CSSCI 北大核心 2021年第11期101-112,共12页
[目的/意义]针对序列比对算法在文本相似度中的应用,改进全局比对算法并提高该算法的准确性,同时,应用局部比对算法有效解决内容差异或长短差异较大的两文本进行比对的问题。[方法/过程]首先,利用HanLP中的CRF模型对在线学术资源中文文... [目的/意义]针对序列比对算法在文本相似度中的应用,改进全局比对算法并提高该算法的准确性,同时,应用局部比对算法有效解决内容差异或长短差异较大的两文本进行比对的问题。[方法/过程]首先,利用HanLP中的CRF模型对在线学术资源中文文本数据集进行规范化处理,构成中文序列集;然后,使用最新的中文维基百科语料训练Word2Vec模型来构建语词对打分矩阵;最后,基于打分矩阵和改进的打分规则,对进行全局比对/局部比对的两中文序列进行比对并获得比对的最优解,回溯该最优解,获取最优解的比对路径,计算两中文序列的相似度。[结果/结论]实验结果表明,相较于目前全局比对算法的相关研究,本文基于词性标注的结果与Word2Vec构建的语词对打分矩阵进一步提升了全局比对算法计算文本相似度的准确性,同时,应用于文本相似度计算的局部比对算法能够有效解决内容差异或长短差异较大的两文本进行比对的问题。 展开更多
关键词 CRF模型 词性标注 Word2Vec 序列比对 局部比对 文本相似度
原文传递
也谈汉语的“供动句” 被引量:2
12
作者 项开喜 《思维与智慧(上半月)》 1991年第4期38-40,共3页
本文所讨论的主要是下列句式: (1)、一锅饭吃五个人 (2)、一本书读两个星期 (3)、东屋住五个人、西屋住八个人这类句式的线性序列是NP<sub>1</sub>+V+NP<sub>2</sub>,但它们都可以变换成“NP<sub>1... 本文所讨论的主要是下列句式: (1)、一锅饭吃五个人 (2)、一本书读两个星期 (3)、东屋住五个人、西屋住八个人这类句式的线性序列是NP<sub>1</sub>+V+NP<sub>2</sub>,但它们都可以变换成“NP<sub>1</sub>+供+NP<sub>2</sub>+V”这样的句式,因而叫做“供动句”。供动句不象其他特殊句式,它没有明显的外部标志,在语法研究中过去一直没有得到足够的重视。在主宾语问题的讨论中,人们发现“一锅饭吃五个人”这类句式与NP<sub>施</sub>+V+NP受”这种线性序列具有明显的对立,这类句式才逐渐引起人们的注意。许多语法学者都承认汉语供动句的存在。 展开更多
关键词 特殊句式 线性序列 汉语 变换矩阵 语法特征 星期 动词谓语句 语法研究 施事 词性成分
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部