期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
中文工艺规范文本分词语料的构建与研究 被引量:1
1
作者 王裴岩 张莹欣 +3 位作者 付小强 陈佳欣 徐楠 蔡东风 《计算机科学》 CSCD 北大核心 2023年第S02期63-68,共6页
中文分词是处理工艺规范文本的一项基本任务,并且在工艺知识图谱与智能问答等下游任务中发挥着重要作用。工艺规范文本分词面临的一个挑战是缺乏高质量标注的语料,特别是面向术语、名词短语、工艺参数、数量词等特殊语言现象的分词规范... 中文分词是处理工艺规范文本的一项基本任务,并且在工艺知识图谱与智能问答等下游任务中发挥着重要作用。工艺规范文本分词面临的一个挑战是缺乏高质量标注的语料,特别是面向术语、名词短语、工艺参数、数量词等特殊语言现象的分词规范。文中面向工艺规范文本制定了专用分词规范,收集并标注了一个中文工艺规范文本分词语料(WS-MPST),含11900个句子与255160个词,4名标注者分词标注一致性达95.25%。在WS-MPST语料上对著名的BiLSTM-CRF与BERT-CRF模型进行了对比实验,F1值分别达到92.61%与93.69%。实验结果表明,构建专用的工艺规范分词语料是必要的。对实验结果的深入分析揭示了未登录词与中文非中文字符混合构成的词是工艺规范文本分词的难点,也为今后工艺规范文本及相关领域的分词研究提供了一定的指导。 展开更多
关键词 中文分词 工艺规范文本 分词规范 分词语料 分词模型
下载PDF
新时代人民日报分词语料库构建、性能及应用(二)——深度学习自动分词模型构建 被引量:9
2
作者 黄水清 王东波 《图书情报工作》 CSSCI 北大核心 2019年第23期5-12,共8页
[目的/意义]在新时代人民日报分词语料库的基础上构建的深度学习自动分词模型,不仅有助于为高性能分词模型的构建提供经验,也可以借助具体的自然语言处理研究任务验证深度学习相应模型的性能。[方法/过程]在介绍双向长短时记忆模型(Bi-L... [目的/意义]在新时代人民日报分词语料库的基础上构建的深度学习自动分词模型,不仅有助于为高性能分词模型的构建提供经验,也可以借助具体的自然语言处理研究任务验证深度学习相应模型的性能。[方法/过程]在介绍双向长短时记忆模型(Bi-LSTM)和双向长短时记忆与条件随机场融合模型(Bi-LSTM-CRF)的基础上,阐明汉语分词语料预处理、评价指标和参数与硬件平台的过程、种类和情况,分别构建Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型,并对模型的整体性能进行分析。[结果/结论]从精准率、召回率和调和平均值3个指标上看,所构建的Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型的整体性能相对较为合理。在具体性能上,Bi-LSTM分词模型优于Bi-LSTM-CRF分词模型,但这一差距非常细微。 展开更多
关键词 新时代人民日报分词语料 语料 自动分词 深度学习 Bi-LSTM Bi-LSTM-CRF
原文传递
新时代人民日报分词语料库构建、性能及应用(三)——句长与词的分析比较 被引量:7
3
作者 黄水清 王东波 《图书情报工作》 CSSCI 北大核心 2019年第24期5-15,共11页
[目的/意义]基于新时代人民日报分词语料库从不同维度统计分析句子长度和词汇分布,有助于了解当代汉语文本的语言学特征,进而开展自然语言处理和文本挖掘研究。[方法/过程]在2018年1月人民日报分词语料的基础上,结合1998年1月人民日报... [目的/意义]基于新时代人民日报分词语料库从不同维度统计分析句子长度和词汇分布,有助于了解当代汉语文本的语言学特征,进而开展自然语言处理和文本挖掘研究。[方法/过程]在2018年1月人民日报分词语料的基础上,结合1998年1月人民日报分词语料,确定统计中所使用的6种句子类别,统计和分析字与词单位上的句子长度分布,并基于齐普夫定律揭示词汇静态分布情况。[结果/结论]从字词维度上的句子长度分布情况和词汇的齐普夫分布状态上看,随着时间的推移,在1998和2018两个语料上,句子的长度和词汇的分布均发生变化,但这种变化又是延续的、有关联的。 展开更多
关键词 新时代人民日报分词语料 语料 句子长度 词汇分布 齐普夫定律
原文传递
多语料库中汉语四字格的切分和识别研究 被引量:4
4
作者 徐润华 曲维光 +1 位作者 陈小荷 王东波 《中文信息学报》 CSCD 北大核心 2013年第5期15-21,42,共8页
汉语四字格的能产性和派生性极强,利用四字格模式创造出的新词数量在现代汉语词汇中一直呈上升趋势。该文将研究的目光投向分词语料库中的四字格,对语料库中的四字格进行了系统的分类和归纳,并对语料库内部和语料库之间的四字格切分不... 汉语四字格的能产性和派生性极强,利用四字格模式创造出的新词数量在现代汉语词汇中一直呈上升趋势。该文将研究的目光投向分词语料库中的四字格,对语料库中的四字格进行了系统的分类和归纳,并对语料库内部和语料库之间的四字格切分不一致现象进行了详细的调查统计。最后,针对四字格的切分不一致数据引入条件随机场(CRF)模型,对多语料库中的汉语四字格进行识别实验,封闭测试和开放测试的识别精度均达到93%以上。 展开更多
关键词 四字格 分词语料 切分不一致 CRF模型
下载PDF
面向新时代的人民日报语料中文分词歧义分析 被引量:3
5
作者 彭秋茹 王东波 黄水清 《情报科学》 CSSCI 北大核心 2021年第11期103-109,共7页
【目的/意义】对近几年的人民日报语料中文分词结果进行统计和分析有利于总结新时代的中文语料在分词歧义方面的规律,提高分词效果,促进中文信息处理的相关研究和技术的发展。【方法/过程】本文以2015年以后的共4个月新时代的人民日报... 【目的/意义】对近几年的人民日报语料中文分词结果进行统计和分析有利于总结新时代的中文语料在分词歧义方面的规律,提高分词效果,促进中文信息处理的相关研究和技术的发展。【方法/过程】本文以2015年以后的共4个月新时代的人民日报分词语料为研究对象,通过统计词频、词长、从合度等信息,从名词、动词、数词、量词、副词、形容词、区别词、方位词、处所词、时间词、代词、介词、连词、助词、习用语、否定词、前后缀等类型来讨论变异词的切分规律。【结果/结论】结果发现新时代的人民日报语料中的切分变异大部分为假歧义,相同语法结构的二字词要比三字词、四字词的切分变异从合度更高。【创新/局限】本文首次面向新时代的人民日报语料讨论了中文分词歧义的问题,但缺少与旧语料的对比分析。 展开更多
关键词 中文分词 分词歧义 新时代人民日报分词语料 切分变异 中文信息处理
原文传递
小学藏文教材中词性的分布情况研究
6
作者 冷毛措 张有谊 《电脑知识与技术》 2016年第2X期195-196,共2页
在自然语言处理中,词类划分属于基础研究,其重要性不可忽视。本文以小学藏语文教材为语料,利用计算机对教材中藏语词的频次,数量等信息做出统计,进而摸索出目前藏语文教材编辑中藏语词性的分布规律,目的在给藏语词的安排、重要程度等是... 在自然语言处理中,词类划分属于基础研究,其重要性不可忽视。本文以小学藏语文教材为语料,利用计算机对教材中藏语词的频次,数量等信息做出统计,进而摸索出目前藏语文教材编辑中藏语词性的分布规律,目的在给藏语词的安排、重要程度等是否科学合理,即是否符合各个年龄段藏族学生对知识的接受状况,提供重要的参考作用。 展开更多
关键词 藏文信息处理 语料分词 标注
下载PDF
Comparative Analysis of Modal Auxiliary Verbs in English and in Chinese
7
作者 ZHANG Hong-yan 《Sino-US English Teaching》 2015年第2期128-136,共9页
The study of modal auxiliary verbs has been done by comparing modal auxiliary verbs in English with the ones in Chinese qualitatively and quantitatively. The modals in English and in Chinese are statistically analyzed... The study of modal auxiliary verbs has been done by comparing modal auxiliary verbs in English with the ones in Chinese qualitatively and quantitatively. The modals in English and in Chinese are statistically analyzed through their forms and meanings. The data consists of 50 pieces of Chinese prose with their 50 English translation versions called corpus A and 50 pieces of English prose with their Chinese translation versions called corpus B, altogether 200 articles, which represent a type of discourse that is rich in modal auxiliary verbs both in English and in Chinese The major findings are as follows: (1) The three criteria: inversion, negation, and the use of pro-forms can be used to define both English and Chinese auxiliaries; (2) the modals of both languages can be analyzed within the same semantic categories: volition, probability, and necessity; (3) Chinese epistemic modals can have inversion patterns; (4) the negative forms of Chinese modals are more complex than those of English modals; and (5) the statistic analysis shows that the modals in probability category both in English and in Chinese are used much more often compared to the other two categories: volition and necessity and that deontic modals are used much fewer in both languages to express necessity 展开更多
关键词 modal auxiliary verb VOLITION PROBABILITY NECESSITY EPISTEMIC deontic
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部