期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于会话语料库的日语性别角色语言自动提取方法论 被引量:2
1
作者 孙昊 《东北亚外语研究》 2018年第1期48-54,共7页
本文对基于语料库挖掘的日语性别角色语言提取方法加以概述。该方法首先从日语口语语料库中抽取异性会话的文本,其次统计在异性的会话参与者中各种词汇的使用频度,最后引入特征选择方法之一的fisher精确检验的思想来抽取异性的会话中使... 本文对基于语料库挖掘的日语性别角色语言提取方法加以概述。该方法首先从日语口语语料库中抽取异性会话的文本,其次统计在异性的会话参与者中各种词汇的使用频度,最后引入特征选择方法之一的fisher精确检验的思想来抽取异性的会话中使用差异性较大的词汇。本研究将这种方法应用于日语自然会话语料库来提取性别角色语言。本研究的结果表明,除了已经被广泛接受的人称代词和终助词以外,日语中的「うん/(嗯)」「ええ/(嗯)」「ああ/(啊)」「ねー/ねえ/(表示确认)」「なあ/(啊)」「さ/(吧)」「よー/(哟)」「どー/(怎样)」「という/(表示说话,思考的内容)」等词汇可以被视为日语的性别角色语言。 展开更多
关键词 角色语言 语料库挖掘 卡方检验 fisher精确检验1
下载PDF
基于WEB的警务多语言语料库的构建
2
作者 季铎 刘皓 《中国刑警学院学报》 2017年第5期118-120,共3页
针对多语种警务语料库在构建过程中遇到的资源分散和人工整理难的突出问题,提出了一种基于Web数据获取的多语种警务语料库的构建方法,该方法采用了频繁序列模式和文本分析技术实现了对网页中多语种语料库的自动抽取。经实验证明,该方法... 针对多语种警务语料库在构建过程中遇到的资源分散和人工整理难的突出问题,提出了一种基于Web数据获取的多语种警务语料库的构建方法,该方法采用了频繁序列模式和文本分析技术实现了对网页中多语种语料库的自动抽取。经实验证明,该方法可进行多语言数据的自动采集,在少量人工参与的前提下,实现了多语言数据的大规模采集和处理。 展开更多
关键词 WEB信息 挖掘语料库 构建 警务语料库
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部