-
题名基于会话语料库的日语性别角色语言自动提取方法论
被引量:2
- 1
-
-
作者
孙昊
-
机构
日本同志社大学文化情报系
-
出处
《东北亚外语研究》
2018年第1期48-54,共7页
-
文摘
本文对基于语料库挖掘的日语性别角色语言提取方法加以概述。该方法首先从日语口语语料库中抽取异性会话的文本,其次统计在异性的会话参与者中各种词汇的使用频度,最后引入特征选择方法之一的fisher精确检验的思想来抽取异性的会话中使用差异性较大的词汇。本研究将这种方法应用于日语自然会话语料库来提取性别角色语言。本研究的结果表明,除了已经被广泛接受的人称代词和终助词以外,日语中的「うん/(嗯)」「ええ/(嗯)」「ああ/(啊)」「ねー/ねえ/(表示确认)」「なあ/(啊)」「さ/(吧)」「よー/(哟)」「どー/(怎样)」「という/(表示说话,思考的内容)」等词汇可以被视为日语的性别角色语言。
-
关键词
角色语言
语料库挖掘
卡方检验
fisher精确检验1
-
Keywords
role language
corpus mining
Chi-square test
fisher’s exact test
-
分类号
H0
[语言文字—语言学]
-
-
题名基于WEB的警务多语言语料库的构建
- 2
-
-
作者
季铎
刘皓
-
机构
中国刑事警察学院网络犯罪侦查系
中国刑事警察学院网络信息中心
-
出处
《中国刑警学院学报》
2017年第5期118-120,共3页
-
基金
2015年中央高校青年项目
-
文摘
针对多语种警务语料库在构建过程中遇到的资源分散和人工整理难的突出问题,提出了一种基于Web数据获取的多语种警务语料库的构建方法,该方法采用了频繁序列模式和文本分析技术实现了对网页中多语种语料库的自动抽取。经实验证明,该方法可进行多语言数据的自动采集,在少量人工参与的前提下,实现了多语言数据的大规模采集和处理。
-
关键词
WEB信息
挖掘语料库
构建
警务语料库
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TP393.09
[自动化与计算机技术—计算机应用技术]
-