-
题名藏汉跨语言话题模型构建及对齐方法研究
被引量:1
- 1
-
-
作者
孙媛
赵倩
-
机构
中央民族大学信息工程学院
国家语言资源监测与研究中心少数民族语言分中心
-
出处
《中文信息学报》
CSCD
北大核心
2017年第1期102-111,共10页
-
基金
国家自然科学基金(61501529
61331013)
+1 种基金
国家语委项目(ZDI125-36
YB125-139)
-
文摘
如何获取藏文话题在其他语种中的相关信息,对于促进少数民族地区的社会管理科学化水平、维护民族团结和国家统一、构建和谐社会具有重要意义。目前大多数研究集中在英汉跨语言信息处理方面,针对藏汉跨语言研究较少。如何根据藏语、汉语的特点,并结合目前藏语信息处理的研究现状,实现藏汉多角度的社会网络关系关联,同步发现关注话题并进行数据比较,是迫切需要解决的问题。该文在藏汉可比语料的基础上,利用词向量对文本词语进行语义扩展,进而构建LDA话题模型,并利用Gibbs sampling进行模型参数的估计,抽取出藏语和汉语话题。在LDA话题模型生成的文档-话题分布的基础上,提出一种基于余弦相似度、欧氏距离、Hellinger距离和KL距离四种相似度算法的投票方法,来实现藏汉话题的对齐。
-
关键词
藏汉跨语言
话题抽取
LDA
话题对齐
-
Keywords
topic extraction
LDA model
topic alignment
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名藏汉跨语言文本剽窃检测数据集
- 2
-
-
作者
鲍薇
董建
徐洋
申影利
戚肖克
-
机构
中国电子技术标准化研究院
北京航空航天大学
中央民族大学
中国政法大学
-
出处
《中国科学数据(中英文网络版)》
CSCD
2022年第2期46-54,共9页
-
基金
国家语委重点项目(ZDI135-118)
-
文摘
本研究从少数民族语言信息处理的实际需要出发,针对藏汉跨语言文本剽窃检测缺少语料问题,基于SemEval 2014年英语评测语料,使用数据增强方法,建立了包含15万句对的藏汉跨语言文本剽窃检测语料库。本数据集为藏汉跨语言文本剽窃检测研究提供数据基础,也可用于藏汉语义计算等其他自然语言处理任务中。此外,数据集建立过程中的数据增强方法,为其他低资源语言自然语言处理任务语料缺少问题提供了解决思路。
-
关键词
文本剽窃检测
藏汉跨语言
跨语言语料库
低资源
-
Keywords
text plagiarism detection
Tibetan-Chinese cross-language
cross-language corpus
low resource
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
H214
[语言文字—少数民族语言]
-