期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于双语主题模型和双语词向量的跨语言知识链接 被引量:5
1
作者 余圆圆 巢文涵 +1 位作者 何跃鹰 李舟军 《计算机科学》 CSCD 北大核心 2019年第1期238-244,共7页
跨语言知识链接是指在描述相同内容的不同语言的在线百科文章之间建立联系。跨语言知识链接可分为候选集选择和候选集排序两部分。首先,把候选集选择问题转换为跨语言信息检索问题,提出一种将标题与关键词相结合从而生成查询的方法,该... 跨语言知识链接是指在描述相同内容的不同语言的在线百科文章之间建立联系。跨语言知识链接可分为候选集选择和候选集排序两部分。首先,把候选集选择问题转换为跨语言信息检索问题,提出一种将标题与关键词相结合从而生成查询的方法,该方法将候选集选择的召回率大幅提高至93.8%;在候选集排序部分,提出一种融合双语主题模型及双语词向量的排序模型,实现了英文维基百科和中文百度百科之间军事领域的跨语言知识链接。实验结果表明,该模型取得了75%的准确率,显著提高了跨语言知识链接的性能,并且提出的方法不依赖于语言特性和领域特性,因此可以很容易地扩展至其他语言和其他领域的跨语言知识链接。 展开更多
关键词 跨语言知识链接 跨语言信息检索 双语主题模型 双语词向量
下载PDF
基于全局/局部共现词对分布的汉越双语新闻事件线索分析 被引量:1
2
作者 高盛祥 余正涛 +2 位作者 龙文旭 丁硙 闫春婷 《中文信息学报》 CSCD 北大核心 2015年第6期90-97,共8页
针对汉越双语新闻事件线索分析,提出了基于全局/局部共现词对分布的汉越双语事件线索生成方法。该方法首先将新闻话题词语分布作为全局词语表征全局事件,然后用一定时间粒度下新闻片段特有的时间、人物、地点等事件元素作为局部词语,分... 针对汉越双语新闻事件线索分析,提出了基于全局/局部共现词对分布的汉越双语事件线索生成方法。该方法首先将新闻话题词语分布作为全局词语表征全局事件,然后用一定时间粒度下新闻片段特有的时间、人物、地点等事件元素作为局部词语,分析新闻片段中全局词语和局部词语的共现关系,将全局/局部词语的共现规律作为监督信息,结合RCRP算法和汉越双语新闻的对齐语料,构建有监督话题生成主题模型,获得相应时间跨度下代表事件发展进程的子话题分布,通过子话题的分布反映事件发展的线索,从而构建出在线汉越双语事件线索生成模型。实验在汉越混合新闻数据集上进行,事件线索生成对比实验结果证明了提出的方法的有效性。 展开更多
关键词 汉语-越南语 新闻事件线索 全局/局部共现词对 子话题分布 双语主题模型
下载PDF
融合主题和要素的汉柬可比语料获取方法 被引量:3
3
作者 郭月江 严馨 +3 位作者 刘小惠 余正涛 线岩团 莫源源 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第3期360-368,共9页
为了有效地获取可比语料,选取汉柬双语新闻文档作为可比语料库的候选语料,提出一种融合发布时间要素、实体要素和主题分布的可比语料获取方法.该方法首先计算文本的主题概率分布的JS距离,并融合各主题和要素特征,计算文本相似度;然后利... 为了有效地获取可比语料,选取汉柬双语新闻文档作为可比语料库的候选语料,提出一种融合发布时间要素、实体要素和主题分布的可比语料获取方法.该方法首先计算文本的主题概率分布的JS距离,并融合各主题和要素特征,计算文本相似度;然后利用改进型的层次聚类算法对双语文本进行聚类,最后从聚簇类结果中获取可比语料.与基于词典的文本相似度计算方法进行聚类相比,该文方法有更高的Purity和F值并且获得的高质量的可比语料更多,说明了本文方法的有效性. 展开更多
关键词 可比语料库 层次聚类 双语主题模型 跨语言文本相似度
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部