期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
25
篇文章
<
1
2
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
SegT:一个实用的藏文分词系统
被引量:
25
1
作者
刘汇丹
诺明花
+2 位作者
赵维纳
吴健
贺也平
《中文信息学报》
CSCD
北大核心
2012年第1期97-103,共7页
在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,...
在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,并进行紧缩词识别。系统采用双向切分检测交集型歧义字段并使用预先统计的词频信息进行消歧。实验结果表明,该文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词效果没有明显提高或降低。系统最终分词正确率为96.98%,基本达到了实用的水平。
展开更多
关键词
藏文分词
格助词
临界词识别
词频统计
藏文信息处理
中文信息处理
下载PDF
职称材料
基于Qt的国际化图形用户界面设计与实现
被引量:
12
2
作者
刘汇丹
芮建武
+1 位作者
姚延栋
吴健
《中文信息学报》
CSCD
北大核心
2006年第4期94-99,共6页
一次开发多语言使用是国际化软件开发的主要目标。但是世界上的文字多种多样,它们的书写方向也有所不同,除了水平从左向右书写的英文、水平从右往左书写的阿拉伯文外,还有类似蒙古文这样垂直排列的文字,这对计算机图形用户界面提出了更...
一次开发多语言使用是国际化软件开发的主要目标。但是世界上的文字多种多样,它们的书写方向也有所不同,除了水平从左向右书写的英文、水平从右往左书写的阿拉伯文外,还有类似蒙古文这样垂直排列的文字,这对计算机图形用户界面提出了更高的要求,现有的计算机系统将这类垂直排列的文字沿水平方向输出,极不符合少数民族人民的习惯。在分析现有Qt库对类似阿拉伯文这样从右向左书写的文字的部分支持机制的基础上,我们设计并实现了支持四种方向模式的国际化的图形用户界面,现在它已经能够适应世界上几乎所有的文字。这对于软件国际化以及民族语言信息处理有重要意义。
展开更多
关键词
计算机应用
中文信息处理
图形用户界面
Qt库
国际化
民族文字处理
下载PDF
职称材料
Web藏文文本资源挖掘与利用研究
被引量:
6
3
作者
刘汇丹
诺明花
+2 位作者
马龙龙
吴健
贺也平
《中文信息学报》
CSCD
北大核心
2015年第1期170-177,共8页
该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧...
该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。
展开更多
关键词
WEB
语料
文本挖掘
信息抽取
藏文信息处理
中文信息处理
下载PDF
职称材料
基于大规模网络语料的藏文音节拼写错误统计与分析
被引量:
6
4
作者
刘汇丹
洪锦玲
+1 位作者
诺明花
吴健
《中文信息学报》
CSCD
北大核心
2017年第2期61-70,共10页
针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20 743个藏文音节中,含有拼写错误的音节共有9 700...
针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20 743个藏文音节中,含有拼写错误的音节共有9 700个,占藏文音节总数的46.762 8%,错误音节在语料中共出现27 427次,仅占0.030 8%,说明这份语料的文本质量是相当高的。文中还详细统计了各种不同表现形式的错误音节所占比重,并分析了导致拼写错误的四个主要原因:一是输入了多余的元音符号;二是音节点或句尾空格缺失;三是同一字丁/字符存在多种表达形式;四是错误地使用了相似字符。
展开更多
关键词
藏文拼写检查
拼写检查
语料
统计
藏文信息处理
中文信息处理
下载PDF
职称材料
面向公共服务的中文编码字符集实用子集的构建方法研究
5
作者
纪熙东
黄姗姗
刘汇丹
《信息技术与标准化》
2024年第7期36-41,共6页
针对我国公共服务场景对中文编码字符集实用子集的需求,基于汉字和汉字编码字符集的历史和现状分析,提出构建实用子集的构想并探讨了可能的实现方法,分析了自底向上的构建方法和自顶向下的构建方法,并对涉及生僻字的公共服务场景的汉字...
针对我国公共服务场景对中文编码字符集实用子集的需求,基于汉字和汉字编码字符集的历史和现状分析,提出构建实用子集的构想并探讨了可能的实现方法,分析了自底向上的构建方法和自顶向下的构建方法,并对涉及生僻字的公共服务场景的汉字使用提出了若干建议。
展开更多
关键词
公共服务
中文编码字符集
实用子集
GB
18030
下载PDF
职称材料
现代藏语助动词结尾句子边界识别方法
被引量:
7
6
作者
赵维纳
于新
+3 位作者
刘汇丹
李琳
王磊
吴健
《中文信息学报》
CSCD
北大核心
2013年第1期115-119,共5页
藏语句子边界的正确识别是藏文文本处理首先要解决的问题。而藏语书面语中标点符号的特殊性是造成藏语句子边界识别困难的主要原因。该文主要对现代书面藏语中常见的以藏语助动词结尾的藏语句子边界识别进行研究,结合藏文标点符号的特...
藏语句子边界的正确识别是藏文文本处理首先要解决的问题。而藏语书面语中标点符号的特殊性是造成藏语句子边界识别困难的主要原因。该文主要对现代书面藏语中常见的以藏语助动词结尾的藏语句子边界识别进行研究,结合藏文标点符号的特点提出藏语助动词结尾句子边界识别方法。
展开更多
关键词
藏语分句
藏语句子边界识别
藏语信息处理
中文信息处理
下载PDF
职称材料
基于藏语字性标注的词性预测研究
被引量:
7
7
作者
龙从军
刘汇丹
+1 位作者
诺明花
吴健
《中文信息学报》
CSCD
北大核心
2015年第5期211-215,共5页
该文选取了藏语文中小学教材的部分语料,构建了带有藏语字性标记、词边界标记和词性标记的语料库,通过比较不同的分词、标注方法,证明分词、词性标注一体化效果比分步进行的效果好,准确率、召回率和F值分别提高了0.067、0.073和0.07。...
该文选取了藏语文中小学教材的部分语料,构建了带有藏语字性标记、词边界标记和词性标记的语料库,通过比较不同的分词、标注方法,证明分词、词性标注一体化效果比分步进行的效果好,准确率、召回率和F值分别提高了0.067、0.073和0.07。但词级标注模型难以解决词边界划分的一致性和未登录词的问题。基于此,作者提出可以利用字性和字构词的规律预测合成词的词性,既可以融入语言学知识又可以减少由未登录词导致的标注错误,实验结果证明,作为词性标注的后处理模块,基于字性标注的词性预测准确率提高到了0.916,这个结果已经比分词标注一体化结果好,说明字性标注对纠正词性错误标注有明显的效果。
展开更多
关键词
藏语
语字标注
分词
词性标注
下载PDF
职称材料
汉藏短语对抽取中短语译文获取方法研究
被引量:
7
8
作者
诺明花
吴健
+1 位作者
刘汇丹
丁治明
《中文信息学报》
CSCD
北大核心
2011年第3期112-117,共6页
该文从法律法规和公文领域汉藏语料中对待翻译汉语短语提取藏语译文。目前普遍采用的短语对抽取方法需要依赖于词性或句法分析等资源或词对齐技术。考虑现阶段藏文资源不足,词法句法相关技术不成熟,该文提出藏文词串频率统计方法(TSM)...
该文从法律法规和公文领域汉藏语料中对待翻译汉语短语提取藏语译文。目前普遍采用的短语对抽取方法需要依赖于词性或句法分析等资源或词对齐技术。考虑现阶段藏文资源不足,词法句法相关技术不成熟,该文提出藏文词串频率统计方法(TSM)和藏文词序列相交算法(TIA)两种方法来获取藏语译文。其中TSM抽取1-1连续和非连续短语准确率达到90%左右,但遗漏1-n情况。TIA能够抽取1-n连续和非连续藏文语块,准确率达到81%。
展开更多
关键词
藏文语块
短语译文获取
藏文信息处理
中文信息处理
下载PDF
职称材料
汉藏短语抽取
被引量:
5
9
作者
诺明花
张立强
+2 位作者
刘汇丹
吴健
丁治明
《中文信息学报》
CSCD
北大核心
2011年第2期105-110,121,共7页
该文将从汉藏法律法规和公文领域平行语料中提取双语短语对。考虑现阶段藏文资源匮乏,提出两步汉藏短语抽取方法。第一步是提取汉语有效语块,这部分工作不是该文工作重点。第二步是获取待翻译汉语短语的译文,该模块提出藏文词序列相交...
该文将从汉藏法律法规和公文领域平行语料中提取双语短语对。考虑现阶段藏文资源匮乏,提出两步汉藏短语抽取方法。第一步是提取汉语有效语块,这部分工作不是该文工作重点。第二步是获取待翻译汉语短语的译文,该模块提出藏文词序列相交算法抽取藏文短语。该算法可以很好的抽取1-1和1-n连续和非连续藏文短语。
展开更多
关键词
汉藏短语抽取
藏文信息处理
中文信息处理
下载PDF
职称材料
数字中国实名信息比对同字同码研究
10
作者
刘汇丹
黄姗姗
《信息技术与标准化》
2023年第11期35-40,共6页
针对当前实际应用中实名制身份核验失败的问题,列举一字多码的多种表现形式,分析造成问题的5个原因,提出“同字同码”和6项具体实现建议。
关键词
实名身份核验
数字中国
中文编码字符集
GB
18030
下载PDF
职称材料
藏语三音动词短语自动抽取研究
被引量:
3
11
作者
赵维纳
李琳
+2 位作者
刘汇丹
普布顿珠
吴健
《中文信息学报》
CSCD
北大核心
2015年第3期196-200,共5页
藏语三音节复合动词短语(以下简称三音动词短语)能产性强,使用频率高,结构不稳定,给藏语文本处理带来很多麻烦。针对这些特点,该文提出了一种统计和规则相结合的三音动词短语的自动抽取算法。首先,从三音动词短语的结构出发,以构成三音...
藏语三音节复合动词短语(以下简称三音动词短语)能产性强,使用频率高,结构不稳定,给藏语文本处理带来很多麻烦。针对这些特点,该文提出了一种统计和规则相结合的三音动词短语的自动抽取算法。首先,从三音动词短语的结构出发,以构成三音动词短语的动语素作为标志,获得三音动词短语候选项。然后,利用统计算法和语言规则库对候选项进行过滤,获得三音动词短语。实验结果表明,统计和规则结合的方法可以有效地从未经标注的藏语语料中获取三音动词短语。
展开更多
关键词
中文信息处理
藏语信息处理
词汇获取
藏语三音节复合动词短语
下载PDF
职称材料
藏文国际音标(拉萨音)自动转换研究
被引量:
3
12
作者
龙从军
刘汇丹
吴健
《中文信息学报》
CSCD
北大核心
2016年第5期203-208,214,共7页
该文旨在实现从藏文文本到国际音标的自动转换,在一定程度上解决获取较大规模的藏文国际音标标注文本的问题。在国际音标转换系统中,采用了基于规则和统计融合的方法,实现了文语语音词自动切分;利用辅音、元音和声调对应规则表实现了藏...
该文旨在实现从藏文文本到国际音标的自动转换,在一定程度上解决获取较大规模的藏文国际音标标注文本的问题。在国际音标转换系统中,采用了基于规则和统计融合的方法,实现了文语语音词自动切分;利用辅音、元音和声调对应规则表实现了藏语音节的国际音标自动转换;利用声调变化规则、辅音和元音变化规则实现了基于语音词的声调变调、辅音和元音的变化。从自动标注的结果来看,达到了实用效果。
展开更多
关键词
藏语
国际音标
自动转换
分词
下载PDF
职称材料
藏语音节标注研究
被引量:
2
13
作者
龙从军
刘汇丹
吴健
《中文信息学报》
CSCD
北大核心
2017年第4期89-93,99,共6页
藏语的"音节"在词汇语法研究和文本信息处理研究中都十分重要,尤其在解决未登录词切分问题和标注中能够发挥积极的作用。然而在现有的研究中,对音节的重视还不够。该文提出在文本标注时,可以先进行音节的性质标注,然后通过音...
藏语的"音节"在词汇语法研究和文本信息处理研究中都十分重要,尤其在解决未登录词切分问题和标注中能够发挥积极的作用。然而在现有的研究中,对音节的重视还不够。该文提出在文本标注时,可以先进行音节的性质标注,然后通过音节构词的规律预测复合词的词性,尤其是未登录词的词性。该文作者对藏语音节的定义进行了界定,提出音节的性质分类及标注原则,利用统计模型,在约24万音节的中小学语文教材语料库上进行实验,音节性质标注的正确率为93.520 8%。在此基础上,把音节性质标注信息用到词性标注中。实验结果表明:即使在音节性质标注存在一定错误的情况下,词性标注的正确率也提高到94.196 7%;如果在保证音节性质标注完全正确的情况下,词性标注的正确率可以提高到97.775 4%,这说明音节性质标注信息对词性标注有帮助。
展开更多
关键词
藏语
藏语音节
音节性质标注
音节性质分类
下载PDF
职称材料
基于句法树的藏语最长名词短语识别
被引量:
4
14
作者
龙从军
刘汇丹
周毛克
《中文信息学报》
CSCD
北大核心
2019年第2期59-66,共8页
最长名词短语携带着丰富的句法和语义信息,经常与句法成分对应,在句子中充当一定的语义角色。最长名词短语识别在自然语言处理中占重要地位,是分析和理解句子结构、意义的基础。该文通过梳理不同概念的最长名词短语的含义,从句法树角度...
最长名词短语携带着丰富的句法和语义信息,经常与句法成分对应,在句子中充当一定的语义角色。最长名词短语识别在自然语言处理中占重要地位,是分析和理解句子结构、意义的基础。该文通过梳理不同概念的最长名词短语的含义,从句法树角度界定了藏语最长名词短语的基本概念;从句法树库中抽取6 038个句子,分析了最长名词短语的结构类型、边界特征和出现频次,最后采用序列标注模型和句法分析模型对最长名词短语进行识别。序列标注模型识别结果的正确率、召回率和F1值分别为87.14%、84.72%、85.92%。句法分析模型识别结果的正确率、召回率、F1值分别为85.02%、84.51%、84.76%。
展开更多
关键词
藏语句法树
最长名词短语
名词短语类型
下载PDF
职称材料
基于词向量的藏文语义相似词知识库构建
被引量:
4
15
作者
龙从军
周毛克
刘汇丹
《中文信息学报》
CSCD
北大核心
2020年第10期33-38,50,共7页
词向量在自然语言处理研究的各个领域发挥着重要作用。该文从语言学角度出发,讨论了词向量技术与语言学理论的关系;根据词向量的特征,提出利用藏文词向量构建语义相似词知识库。该文以哈尔滨工业大学的《词林》为基础,通过汉藏双语词典...
词向量在自然语言处理研究的各个领域发挥着重要作用。该文从语言学角度出发,讨论了词向量技术与语言学理论的关系;根据词向量的特征,提出利用藏文词向量构建语义相似词知识库。该文以哈尔滨工业大学的《词林》为基础,通过汉藏双语词典对译,在获取对译词的词向量的基础上,计算对译词的词向量与原子词群平均词向量的差值,利用不同的差值,自动筛选出与原子词群语义相似度较小的词。该文分别以藏文的词和音节为单位计算词向量,自动筛出不属于原子词群的词,通过对自动筛选结果与人工筛选结果对比,发现两者具有较高的一致性,这说明词向量计算结果与人的语言直觉具有较高的一致性。总体来说,该文所采用的方法有助于提高藏文语义相似词知识库构建效率。
展开更多
关键词
词向量
藏文
语义相似词
下载PDF
职称材料
基于中心语块扩展的汉藏基本名词短语对的识别
被引量:
1
16
作者
诺明花
刘汇丹
+2 位作者
马龙龙
吴健
丁治明
《中文信息学报》
CSCD
北大核心
2013年第4期63-69,共7页
该文提出汉藏基本名词短语对齐框架。从汉语基本名词短语出发,找藏文正确译文过程中,参考英汉短语对齐的方法,针对藏语的特殊性,提出基于中心语块扩展的藏语基本名词短语识别方法。提出词典与自动词对齐结果相结合的方法和基于序列相交...
该文提出汉藏基本名词短语对齐框架。从汉语基本名词短语出发,找藏文正确译文过程中,参考英汉短语对齐的方法,针对藏语的特殊性,提出基于中心语块扩展的藏语基本名词短语识别方法。提出词典与自动词对齐结果相结合的方法和基于序列相交的方法抽取藏语中心语块,再以扩展可信度为依据扩展中心语块。实验结果表明,基于序列相交的方法所抽取的汉藏基本名词短语对能够节省人工校正的工作量,有效辅助于汉藏基本名词短语库的建设。
展开更多
关键词
藏文信息处理
基本名词短语
中心语块扩展
下载PDF
职称材料
汉—藏人名用字音译规则研究
被引量:
3
17
作者
龙从军
豆格才让
刘汇丹
《中文信息学报》
CSCD
北大核心
2018年第3期71-76,共6页
随着信息技术的发展,藏文在互联网上广泛使用,政府主办的报刊、杂志也逐渐有了网络版,大量的汉文材料被翻译成藏文。翻译者在音译汉文人名用字时,未能遵从统一的音译规范,导致同一人名存在多种音译形式。该文统计了五家藏文网站,发现一...
随着信息技术的发展,藏文在互联网上广泛使用,政府主办的报刊、杂志也逐渐有了网络版,大量的汉文材料被翻译成藏文。翻译者在音译汉文人名用字时,未能遵从统一的音译规范,导致同一人名存在多种音译形式。该文统计了五家藏文网站,发现一些公众人物的人名用字音译形式比较混乱,不但影响信息交流,而且不利于藏文自然语言处理。该文详细分析了音译混乱的原因,提出在汉—藏人名用字音译时,需要制定一一对应的音译原则;同时注重原则实践的可行性和一致性。翻译者在音译汉—藏人名用字时必须严格遵从音译原则;推行音译原则还需要依靠相关政府机构和部门。
展开更多
关键词
汉—藏人名
人名音译
音译原则
下载PDF
职称材料
基于关联度的汉藏多词单元等价对抽取方法
被引量:
1
18
作者
诺明花
刘汇丹
+1 位作者
吴健
丁治明
《中文信息学报》
CSCD
北大核心
2012年第3期98-103,共6页
针对为汉藏辅助翻译系统建立汉藏多词单元翻译词典这一任务,该文提出了CMWEPM模型。该模型首先依据关联度和结合度来确定汉语语料中多词单元的边界,然后根据词对齐信息分别抽取严格和约束多词单元等价对,从而形成汉藏多词单元等价对。CM...
针对为汉藏辅助翻译系统建立汉藏多词单元翻译词典这一任务,该文提出了CMWEPM模型。该模型首先依据关联度和结合度来确定汉语语料中多词单元的边界,然后根据词对齐信息分别抽取严格和约束多词单元等价对,从而形成汉藏多词单元等价对。CMWEPM模型根据不同长度和频次对多词单元进行分类,并为不同类型设定不同阈值,最终提高了汉藏多词单元等价对的召回率,从而能够间接地提高汉藏辅助翻译系统的翻译质量。
展开更多
关键词
藏文信息处理
多词单元
关联度
下载PDF
职称材料
国际音标输入软件的设计与实现
被引量:
1
19
作者
江荻
刘汇丹
吴兵
《中文信息学报》
CSCD
北大核心
2011年第2期111-116,共6页
文章以蓝蝶国际音标(形类)输入法为对象论述了国际音标输入系统的编码思想、算法设计和字体制作。输入编码的基本原则是字形的分类,合理的分类能产生适合用户的键盘操作习惯;算法设计提出了高频优先的动态连续输入效果;字体制作能及时...
文章以蓝蝶国际音标(形类)输入法为对象论述了国际音标输入系统的编码思想、算法设计和字体制作。输入编码的基本原则是字形的分类,合理的分类能产生适合用户的键盘操作习惯;算法设计提出了高频优先的动态连续输入效果;字体制作能及时添加所需字符,并完善字句行距等多文种混排版面质量。
展开更多
关键词
国际音标
输入编码
动态键盘
连续输入
字库设计
下载PDF
职称材料
传统蒙古文“同形不同码”问题研究
20
作者
安波
诺明花
+2 位作者
吴健
刘汇丹
马龙龙
《信息技术与标准化》
2015年第1期62-66,共5页
设计并实现了一种基于语料库的传统蒙古文同形不同码识别系统。通过网络爬虫获取原始语料,然后对语料进行预处理并生成词表和倒排索引。基于词表利用GDI和传统蒙古文字库对每个传统蒙古文词生成字形图,并根据字形图之间的相似度识别出...
设计并实现了一种基于语料库的传统蒙古文同形不同码识别系统。通过网络爬虫获取原始语料,然后对语料进行预处理并生成词表和倒排索引。基于词表利用GDI和传统蒙古文字库对每个传统蒙古文词生成字形图,并根据字形图之间的相似度识别出相同的字形。系统根据倒排索引、同形词列表统计出语料中传统蒙古文同形不同码的情况。实验结果显示,同形不同码问题在传统蒙古文中普遍存在,反映出了制定相关标准的迫切性。
展开更多
关键词
传统蒙古文
同形不同码
爬虫
倒排索引
语料库
下载PDF
职称材料
题名
SegT:一个实用的藏文分词系统
被引量:
25
1
作者
刘汇丹
诺明花
赵维纳
吴健
贺也平
机构
中国科学院软件研究所
中国科学院研究生院
北京语言大学
青海师范大学
出处
《中文信息学报》
CSCD
北大核心
2012年第1期97-103,共7页
基金
国家重大科技专项资助项目(2010ZX01036-001-002
2010ZX01037-001-002)
中国科学院西部行动计划资助项目(KGCX2-YW-512)
文摘
在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,并进行紧缩词识别。系统采用双向切分检测交集型歧义字段并使用预先统计的词频信息进行消歧。实验结果表明,该文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词效果没有明显提高或降低。系统最终分词正确率为96.98%,基本达到了实用的水平。
关键词
藏文分词
格助词
临界词识别
词频统计
藏文信息处理
中文信息处理
Keywords
Tibetan word segmentation
case-auxiliary words
critical word detection
word frequency statistics
Tibetan information processing
Chinese information processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Qt的国际化图形用户界面设计与实现
被引量:
12
2
作者
刘汇丹
芮建武
姚延栋
吴健
机构
中国科学院软件研究所开放系统与中文信息处理中心
出处
《中文信息学报》
CSCD
北大核心
2006年第4期94-99,共6页
基金
国家863计划资助项目(2002AA001033)
国家863计划软件重大专项资助项目(2003AA1Z2110)
中国科学院知识创新工程方向性项目资助(KGCX2-SW-504)
文摘
一次开发多语言使用是国际化软件开发的主要目标。但是世界上的文字多种多样,它们的书写方向也有所不同,除了水平从左向右书写的英文、水平从右往左书写的阿拉伯文外,还有类似蒙古文这样垂直排列的文字,这对计算机图形用户界面提出了更高的要求,现有的计算机系统将这类垂直排列的文字沿水平方向输出,极不符合少数民族人民的习惯。在分析现有Qt库对类似阿拉伯文这样从右向左书写的文字的部分支持机制的基础上,我们设计并实现了支持四种方向模式的国际化的图形用户界面,现在它已经能够适应世界上几乎所有的文字。这对于软件国际化以及民族语言信息处理有重要意义。
关键词
计算机应用
中文信息处理
图形用户界面
Qt库
国际化
民族文字处理
Keywords
computer application
Chinese information processing
graphical user interface, Qt library, internationalization
minority script processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Web藏文文本资源挖掘与利用研究
被引量:
6
3
作者
刘汇丹
诺明花
马龙龙
吴健
贺也平
机构
中国科学院软件研究所
中国科学院大学
出处
《中文信息学报》
CSCD
北大核心
2015年第1期170-177,共8页
基金
国家自然科学基金(61202219
61202220
+1 种基金
61303165)
中国科学院信息化专项经费资助(XXH12504-1-10)
文摘
该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。
关键词
WEB
语料
文本挖掘
信息抽取
藏文信息处理
中文信息处理
Keywords
Web
corpus
text mining
information extraction
Tibetan information processing
Chinese informationprocessing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于大规模网络语料的藏文音节拼写错误统计与分析
被引量:
6
4
作者
刘汇丹
洪锦玲
诺明花
吴健
机构
中国科学院软件研究所
出处
《中文信息学报》
CSCD
北大核心
2017年第2期61-70,共10页
基金
国家自然科学基金(61202219
61303165)
+1 种基金
中国科学院信息化专项(XXH12504-1-10)
新闻出版重大科技工程(0610-1041BJNF 2328/23)
文摘
针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20 743个藏文音节中,含有拼写错误的音节共有9 700个,占藏文音节总数的46.762 8%,错误音节在语料中共出现27 427次,仅占0.030 8%,说明这份语料的文本质量是相当高的。文中还详细统计了各种不同表现形式的错误音节所占比重,并分析了导致拼写错误的四个主要原因:一是输入了多余的元音符号;二是音节点或句尾空格缺失;三是同一字丁/字符存在多种表达形式;四是错误地使用了相似字符。
关键词
藏文拼写检查
拼写检查
语料
统计
藏文信息处理
中文信息处理
Keywords
Tibetan spell check
spell check
corpus
Tibetan information processing
Chinese information processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
面向公共服务的中文编码字符集实用子集的构建方法研究
5
作者
纪熙东
黄姗姗
刘汇丹
机构
招商银行股份有限公司
中国电子技术标准化研究院
中国科学院软件研究所
出处
《信息技术与标准化》
2024年第7期36-41,共6页
基金
国家社会科学基金项目“中华人民共和国国家标准GB 18030—2022《信息技术中文编码字符集》汉字整理研究与资源库建设”,项目编号:23&ZD307
国家语委科研项目“信息技术产品国家通用语言文字规范应用研究”,项目编号:ZDH 145-75
国家语委科研项目“政务服务、公共服务领域信息系统生僻字处理技术方案研究”,项目编号:WT145-28。
文摘
针对我国公共服务场景对中文编码字符集实用子集的需求,基于汉字和汉字编码字符集的历史和现状分析,提出构建实用子集的构想并探讨了可能的实现方法,分析了自底向上的构建方法和自顶向下的构建方法,并对涉及生僻字的公共服务场景的汉字使用提出了若干建议。
关键词
公共服务
中文编码字符集
实用子集
GB
18030
Keywords
public service
Chinese coded character set
well fit sub set
GB 18030
分类号
H12 [语言文字—汉语]
下载PDF
职称材料
题名
现代藏语助动词结尾句子边界识别方法
被引量:
7
6
作者
赵维纳
于新
刘汇丹
李琳
王磊
吴健
机构
青海师范大学
中国科学院软件研究所
中国科学院大学
中国社会科学院民族学与人类学研究所
北京语言大学
出处
《中文信息学报》
CSCD
北大核心
2013年第1期115-119,共5页
基金
国家重大科技专项资助项目(2010ZX01036-001-002
2010ZX01037-001-002)
+2 种基金
国家自然科学基金资助项目(61202219
61202220)
中国科学院知识创新工程资助项目(KGCX2-YW-512)
文摘
藏语句子边界的正确识别是藏文文本处理首先要解决的问题。而藏语书面语中标点符号的特殊性是造成藏语句子边界识别困难的主要原因。该文主要对现代书面藏语中常见的以藏语助动词结尾的藏语句子边界识别进行研究,结合藏文标点符号的特点提出藏语助动词结尾句子边界识别方法。
关键词
藏语分句
藏语句子边界识别
藏语信息处理
中文信息处理
Keywords
sentence boundary detection
Tibetan sentence boundary detection
Tibetan information processing
Chinese information processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于藏语字性标注的词性预测研究
被引量:
7
7
作者
龙从军
刘汇丹
诺明花
吴健
机构
中国科学院软件研究所
中国社会科学院民族学与人类学研究所
出处
《中文信息学报》
CSCD
北大核心
2015年第5期211-215,共5页
基金
国家自然科学基金(61202219
61303165
+2 种基金
61132009)
中国科学院信息化专项经费资助(XXH12504-1-10)
中国社科院创新工程项目
文摘
该文选取了藏语文中小学教材的部分语料,构建了带有藏语字性标记、词边界标记和词性标记的语料库,通过比较不同的分词、标注方法,证明分词、词性标注一体化效果比分步进行的效果好,准确率、召回率和F值分别提高了0.067、0.073和0.07。但词级标注模型难以解决词边界划分的一致性和未登录词的问题。基于此,作者提出可以利用字性和字构词的规律预测合成词的词性,既可以融入语言学知识又可以减少由未登录词导致的标注错误,实验结果证明,作为词性标注的后处理模块,基于字性标注的词性预测准确率提高到了0.916,这个结果已经比分词标注一体化结果好,说明字性标注对纠正词性错误标注有明显的效果。
关键词
藏语
语字标注
分词
词性标注
Keywords
Tibetan language
tagging of Tibetan syllables
word segmentation
POS
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
汉藏短语对抽取中短语译文获取方法研究
被引量:
7
8
作者
诺明花
吴健
刘汇丹
丁治明
机构
中国科学院软件研究所
中国科学院研究生院
出处
《中文信息学报》
CSCD
北大核心
2011年第3期112-117,共6页
基金
中国科学院"西部行动计划高新技术项目"资助
文摘
该文从法律法规和公文领域汉藏语料中对待翻译汉语短语提取藏语译文。目前普遍采用的短语对抽取方法需要依赖于词性或句法分析等资源或词对齐技术。考虑现阶段藏文资源不足,词法句法相关技术不成熟,该文提出藏文词串频率统计方法(TSM)和藏文词序列相交算法(TIA)两种方法来获取藏语译文。其中TSM抽取1-1连续和非连续短语准确率达到90%左右,但遗漏1-n情况。TIA能够抽取1-n连续和非连续藏文语块,准确率达到81%。
关键词
藏文语块
短语译文获取
藏文信息处理
中文信息处理
Keywords
Tibetan chunk
phrase translation extraction
Tibetan information processing
Chinese information processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
汉藏短语抽取
被引量:
5
9
作者
诺明花
张立强
刘汇丹
吴健
丁治明
机构
中国科学院软件研究所
中国科学院研究生院
出处
《中文信息学报》
CSCD
北大核心
2011年第2期105-110,121,共7页
基金
中国科学院"西部行动计划高新技术项目"资助(KGCX2-YW-512)
文摘
该文将从汉藏法律法规和公文领域平行语料中提取双语短语对。考虑现阶段藏文资源匮乏,提出两步汉藏短语抽取方法。第一步是提取汉语有效语块,这部分工作不是该文工作重点。第二步是获取待翻译汉语短语的译文,该模块提出藏文词序列相交算法抽取藏文短语。该算法可以很好的抽取1-1和1-n连续和非连续藏文短语。
关键词
汉藏短语抽取
藏文信息处理
中文信息处理
Keywords
Chinese Tibetan phrase extraction
Tibetan information processing
Chinese information processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
数字中国实名信息比对同字同码研究
10
作者
刘汇丹
黄姗姗
机构
中国科学院软件研究所
中国电子技术标准化研究院
出处
《信息技术与标准化》
2023年第11期35-40,共6页
基金
国家语委2023年度重点项目“信息技术产品国家通用语言文字规范应用研究”。
文摘
针对当前实际应用中实名制身份核验失败的问题,列举一字多码的多种表现形式,分析造成问题的5个原因,提出“同字同码”和6项具体实现建议。
关键词
实名身份核验
数字中国
中文编码字符集
GB
18030
Keywords
real name information validation
digital china
chinese coded character set
GB 18030
分类号
TP39 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
藏语三音动词短语自动抽取研究
被引量:
3
11
作者
赵维纳
李琳
刘汇丹
普布顿珠
吴健
机构
青海师范大学
中国科学院软件研究所
中央民族大学
出处
《中文信息学报》
CSCD
北大核心
2015年第3期196-200,共5页
基金
青海省科技创新能力促进项目(2015-23-923Q)
文摘
藏语三音节复合动词短语(以下简称三音动词短语)能产性强,使用频率高,结构不稳定,给藏语文本处理带来很多麻烦。针对这些特点,该文提出了一种统计和规则相结合的三音动词短语的自动抽取算法。首先,从三音动词短语的结构出发,以构成三音动词短语的动语素作为标志,获得三音动词短语候选项。然后,利用统计算法和语言规则库对候选项进行过滤,获得三音动词短语。实验结果表明,统计和规则结合的方法可以有效地从未经标注的藏语语料中获取三音动词短语。
关键词
中文信息处理
藏语信息处理
词汇获取
藏语三音节复合动词短语
Keywords
Chinese information processing
Tibetan information processing
lexical acquisition
Tibetan trisyllabic verb phrases
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
藏文国际音标(拉萨音)自动转换研究
被引量:
3
12
作者
龙从军
刘汇丹
吴健
机构
中国科学院软件研究所
中国社会科学院民族学与人类学研究所
出处
《中文信息学报》
CSCD
北大核心
2016年第5期203-208,214,共7页
文摘
该文旨在实现从藏文文本到国际音标的自动转换,在一定程度上解决获取较大规模的藏文国际音标标注文本的问题。在国际音标转换系统中,采用了基于规则和统计融合的方法,实现了文语语音词自动切分;利用辅音、元音和声调对应规则表实现了藏语音节的国际音标自动转换;利用声调变化规则、辅音和元音变化规则实现了基于语音词的声调变调、辅音和元音的变化。从自动标注的结果来看,达到了实用效果。
关键词
藏语
国际音标
自动转换
分词
Keywords
Tibetan
IPA
automatic conversion
word-segmentation
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
藏语音节标注研究
被引量:
2
13
作者
龙从军
刘汇丹
吴健
机构
中国社会科学院民族学与人类学研究所
中国科学院软件研究所
出处
《中文信息学报》
CSCD
北大核心
2017年第4期89-93,99,共6页
基金
国家语委重点项目(ZDI135-17)
文摘
藏语的"音节"在词汇语法研究和文本信息处理研究中都十分重要,尤其在解决未登录词切分问题和标注中能够发挥积极的作用。然而在现有的研究中,对音节的重视还不够。该文提出在文本标注时,可以先进行音节的性质标注,然后通过音节构词的规律预测复合词的词性,尤其是未登录词的词性。该文作者对藏语音节的定义进行了界定,提出音节的性质分类及标注原则,利用统计模型,在约24万音节的中小学语文教材语料库上进行实验,音节性质标注的正确率为93.520 8%。在此基础上,把音节性质标注信息用到词性标注中。实验结果表明:即使在音节性质标注存在一定错误的情况下,词性标注的正确率也提高到94.196 7%;如果在保证音节性质标注完全正确的情况下,词性标注的正确率可以提高到97.775 4%,这说明音节性质标注信息对词性标注有帮助。
关键词
藏语
藏语音节
音节性质标注
音节性质分类
Keywords
Tibetan language
Tibetan syllable
syllable tagging
syllable classification
分类号
TP301.2 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于句法树的藏语最长名词短语识别
被引量:
4
14
作者
龙从军
刘汇丹
周毛克
机构
中国社会科学院民族学与人类学研究所
中国科学院软件研究所
中国社会科学院大学
出处
《中文信息学报》
CSCD
北大核心
2019年第2期59-66,共8页
基金
国家语委科研项目(ZDI135-17)
文摘
最长名词短语携带着丰富的句法和语义信息,经常与句法成分对应,在句子中充当一定的语义角色。最长名词短语识别在自然语言处理中占重要地位,是分析和理解句子结构、意义的基础。该文通过梳理不同概念的最长名词短语的含义,从句法树角度界定了藏语最长名词短语的基本概念;从句法树库中抽取6 038个句子,分析了最长名词短语的结构类型、边界特征和出现频次,最后采用序列标注模型和句法分析模型对最长名词短语进行识别。序列标注模型识别结果的正确率、召回率和F1值分别为87.14%、84.72%、85.92%。句法分析模型识别结果的正确率、召回率、F1值分别为85.02%、84.51%、84.76%。
关键词
藏语句法树
最长名词短语
名词短语类型
Keywords
Tibetan syntax tree
the longest noun phrase
type of noun phrase
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于词向量的藏文语义相似词知识库构建
被引量:
4
15
作者
龙从军
周毛克
刘汇丹
机构
中国社会科学院民族学与人类学研究所
中国社会科学院大学(研究生院)
中国科学院软件研究所
出处
《中文信息学报》
CSCD
北大核心
2020年第10期33-38,50,共7页
基金
中国社会科学院创新工程项目(2019MZSCX005)
喜马拉雅区域协同创新中心项目(ZFYJY201901009)。
文摘
词向量在自然语言处理研究的各个领域发挥着重要作用。该文从语言学角度出发,讨论了词向量技术与语言学理论的关系;根据词向量的特征,提出利用藏文词向量构建语义相似词知识库。该文以哈尔滨工业大学的《词林》为基础,通过汉藏双语词典对译,在获取对译词的词向量的基础上,计算对译词的词向量与原子词群平均词向量的差值,利用不同的差值,自动筛选出与原子词群语义相似度较小的词。该文分别以藏文的词和音节为单位计算词向量,自动筛出不属于原子词群的词,通过对自动筛选结果与人工筛选结果对比,发现两者具有较高的一致性,这说明词向量计算结果与人的语言直觉具有较高的一致性。总体来说,该文所采用的方法有助于提高藏文语义相似词知识库构建效率。
关键词
词向量
藏文
语义相似词
Keywords
word vector
Tibetan
semantic similar word
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于中心语块扩展的汉藏基本名词短语对的识别
被引量:
1
16
作者
诺明花
刘汇丹
马龙龙
吴健
丁治明
机构
中国科学院软件研究所
出处
《中文信息学报》
CSCD
北大核心
2013年第4期63-69,共7页
基金
国家重大科技专项资助项目(2010ZX01036-001-002
2010ZX01037-001-002)
+1 种基金
国家自然科学基金资助项目(61202219
61202220)
文摘
该文提出汉藏基本名词短语对齐框架。从汉语基本名词短语出发,找藏文正确译文过程中,参考英汉短语对齐的方法,针对藏语的特殊性,提出基于中心语块扩展的藏语基本名词短语识别方法。提出词典与自动词对齐结果相结合的方法和基于序列相交的方法抽取藏语中心语块,再以扩展可信度为依据扩展中心语块。实验结果表明,基于序列相交的方法所抽取的汉藏基本名词短语对能够节省人工校正的工作量,有效辅助于汉藏基本名词短语库的建设。
关键词
藏文信息处理
基本名词短语
中心语块扩展
Keywords
Tibetan information processing
BaseNP ~ head-phrase extension
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
汉—藏人名用字音译规则研究
被引量:
3
17
作者
龙从军
豆格才让
刘汇丹
机构
中国社会科学院民族学与人类学研究所
西藏自治区编译局
中国科学院软件研究所
出处
《中文信息学报》
CSCD
北大核心
2018年第3期71-76,共6页
基金
国家语委重点项目(ZDI135-17)
国家语委一般项目(YB125-180)
文摘
随着信息技术的发展,藏文在互联网上广泛使用,政府主办的报刊、杂志也逐渐有了网络版,大量的汉文材料被翻译成藏文。翻译者在音译汉文人名用字时,未能遵从统一的音译规范,导致同一人名存在多种音译形式。该文统计了五家藏文网站,发现一些公众人物的人名用字音译形式比较混乱,不但影响信息交流,而且不利于藏文自然语言处理。该文详细分析了音译混乱的原因,提出在汉—藏人名用字音译时,需要制定一一对应的音译原则;同时注重原则实践的可行性和一致性。翻译者在音译汉—藏人名用字时必须严格遵从音译原则;推行音译原则还需要依靠相关政府机构和部门。
关键词
汉—藏人名
人名音译
音译原则
Keywords
Chinese-Tibetan person's names
name transliteration
transliteration principles
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于关联度的汉藏多词单元等价对抽取方法
被引量:
1
18
作者
诺明花
刘汇丹
吴健
丁治明
机构
中国科学院软件研究所
中国科学院研究生院
出处
《中文信息学报》
CSCD
北大核心
2012年第3期98-103,共6页
基金
中国科学院"西部行动计划高新技术项目"(KGCX2-YW-512)
文摘
针对为汉藏辅助翻译系统建立汉藏多词单元翻译词典这一任务,该文提出了CMWEPM模型。该模型首先依据关联度和结合度来确定汉语语料中多词单元的边界,然后根据词对齐信息分别抽取严格和约束多词单元等价对,从而形成汉藏多词单元等价对。CMWEPM模型根据不同长度和频次对多词单元进行分类,并为不同类型设定不同阈值,最终提高了汉藏多词单元等价对的召回率,从而能够间接地提高汉藏辅助翻译系统的翻译质量。
关键词
藏文信息处理
多词单元
关联度
Keywords
Tibetan information processing
multi-word units
collocation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
国际音标输入软件的设计与实现
被引量:
1
19
作者
江荻
刘汇丹
吴兵
机构
中国社会科学院民族学与人类学研究所
上海师范大学语言研究所
中国科学院软件研究所
西南民族大学计算机学院
出处
《中文信息学报》
CSCD
北大核心
2011年第2期111-116,共6页
文摘
文章以蓝蝶国际音标(形类)输入法为对象论述了国际音标输入系统的编码思想、算法设计和字体制作。输入编码的基本原则是字形的分类,合理的分类能产生适合用户的键盘操作习惯;算法设计提出了高频优先的动态连续输入效果;字体制作能及时添加所需字符,并完善字句行距等多文种混排版面质量。
关键词
国际音标
输入编码
动态键盘
连续输入
字库设计
Keywords
IPA
input code
dynamic keyboard
continuous input
font design
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
传统蒙古文“同形不同码”问题研究
20
作者
安波
诺明花
吴健
刘汇丹
马龙龙
机构
中国科学院软件研究所
中国科学院大学
出处
《信息技术与标准化》
2015年第1期62-66,共5页
基金
国家自然科学基金
项目编号:61303165
+3 种基金
61202219
61202220
新闻出版重大科技工程
项目编号:0610-1041BJNF 2328/23
文摘
设计并实现了一种基于语料库的传统蒙古文同形不同码识别系统。通过网络爬虫获取原始语料,然后对语料进行预处理并生成词表和倒排索引。基于词表利用GDI和传统蒙古文字库对每个传统蒙古文词生成字形图,并根据字形图之间的相似度识别出相同的字形。系统根据倒排索引、同形词列表统计出语料中传统蒙古文同形不同码的情况。实验结果显示,同形不同码问题在传统蒙古文中普遍存在,反映出了制定相关标准的迫切性。
关键词
传统蒙古文
同形不同码
爬虫
倒排索引
语料库
Keywords
raditional mongolian same shape and different code
web spider
inverted index
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
SegT:一个实用的藏文分词系统
刘汇丹
诺明花
赵维纳
吴健
贺也平
《中文信息学报》
CSCD
北大核心
2012
25
下载PDF
职称材料
2
基于Qt的国际化图形用户界面设计与实现
刘汇丹
芮建武
姚延栋
吴健
《中文信息学报》
CSCD
北大核心
2006
12
下载PDF
职称材料
3
Web藏文文本资源挖掘与利用研究
刘汇丹
诺明花
马龙龙
吴健
贺也平
《中文信息学报》
CSCD
北大核心
2015
6
下载PDF
职称材料
4
基于大规模网络语料的藏文音节拼写错误统计与分析
刘汇丹
洪锦玲
诺明花
吴健
《中文信息学报》
CSCD
北大核心
2017
6
下载PDF
职称材料
5
面向公共服务的中文编码字符集实用子集的构建方法研究
纪熙东
黄姗姗
刘汇丹
《信息技术与标准化》
2024
0
下载PDF
职称材料
6
现代藏语助动词结尾句子边界识别方法
赵维纳
于新
刘汇丹
李琳
王磊
吴健
《中文信息学报》
CSCD
北大核心
2013
7
下载PDF
职称材料
7
基于藏语字性标注的词性预测研究
龙从军
刘汇丹
诺明花
吴健
《中文信息学报》
CSCD
北大核心
2015
7
下载PDF
职称材料
8
汉藏短语对抽取中短语译文获取方法研究
诺明花
吴健
刘汇丹
丁治明
《中文信息学报》
CSCD
北大核心
2011
7
下载PDF
职称材料
9
汉藏短语抽取
诺明花
张立强
刘汇丹
吴健
丁治明
《中文信息学报》
CSCD
北大核心
2011
5
下载PDF
职称材料
10
数字中国实名信息比对同字同码研究
刘汇丹
黄姗姗
《信息技术与标准化》
2023
0
下载PDF
职称材料
11
藏语三音动词短语自动抽取研究
赵维纳
李琳
刘汇丹
普布顿珠
吴健
《中文信息学报》
CSCD
北大核心
2015
3
下载PDF
职称材料
12
藏文国际音标(拉萨音)自动转换研究
龙从军
刘汇丹
吴健
《中文信息学报》
CSCD
北大核心
2016
3
下载PDF
职称材料
13
藏语音节标注研究
龙从军
刘汇丹
吴健
《中文信息学报》
CSCD
北大核心
2017
2
下载PDF
职称材料
14
基于句法树的藏语最长名词短语识别
龙从军
刘汇丹
周毛克
《中文信息学报》
CSCD
北大核心
2019
4
下载PDF
职称材料
15
基于词向量的藏文语义相似词知识库构建
龙从军
周毛克
刘汇丹
《中文信息学报》
CSCD
北大核心
2020
4
下载PDF
职称材料
16
基于中心语块扩展的汉藏基本名词短语对的识别
诺明花
刘汇丹
马龙龙
吴健
丁治明
《中文信息学报》
CSCD
北大核心
2013
1
下载PDF
职称材料
17
汉—藏人名用字音译规则研究
龙从军
豆格才让
刘汇丹
《中文信息学报》
CSCD
北大核心
2018
3
下载PDF
职称材料
18
基于关联度的汉藏多词单元等价对抽取方法
诺明花
刘汇丹
吴健
丁治明
《中文信息学报》
CSCD
北大核心
2012
1
下载PDF
职称材料
19
国际音标输入软件的设计与实现
江荻
刘汇丹
吴兵
《中文信息学报》
CSCD
北大核心
2011
1
下载PDF
职称材料
20
传统蒙古文“同形不同码”问题研究
安波
诺明花
吴健
刘汇丹
马龙龙
《信息技术与标准化》
2015
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部