期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
数字中国实名信息比对同字同码研究
1
作者 刘汇丹 黄姗姗 《信息技术与标准化》 2023年第11期35-40,共6页
针对当前实际应用中实名制身份核验失败的问题,列举一字多码的多种表现形式,分析造成问题的5个原因,提出“同字同码”和6项具体实现建议。
关键词 实名身份核验 数字中国 中文编码字符集 GB 18030
下载PDF
SegT:一个实用的藏文分词系统 被引量:24
2
作者 刘汇丹 诺明花 +2 位作者 赵维纳 吴健 贺也平 《中文信息学报》 CSCD 北大核心 2012年第1期97-103,共7页
在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,... 在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,并进行紧缩词识别。系统采用双向切分检测交集型歧义字段并使用预先统计的词频信息进行消歧。实验结果表明,该文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词效果没有明显提高或降低。系统最终分词正确率为96.98%,基本达到了实用的水平。 展开更多
关键词 藏文分词 格助词 临界词识别 词频统计 藏文信息处理 中文信息处理
下载PDF
基于Qt的国际化图形用户界面设计与实现 被引量:12
3
作者 刘汇丹 芮建武 +1 位作者 姚延栋 吴健 《中文信息学报》 CSCD 北大核心 2006年第4期94-99,共6页
一次开发多语言使用是国际化软件开发的主要目标。但是世界上的文字多种多样,它们的书写方向也有所不同,除了水平从左向右书写的英文、水平从右往左书写的阿拉伯文外,还有类似蒙古文这样垂直排列的文字,这对计算机图形用户界面提出了更... 一次开发多语言使用是国际化软件开发的主要目标。但是世界上的文字多种多样,它们的书写方向也有所不同,除了水平从左向右书写的英文、水平从右往左书写的阿拉伯文外,还有类似蒙古文这样垂直排列的文字,这对计算机图形用户界面提出了更高的要求,现有的计算机系统将这类垂直排列的文字沿水平方向输出,极不符合少数民族人民的习惯。在分析现有Qt库对类似阿拉伯文这样从右向左书写的文字的部分支持机制的基础上,我们设计并实现了支持四种方向模式的国际化的图形用户界面,现在它已经能够适应世界上几乎所有的文字。这对于软件国际化以及民族语言信息处理有重要意义。 展开更多
关键词 计算机应用 中文信息处理 图形用户界面 Qt库 国际化 民族文字处理
下载PDF
Web藏文文本资源挖掘与利用研究 被引量:6
4
作者 刘汇丹 诺明花 +2 位作者 马龙龙 吴健 贺也平 《中文信息学报》 CSCD 北大核心 2015年第1期170-177,共8页
该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧... 该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。 展开更多
关键词 WEB 语料 文本挖掘 信息抽取 藏文信息处理 中文信息处理
下载PDF
基于大规模网络语料的藏文音节拼写错误统计与分析 被引量:6
5
作者 刘汇丹 洪锦玲 +1 位作者 诺明花 吴健 《中文信息学报》 CSCD 北大核心 2017年第2期61-70,共10页
针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20 743个藏文音节中,含有拼写错误的音节共有9 700... 针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20 743个藏文音节中,含有拼写错误的音节共有9 700个,占藏文音节总数的46.762 8%,错误音节在语料中共出现27 427次,仅占0.030 8%,说明这份语料的文本质量是相当高的。文中还详细统计了各种不同表现形式的错误音节所占比重,并分析了导致拼写错误的四个主要原因:一是输入了多余的元音符号;二是音节点或句尾空格缺失;三是同一字丁/字符存在多种表达形式;四是错误地使用了相似字符。 展开更多
关键词 藏文拼写检查 拼写检查 语料 统计 藏文信息处理 中文信息处理
下载PDF
现代藏语助动词结尾句子边界识别方法 被引量:7
6
作者 赵维纳 于新 +3 位作者 刘汇丹 李琳 王磊 吴健 《中文信息学报》 CSCD 北大核心 2013年第1期115-119,共5页
藏语句子边界的正确识别是藏文文本处理首先要解决的问题。而藏语书面语中标点符号的特殊性是造成藏语句子边界识别困难的主要原因。该文主要对现代书面藏语中常见的以藏语助动词结尾的藏语句子边界识别进行研究,结合藏文标点符号的特... 藏语句子边界的正确识别是藏文文本处理首先要解决的问题。而藏语书面语中标点符号的特殊性是造成藏语句子边界识别困难的主要原因。该文主要对现代书面藏语中常见的以藏语助动词结尾的藏语句子边界识别进行研究,结合藏文标点符号的特点提出藏语助动词结尾句子边界识别方法。 展开更多
关键词 藏语分句 藏语句子边界识别 藏语信息处理 中文信息处理
下载PDF
汉藏短语对抽取中短语译文获取方法研究 被引量:7
7
作者 诺明花 吴健 +1 位作者 刘汇丹 丁治明 《中文信息学报》 CSCD 北大核心 2011年第3期112-117,共6页
该文从法律法规和公文领域汉藏语料中对待翻译汉语短语提取藏语译文。目前普遍采用的短语对抽取方法需要依赖于词性或句法分析等资源或词对齐技术。考虑现阶段藏文资源不足,词法句法相关技术不成熟,该文提出藏文词串频率统计方法(TSM)... 该文从法律法规和公文领域汉藏语料中对待翻译汉语短语提取藏语译文。目前普遍采用的短语对抽取方法需要依赖于词性或句法分析等资源或词对齐技术。考虑现阶段藏文资源不足,词法句法相关技术不成熟,该文提出藏文词串频率统计方法(TSM)和藏文词序列相交算法(TIA)两种方法来获取藏语译文。其中TSM抽取1-1连续和非连续短语准确率达到90%左右,但遗漏1-n情况。TIA能够抽取1-n连续和非连续藏文语块,准确率达到81%。 展开更多
关键词 藏文语块 短语译文获取 藏文信息处理 中文信息处理
下载PDF
汉藏短语抽取 被引量:5
8
作者 诺明花 张立强 +2 位作者 刘汇丹 吴健 丁治明 《中文信息学报》 CSCD 北大核心 2011年第2期105-110,121,共7页
该文将从汉藏法律法规和公文领域平行语料中提取双语短语对。考虑现阶段藏文资源匮乏,提出两步汉藏短语抽取方法。第一步是提取汉语有效语块,这部分工作不是该文工作重点。第二步是获取待翻译汉语短语的译文,该模块提出藏文词序列相交... 该文将从汉藏法律法规和公文领域平行语料中提取双语短语对。考虑现阶段藏文资源匮乏,提出两步汉藏短语抽取方法。第一步是提取汉语有效语块,这部分工作不是该文工作重点。第二步是获取待翻译汉语短语的译文,该模块提出藏文词序列相交算法抽取藏文短语。该算法可以很好的抽取1-1和1-n连续和非连续藏文短语。 展开更多
关键词 汉藏短语抽取 藏文信息处理 中文信息处理
下载PDF
藏语三音动词短语自动抽取研究 被引量:3
9
作者 赵维纳 李琳 +2 位作者 刘汇丹 普布顿珠 吴健 《中文信息学报》 CSCD 北大核心 2015年第3期196-200,共5页
藏语三音节复合动词短语(以下简称三音动词短语)能产性强,使用频率高,结构不稳定,给藏语文本处理带来很多麻烦。针对这些特点,该文提出了一种统计和规则相结合的三音动词短语的自动抽取算法。首先,从三音动词短语的结构出发,以构成三音... 藏语三音节复合动词短语(以下简称三音动词短语)能产性强,使用频率高,结构不稳定,给藏语文本处理带来很多麻烦。针对这些特点,该文提出了一种统计和规则相结合的三音动词短语的自动抽取算法。首先,从三音动词短语的结构出发,以构成三音动词短语的动语素作为标志,获得三音动词短语候选项。然后,利用统计算法和语言规则库对候选项进行过滤,获得三音动词短语。实验结果表明,统计和规则结合的方法可以有效地从未经标注的藏语语料中获取三音动词短语。 展开更多
关键词 中文信息处理 藏语信息处理 词汇获取 藏语三音节复合动词短语
下载PDF
基于藏语字性标注的词性预测研究 被引量:3
10
作者 龙从军 刘汇丹 +1 位作者 诺明花 吴健 《中文信息学报》 CSCD 北大核心 2015年第5期211-215,共5页
该文选取了藏语文中小学教材的部分语料,构建了带有藏语字性标记、词边界标记和词性标记的语料库,通过比较不同的分词、标注方法,证明分词、词性标注一体化效果比分步进行的效果好,准确率、召回率和F值分别提高了0.067、0.073和0.07。... 该文选取了藏语文中小学教材的部分语料,构建了带有藏语字性标记、词边界标记和词性标记的语料库,通过比较不同的分词、标注方法,证明分词、词性标注一体化效果比分步进行的效果好,准确率、召回率和F值分别提高了0.067、0.073和0.07。但词级标注模型难以解决词边界划分的一致性和未登录词的问题。基于此,作者提出可以利用字性和字构词的规律预测合成词的词性,既可以融入语言学知识又可以减少由未登录词导致的标注错误,实验结果证明,作为词性标注的后处理模块,基于字性标注的词性预测准确率提高到了0.916,这个结果已经比分词标注一体化结果好,说明字性标注对纠正词性错误标注有明显的效果。 展开更多
关键词 藏语 语字标注 分词 词性标注
下载PDF
藏文国际音标(拉萨音)自动转换研究 被引量:3
11
作者 龙从军 刘汇丹 吴健 《中文信息学报》 CSCD 北大核心 2016年第5期203-208,214,共7页
该文旨在实现从藏文文本到国际音标的自动转换,在一定程度上解决获取较大规模的藏文国际音标标注文本的问题。在国际音标转换系统中,采用了基于规则和统计融合的方法,实现了文语语音词自动切分;利用辅音、元音和声调对应规则表实现了藏... 该文旨在实现从藏文文本到国际音标的自动转换,在一定程度上解决获取较大规模的藏文国际音标标注文本的问题。在国际音标转换系统中,采用了基于规则和统计融合的方法,实现了文语语音词自动切分;利用辅音、元音和声调对应规则表实现了藏语音节的国际音标自动转换;利用声调变化规则、辅音和元音变化规则实现了基于语音词的声调变调、辅音和元音的变化。从自动标注的结果来看,达到了实用效果。 展开更多
关键词 藏语 国际音标 自动转换 分词
下载PDF
藏语音节标注研究 被引量:2
12
作者 龙从军 刘汇丹 吴健 《中文信息学报》 CSCD 北大核心 2017年第4期89-93,99,共6页
藏语的"音节"在词汇语法研究和文本信息处理研究中都十分重要,尤其在解决未登录词切分问题和标注中能够发挥积极的作用。然而在现有的研究中,对音节的重视还不够。该文提出在文本标注时,可以先进行音节的性质标注,然后通过音... 藏语的"音节"在词汇语法研究和文本信息处理研究中都十分重要,尤其在解决未登录词切分问题和标注中能够发挥积极的作用。然而在现有的研究中,对音节的重视还不够。该文提出在文本标注时,可以先进行音节的性质标注,然后通过音节构词的规律预测复合词的词性,尤其是未登录词的词性。该文作者对藏语音节的定义进行了界定,提出音节的性质分类及标注原则,利用统计模型,在约24万音节的中小学语文教材语料库上进行实验,音节性质标注的正确率为93.520 8%。在此基础上,把音节性质标注信息用到词性标注中。实验结果表明:即使在音节性质标注存在一定错误的情况下,词性标注的正确率也提高到94.196 7%;如果在保证音节性质标注完全正确的情况下,词性标注的正确率可以提高到97.775 4%,这说明音节性质标注信息对词性标注有帮助。 展开更多
关键词 藏语 藏语音节 音节性质标注 音节性质分类
下载PDF
基于句法树的藏语最长名词短语识别 被引量:4
13
作者 龙从军 刘汇丹 周毛克 《中文信息学报》 CSCD 北大核心 2019年第2期59-66,共8页
最长名词短语携带着丰富的句法和语义信息,经常与句法成分对应,在句子中充当一定的语义角色。最长名词短语识别在自然语言处理中占重要地位,是分析和理解句子结构、意义的基础。该文通过梳理不同概念的最长名词短语的含义,从句法树角度... 最长名词短语携带着丰富的句法和语义信息,经常与句法成分对应,在句子中充当一定的语义角色。最长名词短语识别在自然语言处理中占重要地位,是分析和理解句子结构、意义的基础。该文通过梳理不同概念的最长名词短语的含义,从句法树角度界定了藏语最长名词短语的基本概念;从句法树库中抽取6 038个句子,分析了最长名词短语的结构类型、边界特征和出现频次,最后采用序列标注模型和句法分析模型对最长名词短语进行识别。序列标注模型识别结果的正确率、召回率和F1值分别为87.14%、84.72%、85.92%。句法分析模型识别结果的正确率、召回率、F1值分别为85.02%、84.51%、84.76%。 展开更多
关键词 藏语句法树 最长名词短语 名词短语类型
下载PDF
基于词向量的藏文语义相似词知识库构建 被引量:4
14
作者 龙从军 周毛克 刘汇丹 《中文信息学报》 CSCD 北大核心 2020年第10期33-38,50,共7页
词向量在自然语言处理研究的各个领域发挥着重要作用。该文从语言学角度出发,讨论了词向量技术与语言学理论的关系;根据词向量的特征,提出利用藏文词向量构建语义相似词知识库。该文以哈尔滨工业大学的《词林》为基础,通过汉藏双语词典... 词向量在自然语言处理研究的各个领域发挥着重要作用。该文从语言学角度出发,讨论了词向量技术与语言学理论的关系;根据词向量的特征,提出利用藏文词向量构建语义相似词知识库。该文以哈尔滨工业大学的《词林》为基础,通过汉藏双语词典对译,在获取对译词的词向量的基础上,计算对译词的词向量与原子词群平均词向量的差值,利用不同的差值,自动筛选出与原子词群语义相似度较小的词。该文分别以藏文的词和音节为单位计算词向量,自动筛出不属于原子词群的词,通过对自动筛选结果与人工筛选结果对比,发现两者具有较高的一致性,这说明词向量计算结果与人的语言直觉具有较高的一致性。总体来说,该文所采用的方法有助于提高藏文语义相似词知识库构建效率。 展开更多
关键词 词向量 藏文 语义相似词
下载PDF
基于中心语块扩展的汉藏基本名词短语对的识别 被引量:1
15
作者 诺明花 刘汇丹 +2 位作者 马龙龙 吴健 丁治明 《中文信息学报》 CSCD 北大核心 2013年第4期63-69,共7页
该文提出汉藏基本名词短语对齐框架。从汉语基本名词短语出发,找藏文正确译文过程中,参考英汉短语对齐的方法,针对藏语的特殊性,提出基于中心语块扩展的藏语基本名词短语识别方法。提出词典与自动词对齐结果相结合的方法和基于序列相交... 该文提出汉藏基本名词短语对齐框架。从汉语基本名词短语出发,找藏文正确译文过程中,参考英汉短语对齐的方法,针对藏语的特殊性,提出基于中心语块扩展的藏语基本名词短语识别方法。提出词典与自动词对齐结果相结合的方法和基于序列相交的方法抽取藏语中心语块,再以扩展可信度为依据扩展中心语块。实验结果表明,基于序列相交的方法所抽取的汉藏基本名词短语对能够节省人工校正的工作量,有效辅助于汉藏基本名词短语库的建设。 展开更多
关键词 藏文信息处理 基本名词短语 中心语块扩展
下载PDF
汉—藏人名用字音译规则研究 被引量:3
16
作者 龙从军 豆格才让 刘汇丹 《中文信息学报》 CSCD 北大核心 2018年第3期71-76,共6页
随着信息技术的发展,藏文在互联网上广泛使用,政府主办的报刊、杂志也逐渐有了网络版,大量的汉文材料被翻译成藏文。翻译者在音译汉文人名用字时,未能遵从统一的音译规范,导致同一人名存在多种音译形式。该文统计了五家藏文网站,发现一... 随着信息技术的发展,藏文在互联网上广泛使用,政府主办的报刊、杂志也逐渐有了网络版,大量的汉文材料被翻译成藏文。翻译者在音译汉文人名用字时,未能遵从统一的音译规范,导致同一人名存在多种音译形式。该文统计了五家藏文网站,发现一些公众人物的人名用字音译形式比较混乱,不但影响信息交流,而且不利于藏文自然语言处理。该文详细分析了音译混乱的原因,提出在汉—藏人名用字音译时,需要制定一一对应的音译原则;同时注重原则实践的可行性和一致性。翻译者在音译汉—藏人名用字时必须严格遵从音译原则;推行音译原则还需要依靠相关政府机构和部门。 展开更多
关键词 汉—藏人名 人名音译 音译原则
下载PDF
基于关联度的汉藏多词单元等价对抽取方法 被引量:1
17
作者 诺明花 刘汇丹 +1 位作者 吴健 丁治明 《中文信息学报》 CSCD 北大核心 2012年第3期98-103,共6页
针对为汉藏辅助翻译系统建立汉藏多词单元翻译词典这一任务,该文提出了CMWEPM模型。该模型首先依据关联度和结合度来确定汉语语料中多词单元的边界,然后根据词对齐信息分别抽取严格和约束多词单元等价对,从而形成汉藏多词单元等价对。CM... 针对为汉藏辅助翻译系统建立汉藏多词单元翻译词典这一任务,该文提出了CMWEPM模型。该模型首先依据关联度和结合度来确定汉语语料中多词单元的边界,然后根据词对齐信息分别抽取严格和约束多词单元等价对,从而形成汉藏多词单元等价对。CMWEPM模型根据不同长度和频次对多词单元进行分类,并为不同类型设定不同阈值,最终提高了汉藏多词单元等价对的召回率,从而能够间接地提高汉藏辅助翻译系统的翻译质量。 展开更多
关键词 藏文信息处理 多词单元 关联度
下载PDF
国际音标输入软件的设计与实现 被引量:1
18
作者 江荻 刘汇丹 吴兵 《中文信息学报》 CSCD 北大核心 2011年第2期111-116,共6页
文章以蓝蝶国际音标(形类)输入法为对象论述了国际音标输入系统的编码思想、算法设计和字体制作。输入编码的基本原则是字形的分类,合理的分类能产生适合用户的键盘操作习惯;算法设计提出了高频优先的动态连续输入效果;字体制作能及时... 文章以蓝蝶国际音标(形类)输入法为对象论述了国际音标输入系统的编码思想、算法设计和字体制作。输入编码的基本原则是字形的分类,合理的分类能产生适合用户的键盘操作习惯;算法设计提出了高频优先的动态连续输入效果;字体制作能及时添加所需字符,并完善字句行距等多文种混排版面质量。 展开更多
关键词 国际音标 输入编码 动态键盘 连续输入 字库设计
下载PDF
传统蒙古文“同形不同码”问题研究
19
作者 安波 诺明花 +2 位作者 吴健 刘汇丹 马龙龙 《信息技术与标准化》 2015年第1期62-66,共5页
设计并实现了一种基于语料库的传统蒙古文同形不同码识别系统。通过网络爬虫获取原始语料,然后对语料进行预处理并生成词表和倒排索引。基于词表利用GDI和传统蒙古文字库对每个传统蒙古文词生成字形图,并根据字形图之间的相似度识别出... 设计并实现了一种基于语料库的传统蒙古文同形不同码识别系统。通过网络爬虫获取原始语料,然后对语料进行预处理并生成词表和倒排索引。基于词表利用GDI和传统蒙古文字库对每个传统蒙古文词生成字形图,并根据字形图之间的相似度识别出相同的字形。系统根据倒排索引、同形词列表统计出语料中传统蒙古文同形不同码的情况。实验结果显示,同形不同码问题在传统蒙古文中普遍存在,反映出了制定相关标准的迫切性。 展开更多
关键词 传统蒙古文 同形不同码 爬虫 倒排索引 语料库
下载PDF
藏文编码字符集标准应用中的问题及对策
20
作者 龙从军 刘汇丹 +2 位作者 安波 才华 吴健 《信息技术与标准化》 2016年第1期46-51,共6页
藏文文本中存在同形异码现象给文本处理带来一定的问题。通过大规模文本统计,找出了90组同形异码实例;分析发现,藏文文本中同形异码现象是国际编码集中同时存在单字符编码和组合字符编码导致的。描述了各种可能产生同形异码的字符,从改... 藏文文本中存在同形异码现象给文本处理带来一定的问题。通过大规模文本统计,找出了90组同形异码实例;分析发现,藏文文本中同形异码现象是国际编码集中同时存在单字符编码和组合字符编码导致的。描述了各种可能产生同形异码的字符,从改进国际编码字符集和改进输入法等方面提出一些建议。 展开更多
关键词 藏文国际编码 藏文输入法 单字符 组合字符
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部