-
题名汉藏短语对抽取中短语译文获取方法研究
被引量:7
- 1
-
-
作者
诺明花
吴健
刘汇丹
丁治明
-
机构
中国科学院软件研究所
中国科学院研究生院
-
出处
《中文信息学报》
CSCD
北大核心
2011年第3期112-117,共6页
-
基金
中国科学院"西部行动计划高新技术项目"资助
-
文摘
该文从法律法规和公文领域汉藏语料中对待翻译汉语短语提取藏语译文。目前普遍采用的短语对抽取方法需要依赖于词性或句法分析等资源或词对齐技术。考虑现阶段藏文资源不足,词法句法相关技术不成熟,该文提出藏文词串频率统计方法(TSM)和藏文词序列相交算法(TIA)两种方法来获取藏语译文。其中TSM抽取1-1连续和非连续短语准确率达到90%左右,但遗漏1-n情况。TIA能够抽取1-n连续和非连续藏文语块,准确率达到81%。
-
关键词
藏文语块
短语译文获取
藏文信息处理
中文信息处理
-
Keywords
Tibetan chunk
phrase translation extraction
Tibetan information processing
Chinese information processing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名汉藏短语抽取
被引量:5
- 2
-
-
作者
诺明花
张立强
刘汇丹
吴健
丁治明
-
机构
中国科学院软件研究所
中国科学院研究生院
-
出处
《中文信息学报》
CSCD
北大核心
2011年第2期105-110,121,共7页
-
基金
中国科学院"西部行动计划高新技术项目"资助(KGCX2-YW-512)
-
文摘
该文将从汉藏法律法规和公文领域平行语料中提取双语短语对。考虑现阶段藏文资源匮乏,提出两步汉藏短语抽取方法。第一步是提取汉语有效语块,这部分工作不是该文工作重点。第二步是获取待翻译汉语短语的译文,该模块提出藏文词序列相交算法抽取藏文短语。该算法可以很好的抽取1-1和1-n连续和非连续藏文短语。
-
关键词
汉藏短语抽取
藏文信息处理
中文信息处理
-
Keywords
Chinese Tibetan phrase extraction
Tibetan information processing
Chinese information processing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于中心语块扩展的汉藏基本名词短语对的识别
被引量:1
- 3
-
-
作者
诺明花
刘汇丹
马龙龙
吴健
丁治明
-
机构
中国科学院软件研究所
-
出处
《中文信息学报》
CSCD
北大核心
2013年第4期63-69,共7页
-
基金
国家重大科技专项资助项目(2010ZX01036-001-002
2010ZX01037-001-002)
+1 种基金
国家自然科学基金资助项目(61202219
61202220)
-
文摘
该文提出汉藏基本名词短语对齐框架。从汉语基本名词短语出发,找藏文正确译文过程中,参考英汉短语对齐的方法,针对藏语的特殊性,提出基于中心语块扩展的藏语基本名词短语识别方法。提出词典与自动词对齐结果相结合的方法和基于序列相交的方法抽取藏语中心语块,再以扩展可信度为依据扩展中心语块。实验结果表明,基于序列相交的方法所抽取的汉藏基本名词短语对能够节省人工校正的工作量,有效辅助于汉藏基本名词短语库的建设。
-
关键词
藏文信息处理
基本名词短语
中心语块扩展
-
Keywords
Tibetan information processing
BaseNP ~ head-phrase extension
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于关联度的汉藏多词单元等价对抽取方法
被引量:1
- 4
-
-
作者
诺明花
刘汇丹
吴健
丁治明
-
机构
中国科学院软件研究所
中国科学院研究生院
-
出处
《中文信息学报》
CSCD
北大核心
2012年第3期98-103,共6页
-
基金
中国科学院"西部行动计划高新技术项目"(KGCX2-YW-512)
-
文摘
针对为汉藏辅助翻译系统建立汉藏多词单元翻译词典这一任务,该文提出了CMWEPM模型。该模型首先依据关联度和结合度来确定汉语语料中多词单元的边界,然后根据词对齐信息分别抽取严格和约束多词单元等价对,从而形成汉藏多词单元等价对。CMWEPM模型根据不同长度和频次对多词单元进行分类,并为不同类型设定不同阈值,最终提高了汉藏多词单元等价对的召回率,从而能够间接地提高汉藏辅助翻译系统的翻译质量。
-
关键词
藏文信息处理
多词单元
关联度
-
Keywords
Tibetan information processing
multi-word units
collocation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种语音信息检测方法的研究
被引量:1
- 5
-
-
作者
诺明花
吾守尔.斯拉木
-
机构
新疆大学信息科学与工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2006年第3期69-72,共4页
-
文摘
文章提出了一种新的语音信息检测的较灵活的方法。其中用到了两种技术:人工神经网络和复倒谱矩阵。目的是如果用人工神经网络就能够较彻底地解决未明确定义的映射关系。对各种在较低的噪音信噪比值情况下观察结果都有较高的可信度。在语音信号检测过程中,由于语音的特征文章利用线性预测系数得到复倒谱矩阵,这样做会以最低的代价提供较高的对数频谱的估计程度,并且提高了频谱域和时域的有效性。文章测试了几种不同的W SS噪声以及不同信噪比(SNR)的情形,在3dB~10dB的范围之内,AN N方法显著地优于利用语音信号的能量和过零率检测的方法,同时也提高了其它基于复倒谱矩阵方法的准确率。
-
关键词
语音检测
复倒谱矩阵
神经网络
WSS噪声
-
Keywords
speech detection,cepstral matrices,neural networks,WSS noises
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名SegT:一个实用的藏文分词系统
被引量:25
- 6
-
-
作者
刘汇丹
诺明花
赵维纳
吴健
贺也平
-
机构
中国科学院软件研究所
中国科学院研究生院
北京语言大学
青海师范大学
-
出处
《中文信息学报》
CSCD
北大核心
2012年第1期97-103,共7页
-
基金
国家重大科技专项资助项目(2010ZX01036-001-002
2010ZX01037-001-002)
中国科学院西部行动计划资助项目(KGCX2-YW-512)
-
文摘
在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,并进行紧缩词识别。系统采用双向切分检测交集型歧义字段并使用预先统计的词频信息进行消歧。实验结果表明,该文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词效果没有明显提高或降低。系统最终分词正确率为96.98%,基本达到了实用的水平。
-
关键词
藏文分词
格助词
临界词识别
词频统计
藏文信息处理
中文信息处理
-
Keywords
Tibetan word segmentation
case-auxiliary words
critical word detection
word frequency statistics
Tibetan information processing
Chinese information processing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名Web藏文文本资源挖掘与利用研究
被引量:6
- 7
-
-
作者
刘汇丹
诺明花
马龙龙
吴健
贺也平
-
机构
中国科学院软件研究所
中国科学院大学
-
出处
《中文信息学报》
CSCD
北大核心
2015年第1期170-177,共8页
-
基金
国家自然科学基金(61202219
61202220
+1 种基金
61303165)
中国科学院信息化专项经费资助(XXH12504-1-10)
-
文摘
该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。
-
关键词
WEB
语料
文本挖掘
信息抽取
藏文信息处理
中文信息处理
-
Keywords
Web
corpus
text mining
information extraction
Tibetan information processing
Chinese informationprocessing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于核方法的敏感信息过滤的研究
被引量:8
- 8
-
-
作者
李文波
孙乐
诺明花
吴健
-
机构
中国科学院软件研究所
-
出处
《通信学报》
EI
CSCD
北大核心
2008年第4期57-62,共6页
-
基金
国家自然科学基金资助项目(60773027,60736044)
国家高技术研究发展计划(“863”计划)基金资助项目(2006AA010108)
国家信息安全计划(“242”计划)基金资助项目(2005A18,2006A40)~~
-
文摘
在深入分析敏感信息过滤任务的特点和难点的基础上,针对现有一般的信息过滤方法的不足,提出了一种利用敏感词的组合信息来改进过滤效果的思想。进而,研究了在核方法的框架下特征共现行为建模的原则并提出了复合ANOVA核来刻画特征组合行为。通过真实信息过滤环境中的测试评估,显示了此敏感信息过滤方法的有效性。
-
关键词
信息过滤
内容安全
核方法
特征空间
-
Keywords
information filtering
content security
kernel method
feature space
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名基于大规模网络语料的藏文音节拼写错误统计与分析
被引量:6
- 9
-
-
作者
刘汇丹
洪锦玲
诺明花
吴健
-
机构
中国科学院软件研究所
-
出处
《中文信息学报》
CSCD
北大核心
2017年第2期61-70,共10页
-
基金
国家自然科学基金(61202219
61303165)
+1 种基金
中国科学院信息化专项(XXH12504-1-10)
新闻出版重大科技工程(0610-1041BJNF 2328/23)
-
文摘
针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20 743个藏文音节中,含有拼写错误的音节共有9 700个,占藏文音节总数的46.762 8%,错误音节在语料中共出现27 427次,仅占0.030 8%,说明这份语料的文本质量是相当高的。文中还详细统计了各种不同表现形式的错误音节所占比重,并分析了导致拼写错误的四个主要原因:一是输入了多余的元音符号;二是音节点或句尾空格缺失;三是同一字丁/字符存在多种表达形式;四是错误地使用了相似字符。
-
关键词
藏文拼写检查
拼写检查
语料
统计
藏文信息处理
中文信息处理
-
Keywords
Tibetan spell check
spell check
corpus
Tibetan information processing
Chinese information processing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于藏语字性标注的词性预测研究
被引量:7
- 10
-
-
作者
龙从军
刘汇丹
诺明花
吴健
-
机构
中国科学院软件研究所
中国社会科学院民族学与人类学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2015年第5期211-215,共5页
-
基金
国家自然科学基金(61202219
61303165
+2 种基金
61132009)
中国科学院信息化专项经费资助(XXH12504-1-10)
中国社科院创新工程项目
-
文摘
该文选取了藏语文中小学教材的部分语料,构建了带有藏语字性标记、词边界标记和词性标记的语料库,通过比较不同的分词、标注方法,证明分词、词性标注一体化效果比分步进行的效果好,准确率、召回率和F值分别提高了0.067、0.073和0.07。但词级标注模型难以解决词边界划分的一致性和未登录词的问题。基于此,作者提出可以利用字性和字构词的规律预测合成词的词性,既可以融入语言学知识又可以减少由未登录词导致的标注错误,实验结果证明,作为词性标注的后处理模块,基于字性标注的词性预测准确率提高到了0.916,这个结果已经比分词标注一体化结果好,说明字性标注对纠正词性错误标注有明显的效果。
-
关键词
藏语
语字标注
分词
词性标注
-
Keywords
Tibetan language
tagging of Tibetan syllables
word segmentation
POS
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名传统蒙古文“同形不同码”问题研究
- 11
-
-
作者
安波
诺明花
吴健
刘汇丹
马龙龙
-
机构
中国科学院软件研究所
中国科学院大学
-
出处
《信息技术与标准化》
2015年第1期62-66,共5页
-
基金
国家自然科学基金
项目编号:61303165
+3 种基金
61202219
61202220
新闻出版重大科技工程
项目编号:0610-1041BJNF 2328/23
-
文摘
设计并实现了一种基于语料库的传统蒙古文同形不同码识别系统。通过网络爬虫获取原始语料,然后对语料进行预处理并生成词表和倒排索引。基于词表利用GDI和传统蒙古文字库对每个传统蒙古文词生成字形图,并根据字形图之间的相似度识别出相同的字形。系统根据倒排索引、同形词列表统计出语料中传统蒙古文同形不同码的情况。实验结果显示,同形不同码问题在传统蒙古文中普遍存在,反映出了制定相关标准的迫切性。
-
关键词
传统蒙古文
同形不同码
爬虫
倒排索引
语料库
-
Keywords
raditional mongolian same shape and different code
web spider
inverted index
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名一种融合标签和知识图谱的推荐方法
被引量:3
- 12
-
-
作者
冀欣婷
诺明花
-
机构
内蒙古大学计算机(软件)学院
内蒙古自治区蒙古文信息处理技术重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2022年第6期125-134,共10页
-
基金
国家自然科学基金(61966025)
内蒙古自然科学基金(2019MS06010)
内蒙古自治区高等学校科学研究项目(NJZY19011)。
-
文摘
随着信息的海量增长,推荐系统成为我们日常生活中一种重要的应用。传统的推荐系统根据用户和物品的交互行为进行推荐并利用用户对物品的评分来体现用户的喜好,但是数据的稀疏性会影响推荐结果的准确度,并且简单地评分数字也难以体现用户偏好的主观性以及用户选择的可解释性。因此,该文提出了一种融合标签和知识图谱的推荐方法,其中标签是一种文本信息,其包含的丰富内容和潜在的语义信息可以体现用户对物品的主观评价,对推荐起着关键作用。而知识图谱作为一种有效的推荐辅助技术,其包含的大量实体能为物品提供更多有效的特征信息。此外,该文还提出了一种融合注意力和自注意力的混合注意力模型,通过标签和实体为物品特征分配混合注意力权重,从而提高了推荐性能。实验结果表明,在MovieLens和Last.FM数据集上,该模型的推荐性能较其他推荐算法有所提升。
-
关键词
标签
知识图谱
推荐系统
卷积神经网络
注意力
-
Keywords
tag
knowledge graph
recommendation system
CNN
attention
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名ResNet结合BiGRU的关系抽取混合模型
被引量:3
- 13
-
-
作者
唐朝
诺明花
胡岩
-
机构
内蒙古大学计算机学院
内蒙古自治区蒙古文信息处理技术重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2020年第2期38-45,共8页
-
基金
国家自然科学基金(61966025)
内蒙古自然科学基金(2019MS06010)
内蒙古自治区高等学校科学研究项目(NJZY19011)。
-
文摘
关系抽取主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据,其主要负责从文本中识别出实体,抽取实体间的语义关系。就关系抽取任务而言,当前流行的网络结构是仅使用CNN作为编码器,经过多层卷积操作后,对池化的结果进行softmax分类。还有部分工作则使用RNN并结合Attention机制对最后的结果做分类。这些网络结构在远程监督带噪声的关系抽取任务中表现并不理想。该文主要根据ResNet残差块的特性,提出了一种混合模型,它有效融合,ResNet和BiGRU,将带有残差特性的CNN和双向RNN结合起来,最后融入注意力机制来完成基于远程监督的关系抽取任务。实验验证了该混合模型在远程监督的噪声过滤方面的有效性。在NYT-Freebase数据集上,P@N值相比使用单一ResNet提高了2.9%。另外,该文所建混合模型可以很轻易地移植应用到其他NLP任务中。
-
关键词
关系抽取
卷积神经网络
递归神经网络
注意力机制
-
Keywords
relation extraction
CNN
RNN
attention mechanism
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-