期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
7
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于互信息改进算法和t-测试差的壮文分词算法研究
1
作者
覃俊
林叶川
易云飞
《中南民族大学学报(自然科学版)》
CAS
北大核心
2017年第4期100-105,共6页
针对传统的壮文分词方法将单词之间的空格作为分隔标志,在多数情况下,会破坏多个单词关联组合而成的语义词所要表达的完整且独立的语义信息,在借鉴前人使用互信息MI方法来度量相邻单词间关联程度的基础上,首次采用互信息改进算法MI^k和t...
针对传统的壮文分词方法将单词之间的空格作为分隔标志,在多数情况下,会破坏多个单词关联组合而成的语义词所要表达的完整且独立的语义信息,在借鉴前人使用互信息MI方法来度量相邻单词间关联程度的基础上,首次采用互信息改进算法MI^k和t-测试差对壮文文本分词,并结合两者在评价相邻单词间的静态结合能力和动态结合能力的各自优势,提出了一种MI^k和t-测试差相结合的TD-MIk混合算法对壮文文本分词,并对互信息改进算法MI^k、t-测试差、TD-MI^k混合算法三种方法的分词效果进行了比较.使用人民网壮文版上的文本集作为训练及测试语料进行了实验,结果表明:三种分词方法都能够较准确而有效地提取文本中的语义词,并且TD-MI^k混合算法的分词准确率最高.
展开更多
关键词
壮文分词
MI改进算法
t-测试差
混合算法
语义词
下载PDF
职称材料
基于无指导学习策略的无词表条件下的汉语自动分词
被引量:
37
2
作者
孙茂松
肖明
邹嘉彦
《计算机学报》
EI
CSCD
北大核心
2004年第6期736-742,共7页
探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法 ,以期对研制开放环境下健壮的分词系统有所裨益 .全部分词知识源自从生语料库中自动获得的汉字Bigram .在字间互信息和t 测试差的基础上 ,提出了一种将两者线性叠加的新的统...
探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法 ,以期对研制开放环境下健壮的分词系统有所裨益 .全部分词知识源自从生语料库中自动获得的汉字Bigram .在字间互信息和t 测试差的基础上 ,提出了一种将两者线性叠加的新的统计量md ,并引入了峰和谷的概念 ,进而设计了相应的分词算法 .大规模开放测试结果显示 ,该算法关于字间位置的分词正确率为 85 .88% ,较单独使用互信息或t 测试差分别提高了 2 4 7%和 5 6 6 % .
展开更多
关键词
无指导学习
汉语自动分词
汉字Bigram
互信息
t-测试差
线性叠加
统计量
中文信息处理应用系统
下载PDF
职称材料
基于双字耦合度的中文分词交叉歧义处理方法
被引量:
17
3
作者
王思力
王斌
《中文信息学报》
CSCD
北大核心
2007年第5期14-17,30,共5页
本文提出了一种利用双字耦合度和t-测试差解决中文分词中交叉歧义的方法:首先利用词典找出所有的交叉歧义,然后用双字耦合度和t-测试差的线性叠加值来判断各歧义位置是否该切分。实验结果表明,双字耦合度和t-测试差的结合要优于互信息...
本文提出了一种利用双字耦合度和t-测试差解决中文分词中交叉歧义的方法:首先利用词典找出所有的交叉歧义,然后用双字耦合度和t-测试差的线性叠加值来判断各歧义位置是否该切分。实验结果表明,双字耦合度和t-测试差的结合要优于互信息和t-测试差的结合,因此,用双字耦合度和t-测试差的线性叠加值来消除交叉歧义是一种简单有效的方法。
展开更多
关键词
计算机应用
中文信息处理
中文分词
双字耦合度
t-测试差
下载PDF
职称材料
维吾尔文无监督自动切分及无监督特征选择
被引量:
3
4
作者
吐尔地·托合提
艾克白尔·帕塔尔
艾斯卡尔·艾木都拉
《模式识别与人工智能》
EI
CSCD
北大核心
2013年第9期845-852,共8页
维吾尔文常用切分方法会产生大量的语义抽象甚至多义的词特征,因此学习算法难以发现高维数据中隐藏的结构.提出一种无监督切分方法 dme-TS和一种无监督特征选择方法 UMRMR-UFS.dme-TS从大规模生语料中自动获取单词Bi-gram及上下文语境信...
维吾尔文常用切分方法会产生大量的语义抽象甚至多义的词特征,因此学习算法难以发现高维数据中隐藏的结构.提出一种无监督切分方法 dme-TS和一种无监督特征选择方法 UMRMR-UFS.dme-TS从大规模生语料中自动获取单词Bi-gram及上下文语境信息,并将相邻单词间的t-测试差、互信息及双词上下文邻接对熵的线性融合作为一个组合统计量(dme)来评价单词间的结合能力,从而将文本切分成语义具体的独立语言单位的特征集合.UMRMR-UFS用一种综合考虑最大相关度和最小冗余的无监督特征选择标准(UMRMR)来评价每一个特征的重要性,并将最重要的特征依次移入到特征子集中.实验结果表明dme-TS能有效控制原始特征集的规模,提高特征项本身的质量,用UMRMR-UFS的输出来表征文本时,学习算法也表现出其最高的性能.
展开更多
关键词
维吾尔文切分
互信息
t-测试差
邻接对熵
无监督特征选择
下载PDF
职称材料
基于词二元接续的中文文本自动查错研究
被引量:
3
5
作者
王虹
张仰森
《贵州大学学报(自然科学版)》
2001年第1期16-21,共6页
运用语料库语言学统计方法对中文文本自动查错的有关问题进行探讨 ,运用词二元接续关系进行查错 ,主要依据词二元同现概率、互信息、t -测试差 .其中 ,t-测试差是首次被应用于查错 .
关键词
中文文本自动查错
二元接续关系
互信息
t-测试差
MARKOV模型
二元同现概率
下载PDF
职称材料
基于词间关联度度量的维吾尔文本自动切分方法
被引量:
2
6
作者
吐尔地.托合提
维尼拉.木沙江
艾斯卡尔.艾木都拉
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2016年第1期155-164,共10页
提出一种基于词间关联度度量的维吾尔文本自动切分方法。该方法从大规模生语料库中自动获取维吾尔文单词Bi-gram及上下文语境信息,在充分考虑维吾尔文单词间结合规则的前提下,将相邻单词间的互信息、t-测试差及双词邻接对熵的线性融合...
提出一种基于词间关联度度量的维吾尔文本自动切分方法。该方法从大规模生语料库中自动获取维吾尔文单词Bi-gram及上下文语境信息,在充分考虑维吾尔文单词间结合规则的前提下,将相邻单词间的互信息、t-测试差及双词邻接对熵的线性融合作为组合统计量(dmd),度量文本中相邻单词之间的关联程度。以dmd度量的弱关联的词间位置作为切分点进行自动切分,得到语义及结构完整的词串,而不仅仅是以空格隔开的单词。在大规模文本语料上进行的测试表明,该方法的切分准确率达到88.21%。
展开更多
关键词
语义串
互信息
t-测试差
邻接对熵
单词结合规则
下载PDF
职称材料
基于新统计量mt的汉语自动分词方法研究
7
作者
黄鑫
朱征宇
谢祈鸿
《微处理机》
2008年第1期107-110,共4页
汉语自动分词是进行中文信息处理的基础。传统分词需要大规模加工过的熟语料库做为测试集来训练模型以获取参数,代价高昂。在互信息和t-测试差的基础上,通过将两者进行线性和非线性组合,提出了一个新的统计量mt。该统计量所需的所有统...
汉语自动分词是进行中文信息处理的基础。传统分词需要大规模加工过的熟语料库做为测试集来训练模型以获取参数,代价高昂。在互信息和t-测试差的基础上,通过将两者进行线性和非线性组合,提出了一个新的统计量mt。该统计量所需的所有统计数据直接从待切分的生语料中获得,无须大规模加工过的熟语料和人工干预,大大降低了分词成本。测试结果显示,该统计量关于字间位置的分词正确率为80.14%,比单独使用互信息和t-测试差分别提高了6.83%和7.27%。
展开更多
关键词
分词
互信息
t-测试差
下载PDF
职称材料
题名
基于互信息改进算法和t-测试差的壮文分词算法研究
1
作者
覃俊
林叶川
易云飞
机构
中南民族大学计算机科学学院
河池学院计算机与信息工程学院
出处
《中南民族大学学报(自然科学版)》
CAS
北大核心
2017年第4期100-105,共6页
基金
国家科技支撑计划项目子课题(2015BAD29B01)
中南民族大学研究生学术创新基金项目(2017sycxjj051)
文摘
针对传统的壮文分词方法将单词之间的空格作为分隔标志,在多数情况下,会破坏多个单词关联组合而成的语义词所要表达的完整且独立的语义信息,在借鉴前人使用互信息MI方法来度量相邻单词间关联程度的基础上,首次采用互信息改进算法MI^k和t-测试差对壮文文本分词,并结合两者在评价相邻单词间的静态结合能力和动态结合能力的各自优势,提出了一种MI^k和t-测试差相结合的TD-MIk混合算法对壮文文本分词,并对互信息改进算法MI^k、t-测试差、TD-MI^k混合算法三种方法的分词效果进行了比较.使用人民网壮文版上的文本集作为训练及测试语料进行了实验,结果表明:三种分词方法都能够较准确而有效地提取文本中的语义词,并且TD-MI^k混合算法的分词准确率最高.
关键词
壮文分词
MI改进算法
t-测试差
混合算法
语义词
Keywords
zhuangwen word segmentation
MI improved algorithm
t-
test difference
hybrid algorithm
semantic word
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于无指导学习策略的无词表条件下的汉语自动分词
被引量:
37
2
作者
孙茂松
肖明
邹嘉彦
机构
清华大学智能技术与系统国家重点实验室
香港城市大学语言资讯科学研究中心
出处
《计算机学报》
EI
CSCD
北大核心
2004年第6期736-742,共7页
基金
国家自然科学基金 ( 60 0 83 0 0 5 )资助
文摘
探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法 ,以期对研制开放环境下健壮的分词系统有所裨益 .全部分词知识源自从生语料库中自动获得的汉字Bigram .在字间互信息和t 测试差的基础上 ,提出了一种将两者线性叠加的新的统计量md ,并引入了峰和谷的概念 ,进而设计了相应的分词算法 .大规模开放测试结果显示 ,该算法关于字间位置的分词正确率为 85 .88% ,较单独使用互信息或t 测试差分别提高了 2 4 7%和 5 6 6 % .
关键词
无指导学习
汉语自动分词
汉字Bigram
互信息
t-测试差
线性叠加
统计量
中文信息处理应用系统
Keywords
Algorithms
Computer applications
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于双字耦合度的中文分词交叉歧义处理方法
被引量:
17
3
作者
王思力
王斌
机构
中国科学院计算技术研究所
出处
《中文信息学报》
CSCD
北大核心
2007年第5期14-17,30,共5页
基金
国家973计划资助项目(2004CB318109)
国家自然科学基金资助项目(60603094)
文摘
本文提出了一种利用双字耦合度和t-测试差解决中文分词中交叉歧义的方法:首先利用词典找出所有的交叉歧义,然后用双字耦合度和t-测试差的线性叠加值来判断各歧义位置是否该切分。实验结果表明,双字耦合度和t-测试差的结合要优于互信息和t-测试差的结合,因此,用双字耦合度和t-测试差的线性叠加值来消除交叉歧义是一种简单有效的方法。
关键词
计算机应用
中文信息处理
中文分词
双字耦合度
t-测试差
Keywords
computer application
Chinese information processing
Chinese word segmentation
coupling degree of double characters
difference of
t-
test
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
维吾尔文无监督自动切分及无监督特征选择
被引量:
3
4
作者
吐尔地·托合提
艾克白尔·帕塔尔
艾斯卡尔·艾木都拉
机构
新疆大学信息科学与工程学院乌鲁木齐
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2013年第9期845-852,共8页
基金
国家自然科学基金项目(No.61063022,61262062,61163033,61163032)
教育部新世纪优秀人才支持计划项目(No.NCET-100969)
+1 种基金
新疆维吾尔自治区高技术研究发展计划项目(No.201212124)
新疆维吾尔自治区高校科研计划重点项目(No.XJEDU2012I11)资助
文摘
维吾尔文常用切分方法会产生大量的语义抽象甚至多义的词特征,因此学习算法难以发现高维数据中隐藏的结构.提出一种无监督切分方法 dme-TS和一种无监督特征选择方法 UMRMR-UFS.dme-TS从大规模生语料中自动获取单词Bi-gram及上下文语境信息,并将相邻单词间的t-测试差、互信息及双词上下文邻接对熵的线性融合作为一个组合统计量(dme)来评价单词间的结合能力,从而将文本切分成语义具体的独立语言单位的特征集合.UMRMR-UFS用一种综合考虑最大相关度和最小冗余的无监督特征选择标准(UMRMR)来评价每一个特征的重要性,并将最重要的特征依次移入到特征子集中.实验结果表明dme-TS能有效控制原始特征集的规模,提高特征项本身的质量,用UMRMR-UFS的输出来表征文本时,学习算法也表现出其最高的性能.
关键词
维吾尔文切分
互信息
t-测试差
邻接对熵
无监督特征选择
Keywords
Uyghur Segmentation, Mutual Information, Difference of
t-
Test, Entropy of Adjacency,Unsupervised Feature Selection
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于词二元接续的中文文本自动查错研究
被引量:
3
5
作者
王虹
张仰森
机构
贵州大学计算中心
山西大学计算机科学系
出处
《贵州大学学报(自然科学版)》
2001年第1期16-21,共6页
文摘
运用语料库语言学统计方法对中文文本自动查错的有关问题进行探讨 ,运用词二元接续关系进行查错 ,主要依据词二元同现概率、互信息、t -测试差 .其中 ,t-测试差是首次被应用于查错 .
关键词
中文文本自动查错
二元接续关系
互信息
t-测试差
MARKOV模型
二元同现概率
Keywords
Chinese text automatic checking, neighborship, mutual information, the difference of
t-
test, Markov model
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于词间关联度度量的维吾尔文本自动切分方法
被引量:
2
6
作者
吐尔地.托合提
维尼拉.木沙江
艾斯卡尔.艾木都拉
机构
新疆大学信息科学与工程学院
出处
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2016年第1期155-164,共10页
基金
国家自然科学基金(61262062
61163033
+2 种基金
61262063
61562083)
新疆维吾尔自治区高校科研计划重点项目(XJEDU2012I11)资助
文摘
提出一种基于词间关联度度量的维吾尔文本自动切分方法。该方法从大规模生语料库中自动获取维吾尔文单词Bi-gram及上下文语境信息,在充分考虑维吾尔文单词间结合规则的前提下,将相邻单词间的互信息、t-测试差及双词邻接对熵的线性融合作为组合统计量(dmd),度量文本中相邻单词之间的关联程度。以dmd度量的弱关联的词间位置作为切分点进行自动切分,得到语义及结构完整的词串,而不仅仅是以空格隔开的单词。在大规模文本语料上进行的测试表明,该方法的切分准确率达到88.21%。
关键词
语义串
互信息
t-测试差
邻接对熵
单词结合规则
Keywords
semantic string
mutual information
difference of
t-
test
dual adjacent entropy
word association rules
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于新统计量mt的汉语自动分词方法研究
7
作者
黄鑫
朱征宇
谢祈鸿
机构
重庆大学计算机学院
出处
《微处理机》
2008年第1期107-110,共4页
文摘
汉语自动分词是进行中文信息处理的基础。传统分词需要大规模加工过的熟语料库做为测试集来训练模型以获取参数,代价高昂。在互信息和t-测试差的基础上,通过将两者进行线性和非线性组合,提出了一个新的统计量mt。该统计量所需的所有统计数据直接从待切分的生语料中获得,无须大规模加工过的熟语料和人工干预,大大降低了分词成本。测试结果显示,该统计量关于字间位置的分词正确率为80.14%,比单独使用互信息和t-测试差分别提高了6.83%和7.27%。
关键词
分词
互信息
t-测试差
Keywords
Chinese word segmentation
Mutual information
Difference of t - test
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于互信息改进算法和t-测试差的壮文分词算法研究
覃俊
林叶川
易云飞
《中南民族大学学报(自然科学版)》
CAS
北大核心
2017
0
下载PDF
职称材料
2
基于无指导学习策略的无词表条件下的汉语自动分词
孙茂松
肖明
邹嘉彦
《计算机学报》
EI
CSCD
北大核心
2004
37
下载PDF
职称材料
3
基于双字耦合度的中文分词交叉歧义处理方法
王思力
王斌
《中文信息学报》
CSCD
北大核心
2007
17
下载PDF
职称材料
4
维吾尔文无监督自动切分及无监督特征选择
吐尔地·托合提
艾克白尔·帕塔尔
艾斯卡尔·艾木都拉
《模式识别与人工智能》
EI
CSCD
北大核心
2013
3
下载PDF
职称材料
5
基于词二元接续的中文文本自动查错研究
王虹
张仰森
《贵州大学学报(自然科学版)》
2001
3
下载PDF
职称材料
6
基于词间关联度度量的维吾尔文本自动切分方法
吐尔地.托合提
维尼拉.木沙江
艾斯卡尔.艾木都拉
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2016
2
下载PDF
职称材料
7
基于新统计量mt的汉语自动分词方法研究
黄鑫
朱征宇
谢祈鸿
《微处理机》
2008
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部