-
题名基于边界点词性特征统计的韵律短语切分
被引量:13
- 1
-
-
作者
牛正雨
柴佩琪
-
机构
同济大学计算机科学与工程系
-
出处
《中文信息学报》
CSCD
北大核心
2001年第5期19-25,共7页
-
文摘
由于基于规则方法的文本处理系统在系统建立时需要总结大量的规则 ,而且很难保证它在处理大规模真实文本时的强壮性 ,因此本文在使用统计方法进行韵律短语切分方面做了一些有益的探索。先对文本进行自动分词和自动词性标注 ,然后利用从已经经过人工标注的语料库中得到的韵律短语切分点的边界模式以及概率信息 ,对文本中的韵律短语切分点进行自动预测 ,最后利用规则进行适当的纠错。通过对一千句的真实文本进行封闭和开放测试 ,词性标注的正确率在 95%左右 ,韵律短语切分的召回率在 6 0 %左右 ,正确率达到了 80 %。
-
关键词
韵律短语切分
自动词性标注
语料库
统计方法
自动分词
边界点词性
文本处理系统
-
Keywords
prosodic phrasing
part-of-speech tagging
corpus
statistical approach
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名统计机器翻译中短语切分的新方法
被引量:3
- 2
-
-
作者
何中军
刘群
林守勋
-
机构
中国科学院计算技术研究所
-
出处
《中文信息学报》
CSCD
北大核心
2007年第1期85-89,共5页
-
基金
国家863计划资助项目(2005AA114140)
国家自然科学基金资助项目(60573188)
-
文摘
基于短语的统计机器翻译是目前主流的一种统计机器翻译方法,但是目前基于短语的翻译系统都没有对短语切分作专门处理,认为一个句子的所有短语切分都是等概率的。本文提出了一种短语切分方法,将句子的短语切分概率化:首先,识别出汉语语料库中所有出现次数大于2次的词语串,将其作为汉语短语;其次,用最短路径方法进行短语切分,并利用Viterbi算法迭代统计短语的出现频率。在2005年863汉英机器翻译评测测试集上的实验结果(BLEU4)是:0.1764(篇章),0.2231(对话)。实验表明,对于长句子(如篇章),短语切分模型的加入有助于提高翻译质量,比原来约提高了0.5个百分点。
-
关键词
人工智能
机器翻译
统计机器翻译
翻译模型
短语切分
-
Keywords
artificial intelligence
machine translation
statistical machine translation
translation model
phrase segmentation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语韵律短语切分研究
- 3
-
-
作者
杨志强
柴佩琪
牛正雨
-
机构
同济大学计算机科学与工程系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2002年第2期131-133,共3页
-
文摘
首先分析了汉语中韵律短语的边界情况,然后提出了一个韵律短语切分方法。开放和封闭测试表明该方法取得了相当好的结果。
-
关键词
汉语
文语转换系统
韵律短语切分
汉语语言处理
语音合成
-
Keywords
Chinese Text -to-speechProsodic phrase
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名带有短语切分的中文文本分类方法(英文)
被引量:1
- 4
-
-
作者
田昕辉
李成基
-
机构
国立庆北大学计算机工学系
-
出处
《计算机技术与发展》
2010年第1期9-13,共5页
-
文摘
Internet文本信息量极速增加,在组织和处理这些文本数据时,文本分类技术显得尤为重要。利用统计学理论,特征提取和权重计算常常忽略了特征项之间的语法关系。文中提出了一种将短语切分与文本分类相结合的新方法。在经过TFIDF计算之后,在同一个短语中,特征项之间的关系被计算出来,然后调整权值向量,最后可以得到文本分类的正确率。同一般地文本分类方法相比,加入短语切分的文本分类方法的正确率平均提高了1.5%以上。
-
关键词
特征提取
文本分类
短语切分
权值调整
-
Keywords
feature extraction
text classification
phrase segmentation
weight coordination
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名统计机器翻译中短语切分的新方法
- 5
-
-
作者
刘林
史红梅
张艳君
-
机构
山东农业工程学院
-
出处
《电子测试》
2017年第1X期26-27,共2页
-
基金
山东省高等学校科技计划项目--基于最大熵翻译模型的统计机器翻译系统的设计与实现(J13LN59)
-
文摘
本文提出了一种新的短语切分方法,通过该方法可以将句子的短语切分进行概率化处理:首先把汉语语料库中次数>2次的词语串全部都识别出来,作为汉语短语,然后通过最短路径方式实现短语切分,同时应用Viterbi算法对短语出现频率进行迭代统计。
-
关键词
统计机器
机器翻译
短语切分
新方法
-
Keywords
statistical machine
Machine translation
The phrase segmentation
The new method
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-
-
题名师范院校英语专业学生语调短语意识调查
被引量:2
- 6
-
-
作者
杨晓春
郭晓英
-
机构
天水师范学院外国语学院
-
出处
《天水师范学院学报》
2014年第5期105-108,共4页
-
基金
天水师范学院2011年科研项目"语调短语意识对信息传递有效性的影响的研究"(TSB1111)阶段性成果
-
文摘
有效传递信息是英语教学和学习的终极目标之一;语调短语意识是影响信息传递有效性的重要因素。从语调短语切分意识和调核意识两方面调查师范院校英语专业学生的语调短语意识,调查结果显示师范院校英语专业学生的语调短语切分意识和调核意识都较弱,从而证明学生的语调短语意识弱。结果有助于更好地了解中国学生的语调短语意识现状。
-
关键词
语调短语意识
语调短语切分意识
调核意识
-
Keywords
intonational phrase awareness
intonational phrase segmentation awareness
nucleus awareness
-
分类号
H319
[语言文字—英语]
-
-
题名句长对英语学习者语调切分的影响
- 7
-
-
作者
王红梅
姜楠
-
机构
中国矿业大学
-
出处
《当代外语研究》
2011年第9期16-20,60,共5页
-
基金
2008年度教育部人文社会科学基金项目“中国英语学习者语调重音的优选论分析”(编号:08JA740043)的部分研究成果
-
文摘
本研究从停顿、起首轻音节、延时音节与音高重设四个语调短语边界指征考察英语学习者的英语语调切分状况。作为参照标准的六名英语本族语者和三十八名中国英语专业学生参加了本研究。所考察的六个句子包含长、中、短三种长度类型。研究结果显示,学习者在中长句的语调切分不同于本族语者,经卡方检验,二者之间存在显著性差异。而在短句切分中,学习者与本族语者之间未见显著差异。英语本族语者比学习者更经常使用音高重设与起首轻音节,而中国学习者则更多依赖停顿,切分手段单一。
-
关键词
语调短语切分
停顿
起首轻音节
延时音节
音高重设
-
分类号
H311
[语言文字—英语]
-