题名 基于统计韵律模型的汉语语音合成系统的研究
被引量:7
1
作者
陶建华
赵晟
蔡莲红
机构
清华大学计算机系人机交互与媒体集成研究所
出处
《中文信息学报》
CSCD
北大核心
2002年第1期1-6,共6页
基金
国家自然科学基金 (6 9875 0 0 8)
文摘
本文论述了采用统计模型进行汉语韵律层级结构分析和韵律建模的思路 ,在此基础上建立了汉语语音合成系统。其中 ,本文还仔细阐述了韵律代价函数的构造 ,及其参数的自动训练算法。同时 ,论文还分析了韵律特征间相互作用对音节基元选取的影响 ,并最终实现了一个连续语流中用于汉语语音合成的音节基元选取模型。测试表明了本文提出的基于统计模型的韵律层级分析和韵律建模思路 ,能够较好应用于汉语语音合成系统的构造 。
关键词
汉语韵律层级结构
韵律建模
韵律代价函数
语音合成系统
Keywords
Chinese Prosodic Hierarchy
Prosody Modeling
Prosody Cost Function.
分类号
TN912.33
[电子电信—通信与信息系统]
题名 宽带流媒体服务器与传输体系
2
作者
钟玉琢
孙立峰
机构
清华大学计算机系人机交互与媒体集成研究所
出处
《当代通信》
2003年第2期42-46,共5页
文摘
流式媒体的发展现状 多媒体和网络的交叉领域流媒体(Streaming Media)是当前宽带网络应用发展的必然结果,流媒体的应用系统、国际标准和基础研究正成为目前产业界和科研机构密切关注的焦点。第三代无线通信系统(3G),以及未来的宽带无线通信网络,均以提供高速接入和多媒体服务为特征。高接入带宽为无线网络多媒体服务提供了物质基础。
关键词
宽带网
流媒体
服务器
传输体系
分类号
TN919.8
[电子电信—通信与信息系统]
题名 虚拟空间会议系统的基于感知的视频传输方案
被引量:2
3
作者
李凌
田淑珍
孙立峰
钟玉琢
机构
清华大学计算机系人机交互与媒体集成研究所
出处
《计算机应用研究》
CSCD
北大核心
2004年第4期209-211,共3页
文摘
提出虚拟空间会议系统中一种基于感知控制的视频传输方案。
关键词
虚拟空间会议
感知
视频传输
Keywords
Virtual Space Teleconference (VST)
Awareness
Video Transmission
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于方向特征的二值商标图像检索方法
被引量:10
4
作者
郭丽
黄元元
孙兴华
杨静宇
机构
南京理工大学 计算机 系
清华大学计算机系人机交互与媒体集成研究所
出处
《计算机应用》
CSCD
北大核心
2003年第7期77-79,共3页
文摘
文中针对二值商标图像,提出一种基于方向特征的商标图像检索方法。用边界方向直方图表示目标的边界方向特征,图像的相似性度量采用直方图求交算法;用区域方向直方图表示目标的区域方向特征,图像的相似性程度用直方图的相关距离来度量。这两者结合起来得到的方向特征可以同时反映图像的整体形状和轮廓形状。实验表明,方向特征能够有效地描述图像的形状及空间分布信息,取得了令人满意的检索结果。
关键词
商标图像检索
方向特征
方向信号
区域方向直方图
边界方向直方图
Keywords
trademark image retrieval
direction feature
direction signal
region direction histogram
edge direction histogram
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
题名 一种基于连通域的版面分割方法
被引量:7
5
作者
郭丽
孙兴华
王正群
杨静宇
机构
南京理工大学 计算机 科学系
清华大学计算机系人机交互与媒体集成研究所
出处
《计算机工程与应用》
CSCD
北大核心
2003年第5期105-107,共3页
文摘
版面分割是版面分析的重要组成部分,是一个受到广泛关注的研究课题。该文提出了一种基于连通域的版面分割算法,首先对文档图像进行倾斜校正,然后采用模糊处理以得到较大的连通单元,再根据区域连通的特性进行版面分割和处理。实验表明,基于连通域的算法分割版面准确,速度快,适用范围广,不仅可用于矩形版面,对于非Manhattan版面等复杂版面也能取得令人满意的效果。
关键词
连通域
版面分割方法
版面分析
动态聚类法
图像模糊
印刷体文字识别系统
Keywords
layout analysis,connective region,dynamic clustering method,image smearing,page segmentation
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
题名 距离分布直方图及其在商标图案检索中的应用
被引量:11
6
作者
郭丽
孙兴华
黄元元
杨静宇
机构
南京理工大学 计算机 系
清华大学计算机系人机交互与媒体集成研究所
出处
《中国图象图形学报(A辑)》
CSCD
北大核心
2002年第10期1027-1031,共5页
文摘
形状是描述图象的重要视觉特征 ,它可以通过像素点分布在空间不同的区域而表现出来 .针对二值图象提出了一种基于区域的形状特征 ,即距离分布直方图 .它的基本思想就是通过统计图象中像素点在距离区域的分布情况来获得形状特征 ,其中 ,基准点的选择和距离区域的划分是两个重要的部分 .实验结果表明 ,距离分布直方图能够有效地刻画出二值图象的形状特征 ,并且具有非常好的平移、尺度和旋转不变性 .将其应用于商标图案检索 ,其检索结果符合人眼的视觉感受 .
关键词
距离分布直方图
形状特征
商标图案
检索
多媒体数据库
图象视觉
Keywords
Distance distribution histogram, Shape feature, Invariant performance, Trademark image retrieval
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
F760.5
[经济管理—产业经济]
题名 视频文本的自动提取方法
被引量:5
7
作者
郭丽
孙兴华
黄元元
杨静宇
机构
南京理工大学 计算机 系
清华大学计算机系人机交互与媒体集成研究所
出处
《小型微型计算机系统》
CSCD
北大核心
2004年第6期1086-1088,共3页
文摘
提出一种基于彩色边缘检测和游程平滑的视频文本提取方法 ,首先用彩色边缘检测算子检测出图像中的边缘 ,然后用多次水平和垂直的游程平滑操作使得文字边缘形成连通区域 ,并去掉部分孤立的噪声 ,再通过对连通域的分析和分解定位出文本区域的边界 ,最后对文本区进行确认 .实验表明 ,本文的视频文本自动提取方法具有较高的文本提取率和较准确的边界定位 .
关键词
彩色边缘检测
游程平滑
视频文本提取
图像文本
场景文本
Keywords
color edge detection
run-length-smearing
video text extraction
graphic text
scene text
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
题名 信息家电网络控制平台SOPCA
被引量:2
8
作者
冼伟铨
祁妍军
钟玉琢
机构
清华大学计算机系人机交互与媒体集成研究所
出处
《小型微型计算机系统》
CSCD
北大核心
2000年第11期1159-1161,共3页
文摘
本文对信息家电网络控制平台 SOPCA的硬件环境和设备驱动的实现进行了研究 .SOPCA的硬件设备采用IBM Red Wood III机顶盒平台 ,其核心是数字 STB集成控制芯片 STB0 1X0 .Sopca软件系统有较好的模块化和可移植性处理 ,在其设备驱动设计部分 ,我们给出了解码功能的一个示例的实现 .
关键词
信息家电
网络控制平台
SOPCA
多媒体
Keywords
Home network control platform
SOPCA
Hardware environment
Device driver
分类号
TM925
[电气工程—电力电子与电力传动]
TP37
[自动化与计算机技术—计算机系统结构]
题名 合成语音自然度客观测度
被引量:2
9
作者
赵博
蔡莲红
机构
清华大学计算机系人机交互与媒体集成研究所
出处
《计算机工程与应用》
CSCD
北大核心
2005年第7期32-33,152,共3页
基金
国家自然科学基金项目(编号:60275014)
文摘
目前合成语音的自然度有待提高,论文根据目前的研究现状提出了一种合成语音自然度的客观评价方法,该方法主要从语音韵律特征的主要参数出发,计算同一发音人的自然语音和合成语音之间的基频、时长、音强等参数的差距,其中由于两种语音基频时间不匹配,所以采用DTW(Dynamic Time Warping)算法来对两种语音的基频进行了时间弯折对准。最后再将计算结果与主观评测(MOS)的结果进行比较。实验数据表明,论文提出的基频曲线失真测度与MOS之间具有很强的相关性,从韵律特征角度给出的评价结果能够衡量合成语音的自然度。
关键词
语音合成
评测
自然度
Keywords
speech synthesis,evaluation,naturalness
分类号
TP37
[自动化与计算机技术—计算机系统结构]
题名 MATLAB在语音分析中的应用
被引量:7
10
作者
赵博
机构
清华大学计算机系人机交互与媒体集成研究所
出处
《计算机系统应用》
2005年第2期34-37,共4页
基金
国家863计划语音合成系统评测
文摘
MATLAB作为一种科学计算工具,在科学研究的各个领域得到了广泛的应用。在国家863计划语音合成系统评测中,较多使用的还是听音人参与的主观方法,我们利用MATLAB工具实现了对语音质量进行客观评测的方法,本文通过阐述这一方法的实现过程,描述了MATLAB在语音分析方面的一个具体应用。
关键词
MATLAB
语音分析
科学计算工具
信号处理
语音特征参数
分类号
TN912.3
[电子电信—通信与信息系统]
题名 基于纹理约束和参数化运动模型的光流估计
被引量:1
11
作者
杨波
徐光祐
机构
清华大学计算机系人机交互与媒体集成研究所
出处
《中国图象图形学报(A辑)》
CSCD
北大核心
2004年第6期705-711,共7页
基金
国家自然科学基金资助项目 ( 60 2 73 0 0 5 )
文摘
提出了一种基于局部小平面运动的光流估计新方法。目的是获得精确致密的光流估计结果。与以往采用亮度一致性区域作为假设平面的算法不同 ,本算法利用序列图像的纹理信息 ,在纹理分割区域的基础上 ,进行运动估计。该算法首先通过微分法计算粗光流 ,可以得到参数化光流模型的初始估计 ,然后通过区域迭代算法 ,调整初始估计 ,从而得到精细的平面分割及其对应的参数化光流模型。基于纹理信息的部分拟合算法被用于算法的每一步当中 ,保证了纹理边缘位置的光流估计值的准确性。实验采用了标准图像序列 ,结果表明 ,可以得到更为精细的光流估计结果 ,特别是对于那些有着丰富纹理信息的室外环境的图像序列 ,而且在运动边界处的结果改善尤为明显。
关键词
纹理约束
光流估计
纹理信息
参数化光流模型
图像分割
Keywords
optical flow, segmentation, texture constraint, parameterized flow models, partial fit
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
题名 全局运动估计及其在视频编码中的应用
12
作者
贺玉文
赵学军
杨士强
钟玉琢
机构
清华大学计算机系人机交互与媒体集成研究所
出处
《高技术通讯》
EI
CAS
CSCD
2001年第8期40-43,共4页
基金
863计划 (863 3 0 6 ZT0 4 0 2 1)资助项目
文摘
对全局运动估计进行了研究 ,并提出了它的改进算法。在有局部运动的情况下 ,改进算法的计算速度和准确性都有明显提高。研究了全局运动估计在视频编码中的应用。在视频压缩中它是spirte编码的关键技术 ,这种技术较之传统编码方法有较好的编码性能。利用MPEG 4的软件测试平台进行了MPEG 4校验模型中已有算法的实验比较 ,结果表明 ,改进的全局运动估计的计算速度明显提高 。
关键词
视频编码
全局运动估计
运动补偿
视频压缩
spirte编码
MPEG-4
Keywords
Video coding, Global motion estimation, Motion estimation, Motion compensation
分类号
TN919.81
[电子电信—通信与信息系统]
题名 IBM机顶盒控制器Romeo中解复用器的设计
13
作者
黄文东
钟玉琢
沈洪
机构
清华大学计算机系人机交互与媒体集成研究所
出处
《小型微型计算机系统》
CSCD
北大核心
2002年第5期513-516,共4页
基金
国家信息产业部重点科研攻关项目
文摘
本文以 IBM机顶盒控制器 Romeo中的解复用器为例 ,在概述其硬件结构的基础上 ,详细介绍了它们的功能与控制 .文中将有关内容划分为三个方面 :pid过滤 ,数据提取 (其中主要是队列和过滤器 )和中断 。
关键词
IBM
机顶盒控制器
ROMEO
解复用器
设计
电视机
数字信号
Keywords
Mpeg 2 transport stream
STB
demultiplexor
data retrieval
section
分类号
TN948.64
[电子电信—信号与信息处理]
TN915.05
[电子电信—通信与信息系统]
题名 将计算融入环境——认识无所不在的计算与智能环境
被引量:2
14
作者
徐光祐
史元春
谢伟凯
蒋长浩
机构
清华大学计算机系人机交互与媒体集成研究所
出处
《微电脑世界》
2001年第12期79-83,共5页
文摘
网络及多媒体技术的出现使计算机从实验室、办公室进入了人们的教育、娱乐和生活,但到目前为止,人机交互的方式仍未摆脱以计算机为中心的桌面计算的模式,计算机并没有充分地与人的生活环境融合在一起。无所不在计算技术的研究和探索将致力于突破这一瓶颈,使计算机更贴近我们的生活。 清华大学计算机系人机交互与媒体集成研究所徐光祐教授将阐述无所不在的计算时代的一个全新研究方向——智能环境。智能环境是一种嵌入了多种感知、计算设备的物理空间,能够根据上下文识别人的身体姿态、手势、语音等,进而判断出人的意图,以有效提高人们的工作和生活质量。本文提出的分布侍候式计算正是实现这种环境的一种途径。
关键词
计算机
智能环境
计算技术
人机交互技术
分类号
TP11
[自动化与计算机技术—控制理论与控制工程]
TP387
[自动化与计算机技术—计算机系统结构]
题名 基于子图像多特征组合的商标图像检索
被引量:11
15
作者
孙兴华
郭丽
王正群
杨静宇
机构
清华大学计算机系人机交互与媒体集成研究所
南京理工大学 计算机 系
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2002年第1期14-20,共7页
文摘
本文提出了基于子图像特征组合的商标图像检索算法,首先对商标图像进行子图像抽取,然后根据子图像单特征计算图像与目标图像的单特征距离,最后基于多特征组合得到图像相似性度量.用Hu不变矩对基于子图像多特征组合的商标图像检索算法进行实验,用PVR指数作为图像检索性能评价准则.实验表明,相对基于全局图像单特征的检索算法,基于子图像多特征组合的商标图像检索算法具有更出色的检索性能,其检索结果更符合人眼的视觉感受.
关键词
商标图像检索
子图像
多特征组合
HU不变矩
PVR指数
商品
图像处理
计算机
Keywords
Trademark Image Retrieval, Subimage, Multiple Features Combination, Hu Invariants, PVR Value
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]