数据表示
感知与获取:例如声波通过振膜和电磁铁的磁极,得到模拟信号,模拟信号经过采样和量化得到数字信号。连续的灰度值经过量化得到0-255的整数值。
听觉媒体:
Definition:当某种东西使得空气分子震动起来,人们的耳朵中所感到的就是声音。如声带振动、扬声器纸盒的震动等。凡是通过声音的形式以听觉传递信息的媒体都属于听觉类媒体。
按照计算机表示和处理的不同,声音分为四类:波形声音、语音、音乐、真实感声音。
声音三要素:音调、音强、音色。
波形声音:
MIDI:Musical Instrument Digital Interface,即乐器设备数字接口,是数字音乐的一个国际标准。任何电子乐器只要有处理MIDI消息的微处理器,并有合适的硬件接口都可以成为MIDI设备。
MIDI音乐的特点:
数据量比波形声音少的多,同样30min16位的和波形录制相比相差1500倍之多。
编辑灵活、表现能力弱。
格式:MID,RMI。
视频与动画:
时间连续性
帧间相关性:相关性是动态图像连续动作形成的基础,也是进行压缩等处理的基本条件。
视觉媒体:包括图形、图像、动态图像和视频。
视觉媒体-图像:
Image:人类视觉系统所感知的信息形式、人们心目中的有形想象都是图像。
采集:经过数字化设备采集进计算机,例如扫描仪、图像采集卡、数码相机等。
存储:按照一定图像格式存储例如bmp, tif等,一般由图像的说明部分和数据组成。
处理:
优化:增强、噪声过滤、亮度调整等。
编辑:剪裁、旋转、缩放、修该、叠加等。
压缩:存储和传输前都要进行数据压缩。
格式转换
图像分析与图像识别
输出:显示、打印、输出到录像带。
Bitmap(位图图像):空间和亮度上已经离散化了的图像。
数字化分辨率(dpi dot per inch):一幅图像离散化的时候,以什么样的水平和垂直粒度离散化。
显示分辨率:计算机显示器在横向和纵向具有的显示点数,显示器的显示技术正是位图映射技术。
图像大小:通常用分辨率来表示。
图像的颜色数(gray scale levels):一幅位图图像最多能使用的颜色数或灰度的等级数。
图像深度:图像的颜色数或灰度级数用计算机位数的多少来表示。1bit能表示2级、8bit能表示256种颜色。此时图像深度为8.
真彩色:如果图像深度为24位,其颜色数有2^24种,覆盖了人眼可以分辨的自然界的颜色,就是真彩色。
位图图像数据量:B=(h*w*c)/8(Byte),其中h垂直分辨率,w水平分辨率,c颜色深度。
大小为640 480的256色彩色图像,其数据量为B=(640*480*8)/8=307200字节。
位图图像的文件格式:
bmp文件:基于Windows的图像软件都支持bmp格式,无压缩或者使用简单的行程编码压缩,一般只是在图像编辑处理时使用,最后转换为其他格式。
tiff图像格式(Tagged Image file format):支持多种图像压缩方法,一个文件可以存储多幅图像。
tga图像格式
gif(Graphics Interchange Format):只能支持256种颜色,图像数据较小;可以交错显示和支持动画效果。
视觉媒体-图形:
图形(矢量图):由外部轮廓线线条构成的矢量图,由计算机绘制出来的基本单元。
文件的格式是描述几何图形的大小、形状和位置的指令集和,图形文件中只记录了生成图的算法和图上的某些特征点,所以图形文件存储容量通常比图像小。
特点:旋转、放大、缩小和扭曲的时候不会失真,在屏幕上可以重叠。
格式:.3ds, .dxf, .wmf
视觉媒体-原理:
色调hue饱和度saturation亮度brightness
色度:色调与饱和度合作表示颜色类别和深浅。
RGB:无论多媒体系统使用什么彩色空间最后输出都要转换为RGB。
亮度公式:
PAL:Y=0.22[R]+0.707[G]+0.071[B]
NTSC: Y=0.299[R]+0.587[G]+0.114[B]
YUV彩色空间:彩色电视通常采用YUV。
亮度公式:Y=0.22[R]+0.707[G]+0.071[B]。其中Y是亮度信号,解决色彩色电视与黑白电视的兼容问题。
视觉要素和听觉要素都需要通过采样与量化,但后或进行矢量化存储,或者如midi音频可编辑存储。
mp3与jpeg,数据压缩!
Why data compression is possible?1 多媒体数据的相关性大。2 利用人的视听生理、心理规律。3 以损失质量为代价但满足某类应用。
How to compress data?encoding。
统计编码(Hiffman, 算数)
行程编码
预测编码
变换编码(DCT, 小波变换)
模型编码(参数编码)
混合编码
有损和无损两种压缩方法的根本差别在于有没有量化模块。
有损压缩算法:变换、混合、量化预测、模型编码。
有损压缩方法通常在图像压缩比大于30:1时仍然能够重构图像。无损压缩的压缩比很少能超过3:1。
无损压缩算法:统计、行程、不量化预测。
概论
什么是多媒体?
Wikiprdia:Multimedia refers to content that uses a combination of different content forms. Includes text, audio, images, animation, video, or interactive content forms.
《多媒体计算机技术》鲁宏伟:多媒体技术就是具有集成性、实时性和交互性的计算机综合处理声文图信息的技术。
Media: 信息承载的载体
CCITT(ITU)对媒体分类的定义:
Perception MediumL: voices, images, etc...
Representation Medium: code
Presentation Medium: keyboard, 显示器等
Storage Medium: 存储器、磁盘等
Transmission Medium: 电话线、光纤等
计算机处理的多媒体信息:
文字:各类文字和符号
图形:通过计算而描述的矢量图形
图像:用像素点描述的自然影像
动画:单画面矢量动画、多画面帧动画
音频:音频数字信号、压缩音频信号
视频:音频数字信号、压缩音频信号
其他:触觉(压力、运动、传感器)、嗅觉、味觉