luhw@hust.edu.cn
第一讲 多媒体技术概述 多媒体技术基本概念 媒体的定义和分类 多媒体的定义和特征
多媒体计算机技术及其发展历史 多媒体技术的主要内容 多媒体的软硬件平台 专用芯片
数据压缩及编码技术 多媒体同步
多媒体网络与分布式处理技术 信息的组织与管理 多媒体数据存储 虚拟现实技术 多媒体技术的应用 多媒体技术的发展趋势 媒体的定义和分类 什么是媒体?
媒体(Medium)在计算机领域中有两种含义,一是指用以存储信息的实体,如磁盘、磁带、光盘和半导体存储器;一是指信息的载体,如数字、文字、声音、图形图像和视频等。 CCITT曾给媒体做了如下的分类:
感觉媒体(Perception Medium) 表示媒体(Representation Medium) 显示媒体(Presentation Medium) 存储媒体(Storage Medium)
传输媒体(Transmission Medium) 几种媒体的关系 感觉媒体
感觉媒体是指能直接作用于人的感官,使人能直接产生感觉的一类媒体。感觉媒体有人类的各种语言 、音乐,自然界的各种声音 、图形、静止和运动的图像等。 图形 静止图像 运动图像
媒体的定义和分类 什么是媒体?
媒体(Medium)在计算机领域中有两种含义,一是指用以存储信息的实体,如磁盘、磁带、光盘和半导体存储器;一是指信息的载体,如数字、文字、声音、图形图像和视频等。 CCITT曾给媒体做了如下的分类:
√感觉媒体(Perception Medium)
表示媒体(Representation Medium) 显示媒体(Presentation Medium) 存储媒体(Storage Medium)
传输媒体(Transmission Medium) 表示媒体
表示媒体是为了加工、处理和传输感觉媒体而人为地研究、构造出来的一种媒体。其目的是能将感觉媒体从一个地方向另一个地方传送,以便于加工和处理。表示媒体有各种编码方式如语音编码、文本编码、静止和运动图像编码等。 表示媒体举例
语音编码
Goodmorning.wav 文件的编码: 文本编码 Philosophy.txt 文件的编码:
静止图象编码 Synthetic.bmp 文件的编码: 运动图象编码 Skiing.avi
文件的编码: 媒体的定义和分类 什么是媒体?
媒体(Medium)在计算机领域中有两种含义,一是指用以存储信息的实体,如磁盘、磁带、光盘和半导体存储器;一是指信息的载体,如数字、文字、声音、图形图像和视频等。 CCITT曾给媒体做了如下的分类:
√感觉媒体(Perception Medium) √表示媒体(Representation Medium) 显示媒体(Presentation Medium) 存储媒体(Storage Medium)
传输媒体(Transmission Medium) 显示媒体
显示媒体是指感觉媒体与用于通信的电信号之间转换用的一类媒体。
它包括输入显示媒体(如键盘、摄像机、话筒等)和输出显示媒体(如显示器、喇叭和打印机等)。 媒体的定义和分类 什么是媒体?
媒体(Medium)在计算机领域中有两种含义,一是指用以存储信息的实体,如磁盘、
磁带、光盘和半导体存储器;一是指信息的载体,如数字、文字、声音、图形图像和视频等。 CCITT曾给媒体做了如下的分类:
√感觉媒体(Perception Medium) √表示媒体(Representation Medium) √显示媒体(Presentation Medium) 存储媒体(Storage Medium)
传输媒体(Transmission Medium) 存储媒体
存储媒体是用来存放表示媒体,以方便计算机处理加工和调用,这类媒体主要是指与计算机相关的外部存储设备。 媒体的定义和分类 什么是媒体?
媒体(Medium)在计算机领域中有两种含义,一是指用以存储信息的实体,如磁盘、磁带、光盘和半导体存储器;一是指信息的载体,如数字、文字、声音、图形图像和视频等。 CCITT曾给媒体做了如下的分类:
√感觉媒体(Perception Medium) √表示媒体(Representation Medium) √显示媒体(Presentation Medium) √存储媒体(Storage Medium)
传输媒体(Transmission Medium) 传输媒体
传输媒体是用来将媒体从一个地方传送到另一个地方的物理载体。传输媒体是通信的信息载体,如双绞线、同轴电缆、光纤等。 第一讲 多媒体技术概述 多媒体技术基本概念 √媒体的定义和分类 多媒体的定义和特征
多媒体计算机技术及其发展历史 多媒体技术的主要内容 多媒体的软硬件平台 专用芯片
数据压缩及编码技术 多媒体同步
多媒体网络与分布式处理技术 信息的组织与管理 多媒体数据存储 虚拟现实技术 多媒体技术的应用
多媒体技术的发展趋势 多媒体的定义
“多媒体”译自20世纪80年代初产生的英文词“multimedia”,最早出现于美国麻省理工学院(MIT)递交给国防部的一个项目计划报告中。
多媒体是指信息表示媒体的多样化,常见的多媒体有文字、图形、图像、声音、音乐、视频、动画等多种形式。
多媒体技术是利用计算机技术把文本、声音、视频、动画、图形和图像等多种媒体进行综合处理,使多种信息之间建立逻辑连接,集成为一个完整的系统。 多媒体技术
单一媒体:文本 声音 视频 动画 图形 图像 „ 多媒体的特征
多媒体从本质上来说具有四个最重要的特征: -- 化 -- 集成性 -- 交互性 -- 实时性
化
化是指信息媒体的多样化。它使人们思想的表达不再限于顺序的、单调的、狭小的范围内,而有充分自由的余地。
多媒体信息化不仅是指输入,而且还指输出,目前主要包括听觉和视觉两个方面。 集成性
这不仅是指多媒体设备集成,而且也包含多媒体信息集成或表现集成。
早期的各项技术都可以单一使用和应用,但很难有大的作为,因为它们是单一的、零散的,如声音、图像和交互式技术等。
信息空间的不完整(例如,仅有静态图像而无动态视频、仅有声音而无图形等)都了信息空间中的信息组织,也就了信息的有效使用。 交互性
这是人们获取和使信息变被动为主动的最为重要的特征。
多媒体信息空间中的交互性向用户提供更加有效地控制和使用信息的手段,同时也为应用开辟了更广阔的领域,交互可以增加对信息的注意和理解,延长保留的时间。 实时性
实时性又称为动态性,是指多媒体技术中涉及的一些媒体,例如,音频和视频信息具有很强的时间特性,会随着时间的变化而变化。 第一讲 多媒体技术概述 √多媒体技术基本概念 √媒体的定义和分类 √多媒体的定义和特征
多媒体计算机技术及其发展历史 多媒体技术的主要内容 多媒体的软硬件平台 专用芯片
数据压缩及编码技术 多媒体同步
多媒体网络与分布式处理技术 信息的组织与管理 多媒体数据存储 虚拟现实技术
多媒体技术的应用
多媒体技术的发展趋势
多媒体计算机技术及其发展历史
1941~1945美国为了准确计算导弹的弹道,秘密地进行全电子计算机PX计划的开发 1945 美国罗斯福总统的科学顾问Bush (14 ~1974) 在《大西洋月刊》上发表的“As we may think”的著名论文,提出了采用设备或技术来帮助科学家检索、记录、分析及传输各种信息的新思路和名为“Memex”的一种工作站构想,影响着一大批最著名计算机科学家 1946美国宾夕法尼亚大学电机工程系科学家研制超过首部电子计算机ENIAC(Electronic Numerical Integrator And Computer),它采用18 000个电子管,体积达3 000ft3 1947 发明晶体管,为计算机的微型化打通道路 多媒体计算机技术及其发展历史
1951美国RemingtonRand公司首次使用磁带来存储IBM商用计算机的资料,这种磁带一直使用到20世纪60年代初期 1959 发明集成电路
1960-1970 美国空军研究部门与IBM合作,研究中文处理方法,耗资6000多万美元,但没有成功
1963 美国麻省理工学院Sutherland 开创了计算机图形学的新领域,并获1988年ACM 图灵奖。他还在1968年开发了头盔式立体显示器,奠定了现代虚拟现实技术的重要基础 多媒体计算机技术及其发展历史
1963 美国斯坦福研究所的Engelbart发明了鼠标,当时它的外壳是用木头做的。1968年12月9日,鼠标的使用在旧金山一次计算机展上得以示范;其后,施乐在其操作系统中加入了鼠标操作的设计
1965 Ted Nelson提出Hypertext概念,它日后成为WWW的理论基础 1968 Gordon Moore、Robert Noyce和葛罗夫成立Intel公司。“Intel”这个字是由“Integrated Electronics”(集成电子)两个英文单词组合成的 1969-05-01 AMD公司成立
多媒体计算机技术及其发展历史
1971-11-13 Intel工程师成功开发出首枚微处理器,即4位的4004,它包含2 300个晶体管 1972 Intel推出8位的微处理器8008
1972-09 PHILIPS展示了长时间播放电视节目的光盘系统,光盘上记录的是模拟信号 1975-07 盖茨和爱伦成立了微软公司
1976 首部超级计算机问世。同年制成了没有声音、图像、键盘和外壳的计算机AppleⅠ。 1978-06-08 Intel推出16位的8086处理器,集成2 900个晶体管,主频为5MHz、8MHz和10MHz
1979-06 Intel推出8088处理器,主频为5MHz和8MHz 多媒体计算机技术及其发展历史
1981-08-12 IBM推出首部PC,采用DOS 1.0操作系统。从此,与PC兼容的计算机铺天盖地地发展起来
1982 Intel推出16位的80286处理器,集成134 000个晶体管,主频为8MHz、10MHz、12MHz 1982 SONY推出了世界上第一台CD播放机CDP-101,并生产了第一张CD
1983-11 微软推出Windows操作系统,只预装在计算机里,不作零售。1985年11月,又推出1.0零售版
1985-10-17 Intel推出首枚32位处理器80385DX,集成275 000个晶体管,主频16MHz、20MHz、25MHz和30MHz
1985 PHILIPS和SONY定义了CD-ROM标准。 多媒体计算机技术及其发展历史
1986 PHILIPS和SONY公司联合推出了交互式紧凑光盘系统,能够将声音、文字、图形、图像等数字化信息存储到光盘上
19 Tim Berners-Lee在日内瓦的CERN用HTML及HTTP开发了WWW网,,随后出现了各种浏览器(网络用户界面),使互联网飞速发展起来
19-04-10 Intel推出80486处理器,集成120万个晶体管,并首次内置浮点运算器和8KB缓存,其速度比8088快50倍以上。 1990-05-22 Windows 3.0推出;
1992年4月6日,经过改进的Windows 3.1推出,年销量2 700万套,席卷全球。由微软公司联合一些主要PC厂商和多媒体产品开发商组成了MPC联盟。并制定了第一代多媒体计算机标准--MPC1标准
1991在日内瓦确定HTML格式,为WWW发展奠定了基础 1992-08 Intel推出486DX2-66处理器 多媒体计算机技术及其发展历史
1993-04 美国伊利诺州大学推出首个WWW浏览器Mosaic;次年,浏览器的主要设计员Marcandreessen和Silicon Graphics的创办人James H. Clark合作创办Netscape公司,同年10月14日推出Navigator浏览器测试版,12月推出正式版,到1995年,Navigator浏览器市场占有率达90%
1993-05 Intel推出其第五代处理器,集成310万个晶体管,并首次放弃以数字命名的方式,取名Pentium。同年,IBM、Motorola和苹果公司合作开发PowerPC处理器,次年3月14日,苹果公司推出的Power Macintosh首次采用PowerPC处理器 1993-05 MPC联盟制定了第二代多媒体计算机标准--MPC2标准,该标准提高了基本部件的性能指标
多媒体计算机技术及其发展历史
1994-10 IBM推出OS/2 WARP 3.0操作系统,1996年10月,又推出WARP 4版本,但仍无法扭转微软在PC操作系统的优势 1995 Internet热潮兴起
1995-06 MPC联盟制定了第三代多媒体计算机标准--MPC3标准。该标准在进一步提高对基本部件的要求的基础上,增加了全屏幕、全动态(30帧/秒)视频及增强版的CD音质的视频和音频硬件标准。MPC3指定了一个更新的操作平台可以执行增强的多媒体功能,首次将视频播放的功能纳入MPC标准 多媒体计算机技术及其发展历史
1995-08-24 Windows 95推出;微软调动500名程序员开发的Internet Explorer(简称IE)浏览器推出1.0版本,1996年8月推出3.0版本,直接对Netscape公司造成威胁;IE不仅可以免费下载,更免费供应ISP,1998年则内置在Windows 98中,蚕食Navigator浏览器的市场
1995-09SONY和其他8家公司共同建立了DVD格式的统一标准
1995-11-01 Intel推出其第六代处理器Pentium PRO,集成550万个晶体管,出世一年半即被Pentium II取代
1997Intel推出Pentium II,集成750万个晶体管。5月,国际象棋大师卡斯帕罗夫被IBM深蓝击败,在前一年2月,他曾战胜过深蓝,有人怀疑人类制造的机器是否会将人击败;8月6日,苹果公司宣布,微软入股苹果公司1.5亿美元 多媒体计算机技术及其发展历史
1999 Intel推出Pentium III CPU,其中集成了2400万个晶体管
1999ICQ和免费电子邮件的浪潮势不可挡,吸引了数以千万的用户登记 2000Intel推出Pentium4CPU,其中集成了4200万个晶体管
2002-11-14Intel发布3.06GHz Pentium4。这款具有创新意义的含超线程技术新款英特尔奔腾Pentium4处理器,主频为3.06GHz,是世界上第一款采用业界最先进的0.13m制造工艺、每秒计算速度超过30亿次的量产微处理器
2003-03-12 Intel正式发布名为迅驰(Centrino)的移动计算技术。迅驰是一项移动计算技术,它具有集成的无线局域网连接能力;突破性的移动计算性能;延长的电池使用时间;更轻、更薄的外形设计
多媒体计算机技术及其发展历史
2004年6月21日,Intel发布新的i915/925芯片组,i915/925芯片组带给我们更多的思考,以前,我们习惯了说处理器有多少多少针,接口是SocketXXX,但是现在,随着LGA775封装的Prescott处理器发布,我们的认识被全部推翻在地,处理器变得没有了“脚”,取而代之的是一个一个的触点。
我们以前习惯的AGP总线标准也在这一系列的芯片组中消失了,取代它的是PCI Express总线标准,这也意味着升级可以保留原有显卡的认识也必须抛弃,从使用AGP总线标准的主板升级到使用PCI Express总线标准的主板,原有的显卡可能必须被舍弃
2005年来自IBM的蓝色基因Blue Gene/L,每秒可进行70.7万亿次计算,一度称霸世界的最快超级计算机
2006年,苹果推出基于Intel Core Duo处理器的笔记本,每秒运算次数可达20亿次,其售价约为2000美元 中国计算机发展史
1956年,周将计算机发展列入国家科学技术重
1956年,周亲自主持制定的《十二年科学技术发展规划》中,就把计算机列为发展科学技术的重点之一,并筹建了中国第一个计算技术研究所。根据的指示,以华罗庚教授和钱三强教授为首的科学前辈们便开始了共和国计算机的研究工作,并首次派出一批科技人员赴苏联实习和考察。同年,夏培肃完成了第一台电子计算机运算器和控制器的设计工作,同时编写了我国第一本电子计算机原理讲义 中国计算机发展史
1959年,中国研制成功第一台大型数字电子计算机104型,运算速度每秒1万次;1960年,中国第一台大型通用电子计算机——107型通用电子数字计算机研制成功,都是不小的突破。
19年,中科院计算技术研究所吴几康、范新弼领导的自行设计119机(通用浮点44二进制位、每秒 5万次)也交付使用,这是中国第一台自行设计的电子管大型通用计算机,也是当时世界上最快的电子管计算机,对于中国计算机行业来说,这是一个里程碑式的突破 中国计算机发展史
1963年,我国第一台大型晶体管计算机109机研制成功。次年,哈尔滨军事工程学院,即国防科技大学前身的441B全晶体管计算机也研制成功,标志着我国的计算机也进入到了第二个发展阶段。
1970年中科院计算所的小规模集成电路通用数字电子计算机“111机”研发成功,标志着我国进入到了计算机发展的第三个阶段。
1965年,中国自主研制的第一块集成电路在上海诞生,仅比美国晚了5年。1965年,中国第一台百万次集成电路计算机“DJS-Ⅱ”型操作系统编制完成。
1973年,北京大学与“738厂”联合研制的集成电路计算机150问世,150机采用通用浮点
48二进制位、每秒可进行1百万次计算,这是我国拥有的第一台自行设计的百万次集成电路计算机,也是中国第一台配有多道程序和自行设计操作系统的计算机。 中国计算机发展史
1973年,北京大学与“738厂”联合研制的集成电路计算机150(通用浮点48二进制位、每秒1百万次)问世。
1979年,中国研制成功每秒运算500万次的集成电路计算机--HDS-9。 1981年,中国研制成功的260机平均运算速度达到每秒100万次。
1983年11月,中国研制成功的“757”大型向量流水并行机,运算速度达到每秒向量运算0.1亿次。
1983年12月,“银河Ⅰ号”巨型计算机研制成功,运算速度达每秒1亿次。 1993年5月,“曙光一号”诞生,运算速度每秒6.4亿次,达到世界先进水平。 1993年,中国第一台10亿次巨型银河计算机Ⅱ型通过鉴定。 1995年,曙光1000大型机通过鉴定,其峰值可达每秒25亿次。
2003年,曙光4000L通过国家验收,这是一台运算速度达万亿次的超级计算机,再一次刷新国产超级计算机的历史纪录。 2009年6月15日,曙光公司开发的我国首款超百万亿次超级计算机曙光5000A正式开通启用
图形用户界面的发展
最早提出“图形用户界面”这一概念的是Vanaver。在1945年,他想象用户可以通过简单的机械装置与容易识别的直观图形与计算机进行交互,并大体提出了一些设计思想。
20世纪50年代,道格拉斯(Douglas C.Engelbart)发展了他的设想并着手将其变成现实。他召集了一起在国防部研究部门工作的一些天才的计算机科学家们致力于这一具有意义的计算机系统的研究工作。 图形用户界面的发展
他们这个小组做出许多有趣且有用的发明,其中最著名的就是在1963年开发成功的一个有3个按钮、拖着一根电线的定点设备。因为这三个按钮象是两只眼睛和一个鼻子,而且那根电线则象是一条长尾巴,于是这一定点装置就被自然而然地称之为“MOUSE”。
不幸的是,在研究的中途,经费被取消了,许多杰出的工程师离开并到加利福尼亚的PARC(Palo Alto Research Center)工作。该部门是XEROX公司于1970年创办的。 图形用户界面的发展
1973年,XEROX ALTO个人计算机诞生了。它拥有当时的计算机所不曾有过的许多特点。最让人激动的是,它是第一台面向个人设计的计算机。因为在这之前,计算机还是个只能被少数人使用的巨型“怪物”。
另一个令人激动的创新是其显示信息的方式:屏幕不仅可以显示文本,还可以像电视机一样利用像素来显示图形。每个像素可以单独地被控制和处理,这就是我们今天所说的位图(bitmap)。
图形用户界面的发展 通过工程师的不断改进,这种计算机能显示像真正的图画一样清晰的图形。工程师们一改当时用绿色显示屏的作法,使用了黑白显示屏,并实现在内存当中控制位图的显示,最终实现了图形和文本前所未有的显示精度:808像素606像素。
这台机器的其他创新还有:可移动显示器、工作区域像窗口一样可以用光标移动位置,使用了类似于我们今天使用的鼠标器、用鼠标在菜单中选择要执行的任务等。 图形用户界面的发展
位图显示方式需要大量的内存,大大提高了机器的价格,每台40000美元。XEROX公司考虑
到如此昂贵的价格是难以在个人用户中推广的,所以并没有向市场推出。8年以后,随着技术的进步和关键部件价格的下调,他们才向市场推出了1600美元的XEROX Star。但此时,计算机市场已经被便宜的苹果计算机和IBM-PC机所控制。
XEROX造的计算机只卖出了极少。面对飞速发展的计算机技术,XEROX起步很早,却没有在最关键的时候冲刺。 图形用户界面的发展
苹果计算机公司借鉴了PARC的技术。之后15位XEROX的工程师投向苹果的怀抱,在这之前操作系统的程序已经完成了。双击、拖曳、下拉菜单等技术也已基本成熟。
Macintosh 研究小组开始了大胆的创新,他们的设计宗旨是功能更强、价格更便宜、使用更简单,并允许第三方在此之上开发软件。他们在ROM中设计了工具条,并给出了许多应用实例来鼓励和引导大家使用苹果机。苹果公司还自己开发了大量优秀的应用软件,包括图形、电子表格等,但内存仍是其功能进一步提高的瓶颈。 MPC标准
1990年Philips等十多家厂商成立了多媒体市场协会,并制定了MPC(多媒体计算机)的市场标准MPC1
1993年5月MPC联盟又制定了第二代多媒体计算机标准-MPC2,主要是提高了基本部件的性能指标
1995年6月制定了MPC第三代的标准。增加了全屏幕、全动态(30帧/秒)视频及增强版CD音质的视频和音频硬件标准
第一讲 多媒体技术概述 √多媒体技术基本概念 √媒体的定义和分类 √多媒体的定义和特征
√多媒体计算机技术及其发展历史 多媒体技术的主要内容 多媒体的软硬件平台 高速处理器
数据压缩及编码技术 多媒体同步
多媒体网络与分布式处理技术 信息的组织与管理 多媒体数据存储 虚拟现实技术 多媒体技术的应用 多媒体技术的发展趋势 多媒体的软硬件平台
软件及硬件平台是实现多媒体系统的物质基础,其中每一项重要的技术突破都直接影响到多媒体的发展与应用的进程。 第一讲 多媒体技术概述 √多媒体技术基本概念 √媒体的定义和分类 √多媒体的定义和特征
√多媒体计算机技术及其发展历史
多媒体技术的主要内容 √多媒体的软硬件平台 高速处理器
数据压缩及编码技术 多媒体同步
多媒体网络与分布式处理技术 信息的组织与管理 多媒体数据存储 虚拟现实技术 多媒体技术的应用 多媒体技术的发展趋势 高速处理器
数字化后的音频和视频数据量非常大,因此必须进行压缩并需要大容量的存储器;音频和视频的输入和输出是实时的,需要高速度。要实现以上最基本的要求,在很多情况下,需要专用硬件支持。
计算机上不断涌现的新兴使用模式让最终用户对处理器的处理能力——即性能——提出了更高的要求
高速处理器
提高计算机处理能力的最重要的一种手段是扩大处理器中晶体管的数量,英特尔的奔腾(Pentium)四至尊版840处理器,晶体管数量已经增加至2.5亿个,其主频也从1971年推出的微处理器4004的740kHz(每秒钟可进行74万次运算),增长到3GHz(每秒钟运算30亿次)以上。
巨大的晶体管数量意味着巨大的能耗,随之而来的散热问题也日益凸显。而且当晶体管数量增加导致功耗增长超过性能增长速度后,处理器的可靠性就会受到致命性的影响 高速处理器
多核处理器的出现为解决这个矛盾提供了一种方法。所谓多核处理器,是指将多个运算核封装在一个芯片内部。从理论上讲,由于将两个或多个运算核封装在一个芯片内部,节省了大量的晶体管和封装成本(CPU的核很小,将多个核封装在一起给外形尺寸带来的变化并不显著),同时还能显著提高处理器的性能。
但要让多核完全发挥效力,需要在硬件和软件方面更多性的更新。其中,可编程性是多核处理器面临的最大问题。一旦核心多过八个,就需要执行程序能够并行处理。尽管在并行计算上,人类已经探索了超过40年,但编写、调试、优化并行处理程序的能力目前还非常弱。
高速处理器
NVIDIA公司在1999年发布GeForce256图形处理芯片时首先提出GPU(Graphic Processing Unit,图形处理器)的概念。
GPU使显卡减少了对CPU的依赖,并进行部分原本CPU的工作,尤其是在3D图形处理时。GPU所采用的核心技术有硬件T&L(Transform and Lighting,多边形转换与光源处理)、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等,而硬件T&L技术可以说是GPU的标志。 第一讲 多媒体技术概述 √多媒体技术基本概念 √媒体的定义和分类
√多媒体的定义和特征
√多媒体计算机技术及其发展历史 多媒体技术的主要内容 √多媒体的软硬件平台 √高速处理器
数据压缩及编码技术 多媒体同步
多媒体网络与分布式处理技术 信息的组织与管理 多媒体数据存储 虚拟现实技术 多媒体技术的应用 多媒体技术的发展趋势 数据压缩及编码技术
多媒体系统要求具有综合处理声、图、文的能力,面临的主要问题是巨大的数据量,尤其是对动态图形和视频图像
一幅中等分辨率彩色图像(分辨率为0×480,256色,8bit/像素)大约需0.293M字节的存储空间,如果用电话线的标准速率(2400bps)传输约需17分钟,一幅同样分辨率的真彩色(24bit/像素)图像的数据量约为7.37Mbit,一个1000MB(等于8000Mbit)的硬盘只能存约1000帧静止画面,一秒钟全动态视频画面(25帧)约占23.03MB空间,650MB的CD-ROM只能存放约28秒图像信息。
数据压缩及编码技术
数据压缩问题的研究的里程碑事件被认为是D.A.Huffman在1952年发表的论文“最小冗余度代码的构造方法(a method for the construction of minimum redundancy codes)”。 从那之后,数据压缩开始在商业程序中实现并被应用于许多领域。
早期Unix系统上1个不太为现代人熟知的压缩程序COMPACT实际就是huffman 0阶自适应编码的具体实现
第一讲 多媒体技术概述 √多媒体技术基本概念 √媒体的定义和分类 √多媒体的定义和特征
√多媒体计算机技术及其发展历史 多媒体技术的主要内容 √多媒体的软硬件平台 √专用芯片
√数据压缩及编码技术 多媒体输入输出技术
多媒体网络与分布式处理技术 信息的组织与管理 多媒体数据存储 虚拟现实技术
多媒体技术的应用 多媒体技术的发展趋势 多媒体输入输出技术
多媒体输入输出技术包括媒体变换技术、媒体识别技术、媒体理解技术和媒体综合技术。 综合地利用这些输入输出技术实现用户和计算机之间更加自然的交互是人机界面设计的目标。
多媒体输入输出技术
人机界面设计的目的是通过对用户需求的解释达到一种人机之间较好的通信能力,为了达到这个目的,需要在以下几个方面进行研究:
① 稳健的语言处理模式,包括语音识别和自然语言理解。 ② 手势分析和理解模型的设计。
③ 上述两个方面的通信模式的融合,因为二者之间在对用户需求的理解上是相互补充的。 ④ 多模式环境中的对话管理。这是保证一个连续的对话过程所必需的。 第一讲 多媒体技术概述 √多媒体技术基本概念 √媒体的定义和分类 √多媒体的定义和特征
√多媒体计算机技术及其发展历史 多媒体技术的主要内容 √多媒体的软硬件平台 √专用芯片
√数据压缩及编码技术 √多媒体输入输出技术
多媒体网络与分布式处理技术 信息的组织与管理 多媒体数据存储 虚拟现实技术 多媒体技术的应用 多媒体技术的发展趋势
多媒体网络与分布式处理技术
多媒体单机系统的研究目前已相对成熟,但对多媒体计算机网络的研究目前还不够成熟 数字化的网络集多媒体信息的获取、存储、处理、编辑、综合、传输于一体,并运行于网络上,网络的任意节点都可以共享网上的多媒体信息
多媒体技术要充分发展其对多媒体信息的处理能力,必须与网络技术相结合 运行于网络环境下多媒体系统,因为它能够不受时空地使多个用户透明地共享网上的数据,特别是多个用户同时共同对一个数据文件进行编辑,这使得多媒体技术有了更广泛的应用
多媒体网络与分布式处理技术
在分布式处理系统的发展过程中,先后出现了一些新的概念,包括集群、网格以及云计算。 集群是一组相互的、通过高速网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理。一个客户与集群相互作用时,集群像是一个的服务器。
网格是利用互联网把地理上广泛分布的各种资源(包括计算资源、存储资源、带宽资源、软件资源、数据资源、信息资源、知识资源等)连成一个逻辑整体,就像一台超级计算机一样,为用户提供一体化信息和应用服务(计算、存储、访问等),彻底消除资源“孤岛”,最充分
的实现信息共享。
而云计算是并行计算(Parallel Computing)、分布式计算(Distributed Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现。 第一讲 多媒体技术概述 √多媒体技术基本概念 √媒体的定义和分类 √多媒体的定义和特征
√多媒体计算机技术及其发展历史 多媒体技术的主要内容 √多媒体的软硬件平台 √专用芯片
√数据压缩及编码技术 √多媒体同步
√多媒体网络与分布式处理技术 多媒体系统软件技术 多媒体数据存储 虚拟现实技术 多媒体技术的应用 多媒体技术的发展趋势 多媒体系统软件技术
多媒体系统软件技术主要包括多媒体操作系统、多媒体编辑系统、多媒体数据库管理技术、多媒体信息的混合与重叠技术等
多媒体操作系统要求能够像处理文本、图形文件一样方便灵活地处理动态音频和视频;在控制功能上,要扩展到对录像机、音响、MIDI等声像设备以及CD-ROM光盘存储设备等的操作。多媒体操作系统要能处理多任务,易于扩充;要求数据存取与数据格式无关,提供统一友好的界面。
多媒体系统软件技术
由于多媒体信息是结构型的,致使传统的关系数据库已不适用于多媒体的信息管理,需要从以下几个方面研究多媒体数据库: ① 研究多媒体数据模型。
② 研究数据压缩和解压缩的格式。 ③ 研究多媒体数据管理及存取方法。 ④ 用户界面。
第一讲 多媒体技术概述 √多媒体技术基本概念 √媒体的定义和分类 √多媒体的定义和特征
√多媒体计算机技术及其发展历史 多媒体技术的主要内容 √多媒体的软硬件平台 √专用芯片
√数据压缩及编码技术 √多媒体同步
√多媒体网络与分布式处理技术
√多媒体系统软件技术 多媒体数据存储 虚拟现实技术 多媒体技术的应用 多媒体技术的发展趋势 多媒体数据存储
随着网络和存储技术的不断完善和发展,网络和存储等计算机技术已经成为现代社会生活不可或缺的重要组成部分。
在客户机-服务器(C/S)工作模式的影响下,存储技术和网络技术相结合已经成为一种必然的发展趋势。通过存储技术与网络技术的恰当结合,将传统以服务器为中心(server centric)的存储模式变成以数据为中心(data centric)的存储模式,将数据的管理与访问分离,来消除服务器的负载瓶颈,这种以数据为中心的存储模式导致了网络存储(networked storage)技术的飞速发展。 多媒体数据存储
网络存储系统建立在客户机-服务器模式的基础上,采用更优化的体系结构,将存储管理和数据存储的负载分布在网络服务器和存储设备(存储子系统)之间,彻底缓解了数据存储系统中I/O带宽与容量上的局限性,为数据存储提供了更高的存储容量和带宽,并具有高可用性、高可靠性和高可扩展性等优点。 多媒体数据存储
随着因数字化、网络化而开展的各种应用的不断增加,对网络存储系统的要求也越来越高。这些要求不仅体现在存储容量上,还包括以下几个方面。 可用性和可访问性。 可靠性。 可扩展性。 灵活性。 安全性。 易管理性。 良好的性价比。
第一讲 多媒体技术概述 √多媒体技术基本概念 √媒体的定义和分类 √多媒体的定义和特征
√多媒体计算机技术及其发展历史 多媒体技术的主要内容 √多媒体的软硬件平台 √专用芯片
√数据压缩及编码技术 √多媒体同步
√多媒体网络与分布式处理技术 √多媒体系统软件技术 √多媒体数据存储 虚拟现实技术
多媒体数据传输技术 多媒体技术的应用
多媒体技术的发展趋势 虚拟现实和增强现实技术
所谓虚拟现实,就是采用计算机技术生成一个逼真的视觉、听觉、触觉及嗅觉的感觉世界,用户可以用人的自然技能对这个生成的虚拟实体进行交互考察。这个概念包含三层含义: - 虚拟实体用计算机来生成的一个逼真的实体;
- 用户可以通过人的自然技能(人的头部转动、眼动、手势或其它的身体动作)与这个环境交互;
- 要借助于一些三维传感设备来完成交互动作,常用的如头盔立体显示器、数据手套、数据服装、三维鼠标等。 虚拟现实和增强现实技术
增强现实技术(Augmented Reality technique,简称AR技术),是指把原本在现实世界的一定时间空间范围内很难体验到的实体信息(视觉信息、声音、味道和触觉等)通过模拟仿真后再叠加到现实世界被人类感官所感知,从而达到超越现实的感官体验。
它的出现与三种技术的发展密切相关:一是计算机图形图像技术。二是空间定位技术。三是人文智能(Humanistic Intelligence)。
增强现实具有以下特点:一是虚实结合。二是实时交互。三是三维注册 第一讲 多媒体技术概述 √多媒体技术基本概念 √媒体的定义和分类 √多媒体的定义和特征
√多媒体计算机技术及其发展历史 √多媒体技术的主要内容 √多媒体的软硬件平台 √专用芯片
√数据压缩及编码技术 √多媒体同步
√多媒体网络与分布式处理技术 √信息的组织与管理 √多媒体数据存储 √虚拟现实技术 多媒体数据传输技术 多媒体技术的应用 多媒体技术的发展趋势 多媒体数据传输技术
随着多媒体和网络技术的发展,视频、音频、动画和文本等多媒体数据在网络上传输的应用已经越来越普遍。
时至今日,宽带网上的流媒体传输已经成为一种时尚,视频会议、VOD(video on demand)点播、网络电视等视频网络传输应用已经成为人们熟悉的时髦话题。
人们有理由相信,在不远的将来,网络多媒体通信技术将会突破计算机、电话、电视等传统产业的界限,把计算机的交互性、通信网络的分布性和广播电视的真实性有机地融为一体,向人们提供综合的信息服务。 多媒体数据传输技术
数字视频网络传输是多媒体通信技术中一个十分重要的内容。要实现数字视频网络传输至少有三方面的难度:
相对于传统的数据应用而言,网络多媒体应用通常需要更高的网络带宽。 大多数的多媒体应用都要求实时传输。
多媒体数据流通常都存在一定的突发性,仅仅增加带宽还不能解决突发性所带来的问题。 第一讲 多媒体技术概述 √多媒体技术基本概念 √媒体的定义和分类 √多媒体的定义和特征
√多媒体计算机技术及其发展历史 √多媒体技术的主要内容 √多媒体的软硬件平台 √专用芯片
√数据压缩及编码技术 √多媒体同步
√多媒体网络与分布式处理技术 √信息的组织与管理 √多媒体数据存储 √虚拟现实技术
√多媒体数据传输技术 多媒体技术的应用 多媒体技术的发展趋势 多媒体技术的应用 视频点播 电子出版物 CAI
游戏与娱乐 计算机视频会议
多媒体展示和信息查询系统 MIS与OA 传媒、广告 讲演辅助
联机服务(On-line service) 视频点播 电子出版 CAI
例:CAI.swf 游戏 娱乐 视频会议 多媒体展示 例:SHOW.swf 多媒体信息查询 多媒体信息查询
管理信息系统与办公自动化 管理信息系统与办公自动化
传媒 广告
例:AD.swf 讲演辅助 例:《多媒体计算机技术》讲义 联机服务
第一讲 多媒体技术概述 √多媒体技术基本概念 √媒体的定义和分类 √多媒体的定义和特征
√多媒体计算机技术及其发展历史 √多媒体技术的主要内容 √多媒体的软硬件平台 √专用芯片
√数据压缩及编码技术 √多媒体同步
√多媒体网络与分布式处理技术 √信息的组织与管理 √多媒体数据存储 √虚拟现实技术
√多媒体数据传输技术 √多媒体技术的应用 多媒体技术的发展趋势 多媒体技术的发展趋势
计算机技术和网络通信技术的结合为多媒体技术的进一步应用和发展提供了巨大的可能性,目前这种可能性已经逐渐变为现实。
多媒体技术的未来将朝着智能化和三维化两个方向发展。 多媒体技术的发展趋势
多媒体技术中最主要的处理对象就是数字音频和数字图像,这里的数字图像包括了静态图像和动态图像(视频、动画)。对数字音频的研究,主要涉及的是压缩编码和语音识别,而对数字图像的研究包括了压缩编码、图像分析识别和图像理解。 目前相关的研究已经取得了很大的进展
无论是自然语言的理解还是图像理解,都将涉及“智能化”,而智能化的目标就是实现人与计算机的自然交互。
人类一般都是用概念来表达意志,但是计算机存储的都是低层的数据,因此很难把这些概念表述出来。这样就提出来一个如何智能化处理的问题。 人机交互、语义网 多媒体技术的发展趋势
多媒体技术的一个重要研究内容就是将计算机视觉技术和图形学技术的内容结合起来,即实现所谓的增强现实技术。这样做可以将诸如视频会议系统的现场图像和计算机生成的图像叠加在一起,使多媒体的应用效果产生极大的改观,应用范围也随之发生新的拓展。 计算机图形学从二维图形发展到复杂的、高质量的三维的环境,其相关的技术已经得到广泛的应用。在娱乐方面,电影和计算机游戏中广泛地使用计算机图形学。动画片发展到完全靠计算机制作,甚至非动画片也主要依靠计算机图形学去开发特定的效果。例如,20世纪70
年代中期电影“星球大战”的成功就是个证明。 三维全息图像 思考题
1. 什么是多媒体?
2. 多媒体的关键特性包含哪些方面?
3. 为什么说,利用多媒体是计算机技术发展的必然趋势?
4. 为什么说,如果没有数据压缩的进步,多媒体计算机就难以得到实际的应用? 5. 就你个人的看法,多媒体技术要研究的内容还应包括哪些方面?
6. 除了本章介绍的多媒体技术的一些应用,你还了解哪些不同的应用? 多媒体计算机技术 鲁宏伟
luhw@hust.edu.cn
第二讲 多媒体计算机系统的组成 概述
常用的I/O设备 输入设备 输出设备 通信设备 存储设备 USB设备
数字摄像设备
多媒体计算机系统硬件环境
第二讲 多媒体计算机系统的组成 √概述
常用的I/O设备 输入设备 输出设备 通信设备 存储设备 USB设备
数字摄像设备 输入设备 键盘 鼠标器 手写板 磁卡设备 IC卡设备 条码设备 图像扫描仪 数字化仪 触摸屏 视频捕获卡 RFID
键盘
键盘作为计算机中最基本而且也是最重要的输入装置,在计算机的发展历史中起着很重要的作用。每一段程序、每一篇文章都是通过键盘一个字一个字的敲入电脑中的。键盘的发展过程也是经历了不断地改革、创新才一步步发展到现在的。
从早期的机械式键盘到现在的电容式键盘;从83键键盘到101(102)键键盘以至于到现在的104键(或更多)的支持浏览器功能的键盘,都说明了计算机技术日新月异的发展。
鼠标器
鼠标(mouse)是随图形用户接口(GUI)普及而流行起来的一种点输入设备。
鼠标是一种串行点设备。根据制造原理和解码方式,可分为机械鼠标和光学鼠标等。鼠标的主要性能指标如下:
分辨率--衡量鼠标移动精确度的标准,分为硬件分辨率和软件分辨率。硬件分辨率反映鼠标的实际能力,而软件分辨率是通过软件来模拟出一定的效果。其单位都是DPI,现在市面上的鼠标,其分辨率一般为300DPI – 400DPI。 与计算机的接口(串口、PS/2口、USB口 ) 手写板
使用键盘输入汉字是电脑在我国广泛普及的障碍之一,而中文手写输入设备的出现使得克服这一障碍有了希望。例如汉王笔,主要由一块手写板和一支笔组成。使用时可直接连到串口上。汉王笔可识别1300多个简繁体字、识别率达98%。另外,现在还涌现了许多其它品牌的产品。 磁卡设备
磁卡是一种识别卡。通常是在一块方形材料上粘贴上一条磁条或者涂上一定面积的磁性材料,用来记录作为标识的数据信息,经过磁卡读出器可以方便地读出来,并输入到计算机进行处理。
磁卡作为一种信息记录手段,具有如下优点:所记录的内容可以修改,可靠性强、误码率低、信息识别速度快、保密性好、读出设备便宜。 IC卡设备
IC卡(Integrated Circuit Card),即集成电路卡,按功能可以分为三类:存储卡(内嵌芯片相当于普通串行E2PROM存储器,不 能 处 理 信 息 ; 只 是 简 单 的 存 储 设 备 )、智能卡(不 仅 能 存 信 息 还 能 对 数 据 进 行 复 杂 的 运 算 )和超级智能卡(在卡上具有MPU和存储器并装有健盘、液晶显示器和电源,有的卡上还具有指纹识别装置等 )。
IC卡是硬件与软件技术的高度结合,它的制造技术比磁卡要复杂得多,其主要技术包含三个方面:硬件技术、软件技术和业务知识。 条码设备
指用来读取条形码信息的设备。条形码由一组宽度不同的、反射率不同的、平行相邻的条和空,按照规定的编码规则组合起来,用来表示某种数据的符号,这些数据可以是数字、字母或某些符号。
从外观上看,条形码(Bar Code)是一组黑白相间的条形图案,其中黑条代表1,白条代表0。它们可以通过光来识别。当一束光扫过条形码时,只有白条会将光反射回来,反射的光用光探测器来接收,当探测器探测到反射光时就产生电脉冲,这样就把黑白条形码转换成为以二进制表示的电脉冲。 RFID
RFID射频识别是一种非接触式的自动识别技术,它通过射频信号自动识别目标对象并获取
相关数据,识别工作无须人工干预,可工作于各种恶劣环境。RFID技术可识别高速运动物体并可同时识别多个标签,操作快捷方便。
RFID是一种简单的无线系统,只有两个基本器件,该系统用于控制、检测和跟踪物体。系统由一个询问器(或阅读器)和很多应答器(或标签)组成。 RFID的分类
RFID按应用频率的不同分为低频(LF)、高频(HF)、超高频(UHF)、微波(MW),相对应的代表性频率分别为:低频135KHz以下、高频13.56MHz、超高频860M~960MHz、微波2.4G,5.8G
RFID按照能源的供给方式分为无源RFID,有源RFID,以及半有源RFID。无源RFID读写距离近,价格低;有源RFID可以提供更远的读写距离,但是需要电池供电,成本要更高一些,适用于远距离读写的应用场合 RFID的基本组成部分
标签(Tag):由耦合元件及芯片组成,每个标签具有唯一的电子编码,附着在物体上标识目标对象;
阅读器(Reader):读取(有时还可以写入)标签信息的设备,可设计为手持式或固定式; 天线(Antenna):在标签和读取器间传递射频信号 RFID技术的基本工作原理 标签进入磁场后,接收解读器发出的射频信号,凭借感应电流所获得的能量发送出存储在芯片中的产品信息(Passive Tag,无源标签或被动标签),或者主动发送某一频率的信号(Active Tag,有源标签或主动标签);解读器读取信息并解码后,送至信息系统进行有关数据处理
RFID技术的基本工作原理
一套完整的RFID系统, 是由阅读器(Reader)与电子标签(TAG)也就是所谓的应答器(Transponder)及应用软件系统三个部份所组成, 其工作原理是Reader 发射一特定频率的无线电波能量给Transponder, 用以驱动 Transponder电路将内部的数据送出,此时 Reader 便依序接收解读数据, 送给应用程序做相应的处理 RFID技术的基本工作原理
以RFID 卡片阅读器及电子标签之间的通讯及能量感应方式来看大致上可以分成 感应偶合(Inductive Coupling)
后向散射偶合(Backscatter Coupling)
一般低频的RFID大都采用第一种式, 而较高频大多采用第二种方式。 阅读器根据使用的结构和技术不同可以是读或读/写装置,是RFID系统信息控制和处理中心。 RFID技术的基本工作原理 图像扫描仪
扫描仪是一种图像输入设备,它可以将图像输入到计算机里。 扫描仪的主要性能指标如下:
分辨率--扫描仪对图像细节的表现能力用分辨率来衡量,分辨率通常用每英寸扫描图像上所含有的像素点的个数表示,记做dpi(dot per inch)。 灰度
色彩度-- 色彩数表示彩色扫描仪所能产生的颜色范围,通常用表示每个像素点上颜色的数据位数(bit)表示。 速度 幅面 数字化仪
数字化仪是专门用来读取图形信息的计算机输入设备。它可以将各种图形信息转换成相应的计算机可识别的数字信息,通过计算机加工处理变成数字图形。它是计算机辅助设计(CAD)的重要设备之一。
数字化仪一般由两部分组成:感应板部分(Drawing Board)和点设备(Point Device,又称为游标或者传感器)。
触摸屏
触摸屏(Touch Screen)是一种定位设备,当用户用手指或其它设备触摸安装在计算机显示器前面的触摸屏时,所摸到的位置(以坐标形式)被触摸屏控制器检测到,并通过串行口或其它接口(如键盘)送到CPU,从而确定用户所输入的信息。
触摸屏系统一般由两部分组成:触摸屏控制卡和触摸检测装置。 触摸屏根据所用的介质以及工作原理,可分为电阻式、电容式、红外线式和声表面波式多种。 触摸屏的分类 电阻式触摸屏 触摸屏用两层高透明的导电层组成触摸屏,当手指按在触摸屏上时,该处两层导电层接触,电阻发生变化,在X和Y两个方向上产生信号,然后传送触摸屏控制器。 电阻式触摸屏不受尘埃、水、污物影响,性能较红外线式及表面声波式触摸屏为佳。 电容式触摸屏 触摸屏把透明的金属层涂在玻璃板上,当手指触摸在金属层上时,电容发生变化,使得与之相连的振荡器频率发生变化,通过测量频率变化可以确定触摸位置获得信息。由于电容随温度、湿度或接地情况的不同而变化,故其稳定性较差,往往会产生漂移现象。该种触摸屏适用于系统开发的调试阶段。 触摸屏的分类 红外线式触摸屏 在屏幕周边成对安装红外线发射器和红外线接受器,接受器接受发射器发射的红外线,形成红外线矩阵。当手指按在屏幕上时,手指阻挡了红外线,这样在X、Y两个方向接受信息送给主机。由于没有电容充放电过程,响应速度比电容式快,但分辨率较低。 表面声波式触摸屏 该屏的四角分别安装竖直或水平向超声波发射换能器及接收换能器,四边亦刻有反射条纹,发出如参照波形般的超声波信号。当手指接触屏幕,便会吸收一部分声波能量,控制器依据减弱的信号计算出触摸点的位置。 虽然表面声波的感应速度很快,仅次于电容式触摸屏,且屏上每一处能接受多次的触碰,非常耐用,但表面感应系统的感应转换器在长时间运作下,会因声能所产生的压力而受到损坏。
视频捕获卡
这种卡是将模拟视频信号转换后(捕获下来),进行实时处理或者以文件形式存储在计算机中,在Windows平台下,大多数转换卡将生成AVI文件。它有以下几个特征: 视频捕获卡是否有Overlay(叠加)功能--将计算机的VGA信号与视频信号叠加,然后把叠加后的信号在显示器上显示。用于对连续图像进行处理,产生特技效果 支持的输入视频标准、视频源和图形文件格式 与VGA卡的兼容性
视频卡是否采用了硬件压缩
视频输入:8 通道
画质:9比特超高画质 (超过硬压缩与其他软压缩的8比特画质) 总压缩方式:H.2 / MPEG-4 任选 总资源:200帧/秒
显示分辨率:0 X 480 、352 X 288、320 X 240 录像分辨率:0 X 480 、352 X 288、320 X 240 压缩比:8-150M/H/C
录象方式:持续录像、移动录象、报警录象 回放:智能搜索,多画面回放 备份:USB与网络远程备份 网络协议:TCP/UDP
操作系统:Windows 2000/XP
第二讲 多媒体计算机系统的组成 √概述
常用的I/O设备 √输入设备 输出设备 通信设备 存储设备 USB设备
数字摄像设备 输出设备 CRT显示器
液晶显示器(LCD) 等离子体显示器(PDP) LCD与PDP功耗的比较 3D电视
视网膜显示屏 显示卡 绘图仪 打印机 CRT显示器
CRT(Cathode Ray Tube)是由德国人布劳恩发明,因而一般也称为布劳恩管。一般称为CRT显示器的,是一种在计算机输出显示或图像信息系统中使用的电视监视器。
CRT显示器的种类是根据所使用的CRT的种类分类的, 有存储型、随机扫描型(XY型),以及光栅扫描型(家庭用电视机就是这种方式)等
液晶显示器
LCD是一种低电压、低功耗器件,可直接由MOS-IC驱动,因此器件和驱动系统之间的配合较好。其优点是平面型,结构简单,其显示面也可任意加工制作。使用寿命比较长,目前已知道具有五万小时以上的寿命。
液晶显示器是在一定电压下(仅为数伏),使液晶的分子改变排列方式,由于分子的再排列,使液晶及其玻璃构成的显示屏的光学性质发生变化,显示出不同颜色,也就是说液晶显示器
是一种液晶利用光调制的受光型显示器件。
液晶显示器
液晶本身是不发光的,只能产生颜色的变化,需要有光源才能看到显示的内容。
传统的液晶显示器(也就是我们通常所说的LCD显示器)采用的是冷阴极荧光灯(Cold Cathode Fluorescent Tube,简称CCFT)作为背光源。它的工作原理是当高压施加于灯管的两电极后, 灯管内少数电子高速撞击电子后产生二次电子发射,开始放电,管内的水银或惰性气体在被撞击后由不稳定状态急速返回稳定状态时,会将过剩能量以紫外线 (253.7 nm) 释放出来,此释放出来的紫外线由萤光粉吸收转换成可见光。 液晶显示器
虽然从技术上来说,CCFT已经相当成熟,不过CCFT背光使LCD显示器最大只能再现不到80%的NTSC信号所能传输的色彩。
同时,CCFT背光源的能量利用效率低下。在光能从背光到屏幕的传输过程中,光能量损耗情况非常严重,最终大约有6%的光能可被真正利用。 为了实现更高的亮度和对比度,厂商必须提高光源的输出功率或增加灯管数目,而这样带来的后果就是整机功耗增加。 液晶显示器
LED由数层很薄的掺杂半导体材料制成,一层带有过量的电子,另一层则缺乏电子而形成带正电的空穴,工作时电流通过,电子和空穴相互结合,多余的能量则以光辐射的形式释放出来。
通过使用不同的半导体材料可以获得不同发光特性的发光二极管。目前已经投入商业使用的发放二极管可以提供红、绿、蓝、青、橙、琥珀、白等颜色。手机上使用的主要是白色LED背光,而在液晶电视上使用的LED背光光源可以是白色,也可以是红、绿、蓝三基色,在高端产品中可以用多色LED背光进一步提高色彩表现力。 液晶显示器
采用LED背光的优势在于厚度更薄,大约为5厘米,色域也非常宽广,能够达到NTSC色域的105%,黑色的光通量更是可以降低到0.05流明,进而使液晶电视对比度高达10 000:1。 液晶显示器
LED背光存在两种方式,一种是直下式,另一种是侧入式。 液晶显示器
直下式LED背光:LED发光体采用点阵式布局,发光亮度均匀,画面对比度高,色彩自然,分辨率高,使用寿命较长,通过芯片能够实现发光单元的调节,节能效果明显。但它的缺点是机身相对稍厚,技术成本高。
侧入式LED背光:按照背光灯侧置位置来看,还分为单侧、双侧、四侧等侧入式架构。由于背光源侧置,显示器的体积特别是厚度可以大幅度缩小,因此市面上的各种超薄LED电视都属于这种类型。 液晶显示器
LCD显示器的液晶屏技术方面,日立公司于2001推出一种新型的面板技术--硬屏液晶,即IPS(In-Plane Switching,平面转换)技术。
传统LCD显示器的液晶分子一般都在垂直-平行状态间切换,MVA(富士通的一项技术)和PVA(三星公司的一项技术)将之改良为垂直-双向倾斜的切换方式,而IPS技术与上述技术最大的差异就在于,不管在何种状态下液晶分子始终都与屏幕平行,只是在加电/常规状态下分子的旋转方向有所不同:MVA、PVA液晶分子的旋转属于空间旋转(Z轴),而IPS液晶分子的旋转则属于平面内的旋转(X-Y轴)。
液晶显示器
由于IPS硬屏的分子排列方式呈水平状,当遇到外界压力时,分子结构向下稍微下陷,但是整体分子还呈水平状。 等离子体显示器
等离子体显示器又称电浆显示器,是继CRT、LCD后的最新一代显示器,其特点是厚度极薄,分辨率佳。
等离子体显示技术(Plasma Display)的基本原理是这样的:显示屏上排列有上千个密封的小低压气体室(一般都是氙气和氖气的混合物),电流激发气体,使其发出肉眼看不见的紫外光,这种紫外光碰击后面玻璃上的红、绿、蓝三色荧光体,它们再发出我们在显示器上所看到的可见光。
LCD与PDP功耗的比较
等离子与液晶电视各具优缺点,在功耗方面,等离子电视的动态消耗功率更低。
在高亮度的图像或全白场信号时,PDP消耗的功率比较大;但显示普通亮度的图像时,如在平均图像电平为40~50%,则和LCD 消耗功率相差不大;平均图像电平为30%以下,则PDP消耗功率还低于LCD。
因PDP消耗功率随显示图像的平均图像电平(APL)的变化而变化,当APL低时,也就是画面暗时消耗功率小;而LCD不管画面明暗,因背光源灯始终打开,功率消耗基本上是一样的。 例如:用同样37英寸的PDP和LCD电视机观看《指环王》影片时,PDP消耗电力为159W,LCD消耗电力为280W 3D显示器
3D显示器是利用人的双眼观察物体的角度略有差异,因此能够辨别物体远近,产生立体的视觉这个原理,把左右眼所看到的影像分离,从而令用户可体验到立体的感觉。 3D显示技术可以分为裸眼式和眼镜式两大类。
裸眼式3D
裸眼式3D是利用自动立体显示(Auto Stereoscopic)技术,即所谓的“真3D技术”,使观看者不用戴上眼镜就能观看立体影像。 这种技术利用所谓的“视差栅栏”,使两只眼睛分别接受不同的图像,来形成立体效果。 从技术上来看,裸眼式3D可分为光屏障式(Barrier)、柱状透镜(Lenticular Lens)技术和指向光源(Directional Backlight)三种。 裸眼式3D
光屏障式3D技术也被称为视差屏障或视差障栅技术,它实现的方法主要是使用一个开关液晶屏、偏振膜和高分子液晶层,利用液晶层和偏振膜制造出一系列方向为90°的垂直条纹,通过它们的光就形成了垂直的细条栅模式,称之为“视差障壁”。
在立体显示的模式下,显示应当由左眼看见的内容时,不透明的条纹便会遮挡右眼;同理,显示应当由右眼看见的画面时,便会遮挡左眼,通过将观看者的左眼与右眼的画面分开,来达到立体显示的效果。 光屏障式3D技术原理图 裸眼式3D
柱状透镜3D技术的原理是在液晶显示屏的前面加上一层柱状透镜,使液晶屏的像平面位于透镜的焦平面上,这样在每个柱透镜下面的图像的像素被分成几个子像素,这样透镜就能以不同的方向投影每个子像素。于是双眼从不同的角度观看显示屏,就看到不同的子像素。不过像素间的间隙也会被放大,因此不能简单地叠加子像素。
柱状透镜技术相对于光屏障式显示技术来说,在亮度上,不会造成损失,从而,观看者可以通过这种技术,享受到真正的高亮度的3D内容。不过,由于在原理上与光屏障式大同小异,所以,在显示时,仍然会损失掉很大部分的分辨率,观看者仍然不能够享受到高清的3D显示效果。
柱状透镜技术原理图 裸眼式3D
指向光源3D技术实现的方法是通过搭配两组LED,配合快速反应的LCD面板和驱动方法,让3D内容以排序方式进入观看者的左右眼,由于互换影像产生视差,进而让人眼感受到3D三维效果。
这种技术相对于前面两种技术来说,具有很大的优势,在3D显示的亮度和分辨率上都能够得到保障。通过这种技术,人们能够真正的享受到真正的高清3D体验。而且这一种3D技术还能够应用在移动掌上设备上,通过手机,MP4等,就能够享受到真正的3D效果。 指向光源裸眼3D技术原理 视网膜显示屏
美国苹果公司推出其iPhone4时,将其配备的显示屏,称为视网膜显示屏(Retina Display),强调像素精细到了人眼无法分辨的程度。本质上,这是一个由 LED 背光驱动的像素密度为 326 PPI(Pixel Per Inch)的IPS液晶显示器(分辨率960×0),在这样的显示屏中,每一个像素仅占78微米大小。人眼所能分辨率最高PPI(Pixel Per Inch)为300(PPI数值越高,即代表显示屏能够以越高的密度显示图像)。
当然,显示的密度越高,拟真度就越高;这意味着iPhone4屏幕的细腻程度已经超过了人眼的分辨范围,这也是苹果公司将其称作“Retina Display”的原因。 视网膜显示屏 显示卡
显示卡的主要作用是对图形函数进行加速。
当用户使用Windows操作系统后,CPU已经无法对众多的图形函数进行处理,而最根本的解决方法就是图形加速卡。图形加速卡拥有自己的图形函数加速器和显存,这些都是专门用来执行图形加速任务,因此就可以大大减少CPU所必须处理的图形函数
作为显示卡的重要组成部分,显存也一直随着加速芯片的发展而逐步改变着。 The Elsa Gladiac显示卡 RAMDAC: 350 MHz 显存: 32MB 或 MB DDR RAM - 333MHz. DDR
总线系统: AGP 2x/4x
可选视频模式: 1x Video-In & 1x Video-Out
BIOS: VESA BIOS 3.0 support
支持的API: DirectX 6, DirectX 7, OpenGL 内核速率/显存速率: 200MHz/166MHz
配套的驱动软件完美支持Windows 95 & 98, Windows 2000, Windows NT 4.0 绘图仪
绘图仪是一种用于图形硬拷贝的输出设备。分为台式和滚筒式两种。台式绘图仪幅面受平台尺寸,但对图纸没有特别要求,其绘图精度高,所以使用较广泛。滚筒式绘图仪幅面可以较大,只受滚筒长度。
mp5300-a3 幅面绘图仪 打印机
打印机是一种最传统的标准计算机输出设备。目前市场上的打印机主要分为击打式和非击打式两大类。其中,击打式以点阵针击式打印机(Dot Matrix Printer)为主,非击打式以激光打印机(Laser Jets Printer)和喷墨式打印机(Ink Jets Printer)为主。 第二讲 多媒体计算机系统的组成 √概述
常用的I/O设备 √输入设备 √输出设备 通信设备 存储设备 USB设备
数字摄像设备 通信设备 调制解调器 网卡
调制解调器
调制解调器的英文是Modem(Module与Demodule的缩写),其作用是利用模拟信号传输线路传输数字信号。
传统MODEM是使用电话线传输的,但它只使用了0~4KHZ的低频段 ADSL
电话铜线理论上可以有2M的带宽,ADSL正是利用了26KHZ以后的高频段才提供如此高的速度。
ADSL在调制方式上采用离散多音复用技术(DMT),在DMT技术中,一对铜线上0~4Khz用来传输电话音频,用26Khz~1.1Mhz频段传数据,并把它以4Khz的宽度划分为25个上行子通道和249个下行子通道,输入的数据经过TCM编码及QAM调制后,送往子信道,所以理论上上行速率可达1.5Mbps, 下行速率可达14.9Mbps,考虑到干扰等情况,实际上传输速率一般为上行0Kbps,下行8Mbps. ADSL频率分配
50 kHz - 1 MHz 用于下行 4 kHz - 50 kHz 用于上行 0 kHz - 4 kHz 用于普通电话 网卡
网卡是局域网中最基本的部件之一,又称为网络卡或网络接口卡,英文简称NIC(Network Interface Card)。它的主要工作原理为整理计算机上发往网线上的数据并将数据分解为适当大小的数据包之后向网络上发送出去。当然它还负责网线上传过来的数据。
网卡按其传输速度来分可分为10M网卡、10/100M自适应网卡以及千兆(1000M)网卡。 按主板上的总线类型来分,又可分为ISA、VESA、EISA、PCI等接口类型。
第二讲 多媒体计算机系统的组成 √概述
√常用的I/O设备 √输入设备
√输出设备 √通信设备 存储设备 USB设备
数字摄像设备 存储设备
对多媒体终端来说,存储设备的发展趋势是更大容量和更高速
作为多媒体计算机的一个重要标志的光盘已经成为目前不可缺少的存储媒质。 存储设备
硬盘生产商通过一种称为反铁磁耦合介质(AFC)的硬盘涂层,使每个硬盘盘片上能够存放更多的数据。这种硬盘涂层中使用了被IBM称之为“仙尘”的钌元素。
现在的大多数硬盘的存储密度为每平方英寸20GB,AFC硬盘的存储密度最终将能够达到这一数字的5倍。这就意味着,一块400GB的硬盘与普通80GB的硬盘体积大致相当。 存储设备
在硬盘容量不断扩大的同时,半导体存储技术也在不断地推陈出新。 半导体存储技术的典型应用之一就是固态硬盘的出现。通常固态硬盘是指以NAND作为存储介质的SSD(Solid State Disk/Drive),可以应用在台式机、笔记本、移动设备、游戏机等硬件上,加速启动、性能,同时降低功耗。
固态硬盘是由控制单元和存储单元(FLASH芯片)组成,简单的说就是用固态电子存储芯片阵列而制成的硬盘。 SSD固态硬盘的优点
速度快。根据相关测试,在同样配置的笔记本电脑下,运行大型图像处理软件时能明显感觉到SSD固态硬盘无论在保存还是在打开文件时都比传统硬盘更快。 耐用防震 无噪音 重量轻 存储设备
存储器主要以速度、功耗、价格、循环寿命和非易失性等指标衡量其水平。已有的多种半导体存储技术虽然已经可以满足一系列的应用,但随着信息技术发展,对存储技术提出了更高的要求。
如果有一种存储技术能与硅基半导体工艺兼容,具有DRAM的高容量低成本、SRAM的高速度、Flash的数据非易失性、可靠性高、操作电压小、功耗将低是最理想的,而相变存储器是可以实现这一理想的存储技术。
相变存储器
相变存储器是一种新型的半导体存储技术,是加工到纳米尺寸的可逆相变材料,利用材料晶态时的低阻与非晶态时的高阻特性来实现存储的一种技术。由于低阻与高阻之间可以差6~7个数量级,在每个单元可以保持多个电阻状态,因此可实现多级存储功能。
与普通的Flash芯片相比,相变存储器内存的数据写入时间仅为0.002s,写入时的耗电量也不足Flash芯片的1/2。相变存储器广泛应用于移动电话、数码相机、MP3播放器、工业设备、移动存储卡以及其他手持设备等民用微电子领域,在航空航天、导弹系统等军用领域具有重要的应用前景。 存储技术 NAS
SAN DAS IP存储 光存储 虚拟存储 云存储 NAS
数据存储市场的发展,使得以服务器为中心的数据存储模式逐渐向以数据为中心的数据存储模式转化。
NAS(Network Attached Storage,网络附加存储)被定义为一种特殊的专用数据存储服务器,内嵌系统软件,可提供跨平台文件共享功能。NAS设备完全以数据为中心,将存储设备与服务器彻底分离,集中管理数据,从而有效释放带宽,大大提高了网络整体性能,也可有效降低总拥有成本,保护用户投资。 NAS SAN
SAN(Storage Area Network,存储局域网)可以定义为以数据存储为中心,采用可伸缩的网络拓扑结构,通过具有高传输速率的光通道的直接连接方式,提供SAN内部任意节点之间的多路可选择的数据交换,并且将数据存储管理集中在相对的存储区域网内。 SAN DAS
采用DAS(Direct-Attached Storage,直接附加存储)存储方案的服务器结构如同PC架构,外部数据存储设备采用SCSI技术或者FC技术、直接挂接在内部总线上的方式,数据存储是整个服务器结构的一部分。 IP存储
IP存储就是使用IP把服务器与存储设备连接起来的技术。
现在主流的IP存储技术的标准很多,使用最多的是iSCSI,是由IETF制定的标准。
这种技术继承了传统的技术,如沿用SCSI技术、TCP/IP协议,在IP栈的一个层面上传送本机SCSI。iSCSI可以实现在IP网络上运行SCSI协议,使其能够在诸如高速以太网上进行路由选择。iSCSI使企业网络在接入WAN时能够在任何位置传输、存储SCSI命令及数据。 虚拟存储
虚拟存储就是把物理上相互的存储模块用软、硬件集中起来管理,形成逻辑上的存储单元,从而使主机得以访问。
虚拟存储分为对称式和非对称式两种。前者指虚拟存储设备与存储管理软件系统及交换设备集成为一个整体,后者指虚拟存储设备于数据传输路径之外。 NAS vs. SAN
存储局域网络(SAN)
SAN是一个私用的、高速网络,置于局域网络之外。SAN不影响正常的网络信道,所以非常适用于大量数据流动。但是SAN成本很高,不宜将大量的系统与存储设备相连,同时由于厂商设备标准不统一,所以管理起来非常困难。 网络附加存储(NAS)
NAS服务器直接与公司骨干网联结,安装简易,成本不高,但影响网络速度。NAS服务器运行的操作系统是专为网络文件访问优化的专用系统。虽然NAS很快为企业和互联网应用所接受,但NAS缺乏高端数据中心应用所需要的性能和服务质量保证。 云存储
云存储是在云计算(cloud computing)概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。 当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。
第二讲 多媒体计算机系统的组成 √概述
√常用的I/O设备 √输入设备 √输出设备 √通信设备 √存储设备 USB设备
数字摄像设备 USB设备 概述
USB的硬件结构 USB的软件结构 USB的数据流传输 USB的应用 USB规范和产品 概述
USB(Universal Serial Bus)即通用串行总线,是由Compaq、DEC、IBM、Intel、Microsoft、NEC和Northern Telecom等公司为简化PC与外设之间的互连而共同研究开发的一种标准化连接器,它支持各种PC与外设之间的连接,还可实现数字多媒体集成。
USB接口的主要特点是:即插即用、可热插拔并具有自动配置能力,用户只要简单地将外设连接到USB总线中,PC就能自动识别和配置USB设备,而且带宽更大,增加外设时无需在PC内添加接口卡,多个USB集线器可相互传送数据,使PC可以用全新的方式控制外设。
USB的硬件结构
USB采用四线电缆,其中两根是用来传送数据的串行通道,另两根为下游(Downstream)设备提供电源,对于高速且需要高带宽的外设,USB以全速12Mbps的传输数据;对于低速外设,USB则以1.5Mbps的传输速率来传输数据。USB总线会根据外设情况在两种传输模式中自动地动态转换。
USB系统采用级联星型拓扑,该拓扑由三个基本部分组成:主机(Host)、集线器(Hub)和功能设备。 USB的软件结构 USB总线接口 USB系统
主控制器驱动程序(HCD) USB设备类驱动程序(USBD) USB设备驱动程序
USB系统促进客户和功能间的数据传输,并作为USB设备的规范接口的一个控制点。USB系统提供缓冲区管理能力并允许数据传输同步于客户和功能的需求。 USB客户软件
USB的数据流传输
主控制器负责主机和USB设备间数据流的传输。
USB支持四种基本的数据传输模式:控制传输、等时传输、中断传输及数据块传输。 控制传输:外设与主机之间各种控制、状态、配置等信息的传输
等时传输:周期性、时延和带宽有限、数传率不变的外设与主机间的数据传输 中断传输:数据量小、无周期性、对响应时间敏感的外设与主机间的数据传输 数据块传输:数据量很大的外设与主机间的数据传输 USB的应用
让计算机支持USB – 安装USB连接卡
让Windows系统支持USB – 安装USB驱动程序 让计算机连接更多的USB设备 – 安装USB集线器 USB规范
按数据传输速度,USB可分为12MB/s和1.5MB/s两种规范。这两种规范除紧接外设和所用电缆不同外,其它均相同 。 结点个数:127 结点间距离:5米
连接器:4针(信号:2针 电源:2针)
12Mb/s的连接对象:电话机、交换机、扬声器、扫描仪、打印机等。 1.5Mb/s的连接对象:键盘、鼠标、调制解调器、操纵杆、指示笔等。 USB 2.0规范,其速度可达480Mbs,结点间距离可达近百米。 USB设备
满足USB要求的外设有调制解调器、键盘、鼠标、光驱、游戏手柄、软驱、扫描仪、音箱等。
USB产品中应用最广泛的当属U盘。U盘即USB盘的简称,是闪存的一种,因此也叫闪存盘,是移动存储设备之一。其最大的特点就是:小巧便与携带、存储容量大、价格便宜。一般的U盘容量有M、128M、256M、512M、1G、2G、4G等。 USB设备
闪存盘是一种移动存储产品,可用于存储任何格式数据文件并便于随身携带。和其他任何存储行业一样,增大存储密度、缩小体积占用、提高读写速度是闪存技术进化的指导方向,而数码行业的激烈竞争和高速更新要求闪存业进行同步的变革。 USB设备
闪存一般分为NOR型与NAND型两种,二者的区别很大。NOR型更像内存,有的地址线和数据线,所以读写速度很快,数据储存安全可靠,嵌入式系统、应用软件可以在上面直接运行,但它的存储容量相对较小,主要应用于手机、掌上电脑、无线通讯、网络通讯、数字机顶盒以及其他数字家电产品中
NAND型闪存的特点是存储容量比较大,但速度较慢、容易出错,故而难以满足装载关键软件的要求,只能用于各类数据的常规存储。数码相机、MP3播放器使用的闪存卡和作为移动存储设备的U盘所使用的便都是NAND型闪存。 USB设备
提升工艺的代价高得惊人,从0.13微米到0.11微米、到90纳米、再到60纳米,每一步工
艺转换都需要花费数十亿美元的巨额资金,即便是实力雄厚的半导体业巨头也都难以承受,制造出的高容量显存价格也是居高不下。 基于此,有公司提出了向空间扩展的三维存储技术,而新提出的三维存储芯片则是一套低成本、高收益的方案,采用这项技术,无需升级工艺就能够轻易实现超大容量,其关键就在于三维存储的多层电路机制。
第二讲 多媒体计算机系统的组成 √概述
√常用的I/O设备 √输入设备 √输出设备 √通信设备 √存储设备 √USB设备 数字摄像设备 数字摄像设备 CCD和CMOS 数字摄像头 数码相机 数字摄像机 CCD和CMOS
CCD(Charge Coupled Device,电荷耦合元件)和CMOS(Complementary Metal-Oxide Semiconductor,金属氧化物半导体元件)都基于硅产品,制造时使用的设备也非常相似,但由于工序和设计结构不同,这两种传感器在功能和性能上存在着很大的不同。 数码单反相机
数码单反相机(Digital Single Lens Reflex,DSLR),是指单镜头反光数码相机,它的感光器件是CCD或CMOS。
在单反数码相机的工作系统中,光线透过镜头到达反光镜后,反射到上面的对焦屏并结成影像,透过接目镜和五棱镜,可以在观景窗中看到外面的景物。与此相对的,一般数码相机只能通过LCD屏或者电子取景器看到所拍摄的影像。 在单反系统中,反光镜和棱镜的独到设计使得摄影者可以从取景器中直接观察到通过镜头的影像。单镜头反光照相机的构造图中可以看到,光线透过镜头到达反光镜后,折射到上面的对焦屏并结成影像,透过目镜和五棱镜,我们可以在观景窗中看到外面的景物。其工作原理如图2.7所示。 数码单反相机 思考题
1.触摸屏分为几类?简述常见的触摸屏的工作原理。 2.什么是视频捕获卡,它的主要作用是什么?
3.比较CRT显示器、液晶显示器和等离子显示器各自的特点,并根据你对显示器市场的了解,对显示器的发展趋势做一简单的分析。 4.简述USB设备的软硬件结构。
5.有上网条件的读者,请上网或通过其它途径查阅有关CPU方面的资料,写出一个有关CPU发展的综述。 多媒体计算机技术 鲁宏伟
luhw@hust.edu.cn
第三讲 数字信号处理基础 信号处理的基本术语
人类的听觉特性和视觉特性 音频信号处理基础 图像信号处理基础 数字视频处理基础 常用的信号处理算法 常用的编码算法 信号处理的基本术语
信号的数字化处理包括两个步骤,一个是信号在时间上的离散化,即采样;另一个是幅度上的离散化,即量化。数字化之后的信号,将全部变为0、1序列,这就使得信息的采集、存储、传输、复制、加工异常方便。
采样也称抽样,是信号在时间上的离散化,即按照一定时间间隔△t在模拟信号x(t)上逐点采集其瞬时值。它是通过采样脉冲和模拟信号相乘来实现的
量化是对幅值进行离散化,即将振动幅值用二进制量化电平来表示 采样的基本过程 量化的两种方式
第三讲 数字信号处理基础 √ 信号处理的基本术语 人类的听觉特性和视觉特性 音频信号处理基础 图像信号处理基础 数字视频处理基础 常用的信号处理算法 常用的编码算法
人类的听觉特性和视觉特性 人耳的听觉特性 人眼的视觉特性 人耳的听觉特性 听域
响度级(loudness level)和响度(loudness) 音调(pitch)
掩蔽效应(masking effect) 听域
听觉阈值的大小随声音频率的改变而改变,不同的人的听觉阈值也不同。大多数人的听觉系统对2~5 kHz之间的声音最敏感。一个人是否能听到声音取决于声音的频率,以及声音的幅度是否高于这种频率下的听觉阈值。显然,低于听觉阈值的信号在声音压缩时可以去掉。 正常人可听声音的频率范围为20Hz~16kHz,考虑到正常语音的频谱范围一般在20Hz~4kHz之间,语音识别系统通常采用8kHz的采样频率。 响度级和响度
为了衡量人耳辨别不同纯音的不同灵敏度,定义声音的响度级P(phon),数值上1P等于1kHz纯音的声强级。确定声音的响度级时,需将其与1kHz的纯音相比较,调节1kHz纯音的声强,使其听起来与待测音同样响。此时,1kHz纯音相对于20Pa的声压级就规定为该声音的
响度级。
当频率较高或较低时,必须有较高的响度,人耳才能感觉到。当频率超过15 000Hz时,人耳的会感觉到声音很小,很多听觉不是很好的人,根本就听不到频率20 000Hz的声音,不管响度有多大。 音调
音调是人分辨声音高低时,描述这种感受的一种特性。相对频率低的声音,听起来感觉其音调低,而频率高的声音,听起来感觉其音调高。
但是音调与声音的频率并不成正比关系,它还与声音的强度和波形有关。 掩蔽效应
心理声学模型中的另一个概念是听觉掩蔽效应,即一个强的语音信号可以掩盖一个相邻的弱信号。
当两个响度不同的声音同时作用于人耳时,响度较高的频率成分会影响人耳对响度较低的频率成分的感知,使其变得不宜觉察,这种现象被称为掩蔽效应。 人类的听觉特性和视觉特性 √人耳的听觉特性 人眼的视觉特性 人眼的视觉特性
人眼的视觉系统是世界上最好的图像处理系统,但它还远远不完美。人眼的视觉系统对图像的认知是非均匀的和非线性的,并不是对图像中的任何变化都能感知。 对比灵敏度 分辨率 马赫效应
当亮度发生跃变时,会有一种边缘增强的感觉,视觉上会感到亮侧更亮,暗侧更暗。马赫效应会导致局部阈值效应,即在边缘的亮侧,靠近边缘像素的误差感知阈值比远离边缘阈值高3~4倍,可以认为边缘掩盖了其邻近像素 第三讲 数字信号处理基础 √信号处理的基本术语
√人类的听觉特性和视觉特性 音频信号处理基础 图像信号处理基础 数字视频处理基础 常用的信号处理算法 常用的编码算法 音频信号处理基础 声音信号的特点 声音信号的分类 语音采样 预加重 加窗 短时能量 短时过零率 声音信号的特点
声音是通过空气传播的一种连续的波,如图所示。这种连续性表现在两个方面,一个是时间上的连续性,另一方面是指它在幅度上是连续的。
声音信号的特点 基频与音调 谐波与音色 幅度与音强 音宽与频带 基频与音调
频率是指信号每秒钟变化的次数。人对声音频率的感觉表现为音调的高低,在音乐中称为音高。音调正是由频率ω所决定的。音乐中音阶的划分是在频率的对数坐标(20×log)上取等分而得的: 谐波与音色
nωO称为ωO的高次谐波分量,也称为泛音。音色是由混入基音的泛音所决定的,高次谐波越丰富,音色就越有明亮感和穿透力。不同的谐波具有不同的幅值An 和相位偏移ψn ,由此产生各种音色效果。 幅度与音强
人耳对于声音细节的分辨只有在强度适中时才最灵敏。人的听觉响应与强度成对数关系。一般的人只能察觉出3分贝的音强变化,再细分则没有太多意义。
我们常用音量来描述音强,以分贝(dB=20log)为单位。在处理音频信号时,绝对强度可以放大,但其相对强度更有意义,一般用动态范围定义: 动态范围=20×log(信号的最大强度/信号的最小强度)(dB) 音宽与频带
频带宽度或称为带宽,它是描述组成复合信号的频率范围 声音信号的分类 语音采样
将话筒中传来的语音信号转换成计算机所能处理的数字信号,这个从模拟量到数字量的转变过程称为模-数转换。
根据Nyquist采样定理,如果模拟信号的频谱带宽是有限的(假设最高频率为fm),那么用等于或大于2fm的采样频率进行采样所得到的等间隔离散时间序列(采样信号)能够完全惟一地代表原模拟信号,或者说能够由采样信号恢复出原始信号。 预加重
由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,语音信号从嘴唇辐射后有6dB/Oct(倍频程)的衰减。因此,在对语音信号进行分析之前,一般要对语音信号加以提升,提升的方法有两种:其一是用模拟电路实现;其二是用数字电路实现。采用数字电路实现6dB/Oct预加重的数字滤波器的形式为:
其中, 为原始信号序列, 为预加重后的序列,为预加重系数,通常取0.9或1.0。 加窗
语音信号是一种典型的非平稳信号(即信号特征会随时间变化而变化)。但是,语音的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度来讲缓慢得多,因此语音信号常常假定为短时平稳的,即在10~20ms这样的时间段内,其频谱特性和某些物理特征参量可近似地看作是不变的。 短时能量
短时能量序列反映了语音振幅或能量随着时间缓慢变化的规律。从原始语音信号的波形图中可以看到语音信号幅度随时间有相当的变化,特别是清音段的幅度比浊音段的幅度小得多。短时能量给出了反映这些幅度变化的一个合适的描述方法。
短时平均能量可用于: 区分清音段和浊音段
对于高信噪比的语音信号,可以用来区分有无语音 短时过零率
在离散时间信号情况下,当相邻两次采样具有不同的代数符号时就称为发生了过零。过零率是指单位时间内信号由正变负或由负变正的总次数。 短时过零率是窄带信号频率量的一个简单度量 第三讲 数字信号处理基础 √信号处理的基本术语
√人类的听觉特性和视觉特性 √音频信号处理基础 图像信号处理基础 数字视频处理基础 常用的信号处理算法 常用的编码算法 图像信号处理基础 色彩的基本概念 彩色空间及其变换 RGB颜色模式 HSB颜色模式 YUV颜色模式 CMYK颜色模式
图像数据压缩的可能性 统计冗余 信息熵冗余 结构冗余 知识冗余 视觉冗余
色彩的基本概念
从人的视觉系统看,色彩可用色调、饱和度和亮度来描述。人眼看到的任一彩色光都是这三个特性的综合效果,这三个特性可以说是色彩的三要素,其中色调与光波的波长有直接关系,亮度和饱和度与光波的幅度有关。 图像深度与色彩类型 图像深度与显示深度 图像深度与色彩类型
图像深度是指位图中记录每个像素点所占的位数,它决定了彩色图像中可出现的最多颜色数,或者灰度图像中的最大灰度等级数。
每个像素点的图像深度的分配还与图像所用的色彩空间有关。以最常用的RGB色彩空间为例,图像深度与色彩的映射关系主要有真彩色、伪彩色和调配色。 真彩色
真彩色(true-color)是指图像中的每个像素值都分成R、G、B三个基色分量,每个基色分量直接决定其基色的强度,这样产生的色彩称为真彩色。
例如图像深度为24,用R:G:B=8:8:8来表示色彩,则R、G、B各占用8位来表示各自基色分量的强度,每个基色分量的强度等级为28=256种。图像可容纳224=16 M种色
彩。这样得到的色彩可以反映原图的真实色彩,故称真彩色 伪彩色
伪彩色(pseudo-color)图像的每个像素值实际上是一个索引值或代码,该代码值作为色彩查找表CLUT(Color Look-Up Table)中某一项的入口地址,根据该地址可查找出包含实际R、G、B的强度值。
用这种方式产生的色彩本身是真的,不过它不一定反映原图的色彩。在VGA显示系统中,调色板就相当于色彩查找表。从16色标准VGA调色板的定义可以看出这种伪彩色的工作方式 伪彩色
伪彩色一般用于65K色以下的显示方式中。
标准的调色板是在256K色谱中按色调均匀地选取16种或256种色彩。一般应用中,有的图像往往偏向于某一种或几种色调,此时如果采用标准调色板,则色彩失真较多。因此,同一幅图像,采用不同的调色板显示可能会出现不同的色彩效果。
16色标准VGA调色板
采用不同的调色板显示同一幅图像的效实例 调配色
调配色(direct-color)的获取是通过每个像素点的R、G、B分量分别作为单独的索引值进行变换,经相应的色彩变换表找出各自的基色强度,用变换后的R、G、B强度值产生的色彩。 调配色与伪彩色相比,相同之处是都采用查找表,不同之处是前者对R、G、B分量分别进行查找变换,后者是把整个像素当作查找的索引进行查找变换。因此,调配色的效果一般比伪彩色好。
调配色与真彩色比,相同之处是都采用R、G、B分量来决定基色强度,不同之处是前者的基色强度是由R、G、B经变换后得到的,而后者是直接用R、G、B决定。在VGA显示系统中,用调配色可以得到相当逼真的彩色图像,虽然其色彩数受调色板的而只有256色 图像深度与显示深度
显示深度表示显示缓存中记录屏幕上一个点的位数(bit),也即显示器可以显示的色彩数。因此,显示一幅图像时,屏幕上呈现的色彩效果与图像文件所提供的色彩信息有关,也即与图像深度有关;同时也与显示器当前可容纳的色彩容量有关,也即与显示深度有关。 显示深度大于图像深度 显示深度等于图像深度 显示深度小于图像深度 显示深度大于图像深度
在这种情况下屏幕上的色彩能较真实地反映图像文件的色彩效果。如当显示深度为24位,图像深度为8位时,屏幕上可以显示按该图像的调色板选取的256种颜色;图像深度为4位时可显示16色。这种情况下,显示的色彩完全取决于图像的色彩定义 显示深度等于图像深度 在这种情况下,如果用真彩色显示模式来显示真彩色图像,或者显示调色板与图像调色板一致时,屏幕上的色彩能较真实地反映图像文件的色彩效果。反之,如果显示调色板与图像调色板不一致,则显示色彩会出现失真 显示深度小于图像深度
此时显示的色彩会出现失真。例如,若显示深度为8位,需要显示一幅真彩色的图像时显然达不到应有的色彩效果。在这种情况下不同的图像软件有不同的处理方法 色调与色相
绘画中要求有固定的色彩感觉,有统一的色调,否则难以表现画面的情调和主题。
例如我们说一幅画具红色调,是指它在色彩上总体偏红。计算机在图像处理上采用数字化,可以非常精确地表现色彩的变化,色调是相对连续变化的。用一个园环来表现色谱的变化,就构成了一个色彩连续变化的色环。 色彩连续变化的色环
太阳光带中的六标准色与六个中间色,即红橙,黄橙,黄绿,蓝绿(青),蓝紫,红紫(品红),合称十二色相或色调。
把不同的色调按红橙黄绿蓝紫的顺序衔接起来,就形成了一个色调连续变化过渡的圆环,称作为色环。 亮度与明度
同一物体因受光不同会产生明度上的变化
不同颜色的光,强度相同时照射同一物体也会产生不同的亮度感觉。
明度也可以说是指各种纯正的色彩相互比较所产生的明暗差别。在纯正光谱中,黄色的明度最高,显得最亮;其次是橙、绿;再其次是红、蓝;紫色明度最低,显得最暗。 同一物体因受光不同会产生明度上的变化
照射的光越强,反射光也越强,看起来越亮。显然,如果彩色光的强度降到使人看不到了,在亮度标尺上它应与黑色对应。
同样,如果其强度变得很大,那么亮度等级应与白色对应。亮度是非彩色属性,彩色图像中的亮度对应于黑白图像中的灰度 饱和度与纯度
淡色的饱和度比浓色要低一些。
饱和度还和亮度有关,同一色调越亮或越暗越不纯。
饱和度越高,色彩越艳丽、越鲜明突出,越能发挥其色彩的固有特性。但饱和度高的色彩容易让人感到单调刺眼。饱和度低,色感比较柔和协调,可混色太杂则容易让人感觉浑浊,色调显得灰暗。 饱和度与纯度
对于同一色调的彩色光,饱和度越深,颜色越鲜明或说越纯,相反则越淡 饱和度和亮度
视觉系统对颜色的感知 视觉系统对颜色的感知
人眼对图像的亮度信息敏感、对颜色分辨率弱
由于人眼对色彩细节的分辨能力远比对亮度细节的分辨能力低,若把人眼刚能分辨的黑白相间的条纹换成不同颜色的彩色条纹,那么眼睛就不再能分辨出条纹来。
如图所示,等宽的蓝红相间的彩条,蓝绿相间的彩条和黑白相间的条纹比较。使眼睛逐渐远离屏幕,当你分辨不出彩条时,黑白条还能分辨出来 图像信号处理基础 √色彩的基本概念 彩色空间及其变换 RGB颜色模式 HSB颜色模式 YUV颜色模式 CMYK颜色模式
图像数据压缩的可能性
统计冗余 信息熵冗余 结构冗余 知识冗余 视觉冗余
RGB颜色模式
自然界中所有的颜色都可以用红、绿、蓝(RGB)这三种颜色的光(红光波长700 nm、绿光波长6.1 nm、蓝光波长435.8 nm )按不同的强度叠加而成,这就是人们常说的三基色原理。当三基色等量相加时,得到白色;等量的红绿相加而蓝为0值时得到黄色;等量的红蓝相加而绿为0时得到品红色;等量的绿蓝相加而红为0时得到青色。 彩色空间
当三基色按不同强度相叠加时,可得到任何一种颜色。任一颜色和这三种颜色之间的关系可用下面的式子来描述:
颜色=R(红色的百分比)+G(绿色的百分比)+B(蓝色的百分比)
任一颜色可以想象成RGB三维空间中的一个点,该点的坐标为(r,g,b),其中r、g、b分别为该颜色中红、绿、蓝三基色所占的百分比。自然界的所有颜色构成一个“彩色空间”。
颜色的编码 颜色的显示
电视机和计算机的监视器都是基于RGB颜色模式来创建其颜色的。它们使用的阴极射线管CRT(cathode ray tube)是一个有源物体。
CRT使用3个电子分别产生红(Red)、绿(Green)和蓝(Blue)三种波长的光,并以各种不同的相对强度综合起来产生颜色 HSB颜色模式
从心理学的角度来看,颜色有三个要素:色泽(hue)、饱和度(saturation)和亮度(brightness)。HSB颜色模式便是基于人对颜色的心里感受的—种颜色模式。
它可由底与底对接的两个圆锥体立体模型来表示。其中轴向表示亮度,自上而下由白变黑;径向表示色饱和度,自内向外逐渐变高;而圆周方向,则表示色调的变化,形成色环。 图像数据压缩基础 彩色空间及其变换 √RGB颜色模式 √ Lab颜色模式 √ HSB颜色模式 YUV颜色模式 CMYK颜色模式
图像数据压缩的可能性 统计冗余 信息熵冗余 结构冗余 知识冗余 视觉冗余 YUV颜色模式
该模式由—个亮度信号Y和两个色差信号u、V组成。它是将RGB颜色通过下述公式
转换为—个亮度信号Y和两个色度分量信号U、V。
YUV表示法的重要性是它的亮度信号(Y)和色度信号(U、V)是相互的,也就是说Y信号分量构成的黑白灰度图与用U、V信号构成的另外两幅单色图是相互的。由于Y、U、V是的,所以可以对这些单色图分别进行编码。黑白电视能接收彩色电视信号就是利用了YUV分量之间的性。 YUV颜色模式
一幅彩色图像和它对应的亮度信号(Y分量)图像
YUV表示法的另一个优点是可以利用人眼的特性来降低数字彩色图像所需要的存储容量。人眼对彩色细节的分辨能力远比对亮度细节的分辨能力低。
例如,要存储RGB 8:8:8的彩色图像,即R、G和B分量都用8位二进制数表示,图像的大小为0×480像素,那末所需要的存储容量为921600字节。如果用YUV来表示同一幅彩色图像,Y分量仍然为0×480,并且Y分量仍然用8位表示,而对每四个相邻像素(2×2)的U、V值分别用相同的一个值表示,那末存储同样的一幅图像所需的存储空间就减少到460800字节。这实际上也是图像压缩技术的一种方法。 图像数据压缩基础 彩色空间及其变换 √RGB颜色模式 √ Lab颜色模式 √ HSB颜色模式 √ YUV颜色模式 CMYK颜色模式
图像数据压缩的可能性 统计冗余 信息熵冗余 结构冗余 知识冗余 视觉冗余 CMYK颜色模式
这是彩色印刷使用的—种颜色模式。它由青(cyan)、品红(magenta)、黄(yellow)和黑(black)四种颜色组成。
这种模式的创建基础和RGB不同,它不是靠增加光线,而是靠减去光线。这是因为与监视器或者电视机不同,打印纸不能创建光源,即它不会发射光线,而只能吸收和反射光线,即它只能够吸收特定波长而反射其它波长。
通过对上述四种颜色的组合,可以产生可见光谱中的绝大部分颜色。 图像数据压缩基础 √彩色空间及其变换 √RGB颜色模式 √ HSB颜色模式 √ YUV颜色模式 √ CMYK颜色模式
图像数据压缩的可能性 统计冗余 信息熵冗余 结构冗余 知识冗余 视觉冗余 统计冗余
图像数据存在大量的统计特征的重复,这种重复包括静态单帧图像数据在空间上的冗余和音频、视频数据在时间上的冗余。
在动态图像序列中,前后两帧图像之间具有较大的相关性,表现出帧与帧之间的重复,因而存在时间冗余。 图像数据压缩基础 √彩色空间及其变换 √RGB颜色模式 √ HSB颜色模式 √ YUV颜色模式 √ CMYK颜色模式 图像数据压缩的可能性 √统计冗余 信息熵冗余 结构冗余 知识冗余 视觉冗余 信息熵冗余
信息熵定义为一组数据所表示的信息量,即
式中,E 为信息熵,N 为数据的种类(或称码元)个数,为第i个码元出现的概率。
一组数据的数据量显然等于各记录码元的二进制位数(即编码长度)与该码元出现的概率乘积之和,即
式中,D 为数据量,为第i 个码元的二进制位数。
一般取 (如ASCII编码把所有码元都编码为7比特),这样得到的D 必然大于E。这种因码元编码长度的不经济带来的冗余称为信息熵冗余或编码冗余。 图像数据压缩基础 √彩色空间及其变换 √RGB颜色模式 √ Lab颜色模式 √ HSB颜色模式 √ YUV颜色模式 √ CMYK颜色模式 图像数据压缩的可能性
√统计冗余 √信息熵冗余 结构冗余 知识冗余 视觉冗余 结构冗余
有些图像从大面积上或整体上看存在着重复出现的相同或相近的纹理结构,例如布纹图像和草席图像,被称为结构冗余。 图像数据压缩基础 √彩色空间及其变换 √RGB颜色模式 √ HSB颜色模式 √ YUV颜色模式 √ CMYK颜色模式 图像数据压缩的可能性 √统计冗余 √信息熵冗余 √结构冗余 知识冗余 视觉冗余 知识冗余
有许多图像的理解与图像所表现内容的基础知识(先验或背景知识)有相当大的相关性,从这种知识出发可以归纳出图像的某种规律性变化,这类冗余称为知识冗余。知识冗余的一个典型例子是对人像的理解,比如,鼻子上方有眼睛,鼻子又在嘴的上方等。 图像数据压缩基础 √彩色空间及其变换 √RGB颜色模式 √ HSB颜色模式 √ YUV颜色模式 √ CMYK颜色模式 图像数据压缩的可能性 √统计冗余 √信息熵冗余 √结构冗余 √知识冗余 视觉冗余 视觉冗余
人类的视觉系统实际上只在一定程度上对图像的变化产生敏感,即图像数据中存在着大量人类视觉觉察不到的细节。事实上,人类视觉系统的一般分辨力为灰度级,而一般图像量化采用的是256灰度级,这类冗余称为视觉冗余。 第三讲 数字信号处理基础 √信号处理的基本术语
√人类的听觉特性和视觉特性 √音频信号处理基础
√图像信号处理基础 数字视频处理基础 常用的信号处理算法 常用的编码算法 数字视频处理基础 数字视频概述 数字视频的特征 数字视频的描述
数字视频处理的主要研究内容 数字视频CCIR 601编码标准 高清数字电视标准
视频压缩编码的基本概念
视频信号的数字化处理对信号的损伤 数字视频概述
数字视频就是连续的数字图像序列。与传统的模拟视频相比,数字视频具有很多的优点,它提供了相当高的存储质量和交互性,具有强大的编辑能力和抑制信道噪声的能力,易于实现对视频数据的加密等等。
一段数字视频就是一个数字图像的序列,但并不等同于静态图像序列,视频中的帧彼此间不是无关的,包含了很多帧间瞬时的相关因素。
数字视频处理就是通过对视频序列各帧图像及其间的相互关系进行分析处理,得到需要的各类信息,用于实现符合要求的存储、检索等功能。 数字视频处理基础 √数字视频概述 数字视频的特征 数字视频的描述
数字视频处理的主要研究内容 数字视频CCIR 601编码标准 高清数字电视标准
视频压缩编码的基本概念
视频信号的数字化处理对信号的损伤 数字视频的特征 视频数据量大
视频数据内容的多样性
视频数据解释的多样性和模糊性 视频数据结构复杂 数字视频处理基础 √数字视频概述 √数字视频的特征 数字视频的描述
数字视频处理的主要研究内容 数字视频CCIR 601编码标准 高清数字电视标准
视频压缩编码的基本概念
视频信号的数字化处理对信号的损伤
数字视频的描述
数字视频是由多幅连续的图像序列构成的。其中X轴和Y轴表示水平及垂直方向的空间维,而t轴表示时间维。 数字视频的描述
若一幅图像沿时间轴保持一个时间段t,利用人眼的视觉暂留效应,可形成连续运动的感觉。人眼在亮度信号消失后亮度感仍可持续1/20~1/10秒的时间。如果每帧图像交替速度足够快(一般为每秒25~30帧),人眼就感觉不到图像的不连续。
帧(Frame)是一幅静态的图像,是组成视频的最小单位;镜头(Shot)是由一系列帧组成的一段视频,它描绘同一场景,表示的是一个摄像机动作、一个事件或连续的动作;场景(Scene)包含有多个镜头,针对同一批对象,但拍摄的角度不同、表达的含义不同;幕(Act)是由一系列相关的场景组成的一段视频,包含一个完整的事件或故事情节。 数字视频处理基础 √数字视频概述 √数字视频的特征 √数字视频的描述
数字视频处理的主要研究内容 数字视频CCIR 601编码标准 高清数字电视标准
视频压缩编码的基本概念
视频信号的数字化处理对信号的损伤 数字视频研究内容 视频编码压缩 镜头检测与分割 视频对象检测与分割
数字视频处理基础 √数字视频概述 √数字视频的特征 √数字视频的描述
√数字视频处理的主要研究内容 数字视频CCIR 601编码标准 高清数字电视标准
视频压缩编码的基本概念
视频信号的数字化处理对信号的损伤 数字视频CCIR 601编码标准
数字视频CCIR 601编码标准是国家无线电咨询委员会(CCIR)制定的广播级质量的数字电视编码标准,称为CCIR 601标准。
在该标准中,对采样频率、采样结构、色彩空间转换等都作了严格的规定,主要有: 采样频率 分辨率 数据量 采样频率
为了保证信号的同步,采样频率必须是电视信号行频的倍数。CCIR为NTSC、PAL和SECAM制式制定的共同的电视图像采样标准:
f s=13.5MHz
这个采样频率正好是PAL、SECAM制行频的8倍, fs=625×25×8=13.5MHz
NTSC制行频的858倍,可以保证采样时采样时钟与行同步信号同步。 fs=525×29.97×858=13.5 MHz
对于4:2:2的采样格式,亮度信号用fs频率采样,两个色差信号分别用f s/2=6.75MHz的频率采样。
不同电视制式的相关参数 电视信号的采样结构 数据量
CCIR 601规定,每个样本点都按8位数字化,也即有256个等级。但实际上亮度信号占220级,色度信号占225级,其它位作同步、编码等控制用。如果按f s 的采样率、4:2:2的格式采样,则数字视频的数据量为:
13.5(MHz)×8(bit)+2×6.75(MHz)×8(bit) = 27Mbyte / s 数字视频处理基础 √数字视频概述 √数字视频的特征 √数字视频的描述
√数字视频处理的主要研究内容 √数字视频CCIR 601编码标准 高清数字电视标准
视频压缩编码的基本概念
视频信号的数字化处理对信号的损伤 高清数字电视标准
2007年1月1日正式实施的六项数字电视接收设备—显示器标准中规定,液晶、等离子如果要称为高清电视,其清晰度指标必须达到720线,物理分辨率通常需要达到1366×768 数字电视显示屏有宽高比为16比9的高清晰度电视和宽高比为4比3的标准清晰度电视,分别简称为高清电视和标清电视 数字电视的国际标准 DTV 数字电视
HDTV 数字高清晰度电视 SDTV 数字标准清晰度电视
数字电视
DTV 数字电视:广义的数字电视是数字传输系统,是原有电视系统的数字化。凡在电视 信号的获取、处理、传输和接收过程中使用数字电视信号的,都可称为数字电视系统或数字电视设备。
数字电视(DTV)的精确定义是:将活动图像、声音和数据,通过数字技术进行压缩、编码、传输/存储,实时发送/广播,供观众接收/播放的视听系统。也就是说,这是一个从节目的采集、制作到节目传输,以及到用户终端的接收全部实现数字化的系统 数字高清晰度电视
HDTV 数字高清晰度电视:高清晰电视是一种电视业务,国际电信联盟的定义是:“高清晰度电视应是一个透明系统,一个正常视力的观众在距该系统显示屏高度的三倍距离上所看到的
图像质量,应具有观看原始景物或表演时所得到的印象。”其水平和垂直清晰度是常规电视的两倍左右,配有多路环绕立体声。 从视觉效果来看,数字 HDTV(1 000线以上)为高清晰度电视,图像质量可达到或接近35 mm宽银幕电影的水平 数字标准清晰度电视
SDTV 数字标准清晰度电视:(500~600线)即标准清晰度电视,主要是对应现有电视的分辨率量级,其图像质量为演播室水平
数字SDTV的接收主要通过在普通电视上增加机顶盒的方式来实现。 高清电视标准参数 数字视频处理基础 √数字视频概述 √数字视频的特征 √数字视频的描述
√数字视频处理的主要研究内容 √数字视频CCIR 601编码标准 √高清数字电视标准 视频压缩编码的基本概念
视频信号的数字化处理对信号的损伤 视频压缩编码的基本概念
视频压缩的目标是在尽可能保证视觉效果的前提下减少视频数据率。视频压缩比一般指压缩后的数据量与压缩前的数据量之比。 有损和无损压缩 帧内和帧间压缩 对称和不对称编码 评价压缩算法的指标
压缩比 指压缩编码后的数据量与原始数据大小的比值; 算法的复杂性和运算速度; 失真度。 压缩算法分类
根据对编码数据进行解码后与编码前的数据是否一致可以把数据编码方法分为两类: 无损编码:解码后的数据与编码前的数据完全一致,没有任何失真。 例:RLE编码 有损编码:解码后的数据与原始数据有一定程度的偏差或失真,但一般不影响听觉或视觉效果。 例:PCM编码 根据算法原理,可分为:预测编码、变换编码、信息熵编码、矢量量化编码、模型法编码、子带编码和混合编码等 根据算法原理,可分为:预测编码、变换编码、信息熵编码、矢量量化编码、模型法编码、子带编码和混合编码等
数字视频处理基础 √数字视频概述 √数字视频的特征 √数字视频的描述
√数字视频处理的主要研究内容
√数字视频CCIR 601编码标准 √高清数字电视标准
√视频压缩编码的基本概念
视频信号的数字化处理对信号的损伤 视频信号的数字化处理对信号的损伤
同声音信号一样,视频信号的数字化处理也需要三个步骤,即:取样、量化和编码。这些处理过程会不同程度地带来视频信号的损伤。 取样过程产生的信号损伤 量化误差所带来的信号损伤 压缩编码所带来的信号损伤 第三讲 数字信号处理基础 √信号处理的基本术语
√人类的听觉特性和视觉特性 √音频信号处理基础 √图像信号处理基础 √数字视频处理基础 常用的信号处理算法 常用的编码算法 常用的信号处理算法 傅里叶变换 小波变换 分形变换 人工神经网络 傅里叶变换
傅里叶分析是通过将原始信号分解成不同频率成分的正弦波,实现时域信号转变为频域信号的一种数学方法,在信号的分析和处理中有着十分重要的作用。 对数字信号,需要采用相关的离散化方法,这就是由傅里叶分析得到的离散傅里叶变换DFT,其逆变换表示为IDFT。 常用的信号处理算法 √傅里叶变换 小波变换 分形变换 人工神经网络 小波变换
小波变换的理论是近年来兴起的新的数学分支,它是继1822年法国人傅里叶提出傅里叶变换之后又一里程碑式的发展,解决了很多傅里叶变换不能解决的困难问题。 与傅里叶变换一样,小波变换的基本思想是将信号展开成一族基函数之加权和,即用一族函数来表示或逼近信号或函数。
小波变换用于图像编码的基本思想就是把图像进行多分辨率分解,分解成不同空间、不同频率的子图像,然后再对子图像进行系数编码。 小波变换
图像经过小波变换后生成的小波图像的数据总量与原图像的数据量相等,即小波变换本身并不具有压缩功能。之所以将它用于图像压缩,是因为生成的小波图像具有与原图像不同的特性,表现在图像的能量主要集中于低频部分,而水平、垂直和对角线部分的能量则较少;水
平、垂直和对角线部分表征了原图像在水平、垂直和对角线部分的边缘信息,具有明显的方向特性。低频部分可以称作亮度图像,水平、垂直和对角线部分可以称作细节图像。对所得的四个子图,根据人类的视觉生理和心理特点可分别作不同策略的量化和编码处理,以达到数据压缩的目的。 常用的信号处理算法 √傅里叶变换 √小波变换 分形变换 人工神经网络 分形变换
“分形” 一词译于英文Fractal,系分形几何的创始人曼德尔布罗特于1975年由拉丁语Frangere一词创造而成,词本身具有“破碎”、“不规则”等含义。Mandelbrot研究中最精彩的部分是1980年他发现的并以他的名字命名的集合,他发现整个宇宙以一种出人意料的方式构成自相似的结构(见右图) Newton/Nova 分形
牛顿建议用一个逼近方法求解一个方程的根。你猜测一个初始点,然后使用函数的一阶导数,用切线逐渐逼近方程的根。如方程 Z^6 + 1 = 0有六个根,用牛顿的方法“猜测”复平面上各点最后趋向方程的那一个根, 你就可以得到一个怪异的分形图形 分形变换
分形图像编码的核心是迭代函数系统。迭代函数系统其实是一组压缩仿射变换,每一个压缩仿射变换ω形如
式中:xi, yi是点Xi的坐标;a,b,c,d,e,f是变换常数;d(X,Y)表示点X与点Y间的距离;λ称为压缩因子。
常用的信号处理算法 √傅里叶变换 √小波变换 √分形变换 人工神经网络 人工神经网络
人工神经网络是对人脑或自然神经网络若干基本特性的抽象和模拟。人工神经网络以对大脑的生理研究成果为基础,其目的在于模拟大脑的某些机理与机制,实现某个方面的功能。 国际著名的神经网络研究专家,第一家神经计算机公司的创立者与领导人Hecht—Nielsen给人工神经网络下的定义就是:“人工神经网络是由人工建立的以有向图为拓扑结构的动态系统,它通过对连续或断续的输入作状态响应而进行信息处理。” 人工神经网络
人工神经网络的以下几个突出的优点使它近年来引起人们的极大关注 可以充分逼近任意复杂的非线性关系
所有定量或定性的信息都等势分布贮存于网络内的各神经元 采用并行分布处理方法,使得快速进行大量运算成为可能 可学习和自适应不知道或不确定的系统 能够同时处理定量、定性知识
第三讲 数字信号处理基础 √信号处理的基本术语
√人类的听觉特性和视觉特性 √音频信号处理基础 √图像信号处理基础 √数字视频处理基础 √常用的信号处理算法 常用的编码算法 常用的编码算法 行程长度编码 哈夫曼编码 算术编码 感知编码 基于语义编码 矢量量化编码 行程长度编码
把一系列的重复值(例如图像象素的灰度值)用一个单独的值再加上一个计数值来取代。 比如有这样一个字母序列aabbbccccccccdddddd它的行程长度编码就是2a3b8c6d。 早期的很多位图文件格式都用行程长度编码,例如TIFF,PCX 。 行程长度编码的例子
有一线状图像,其灰度随长度坐标的关系如图3.1所示。描述这个一维图像可以用顺序的七个3bit的二进制数表示:011,011,011,011,101,101,101,共21比特。
如果用行程编码方法对其编码 ,其编码就变成了100,011;011,101,共用了12比特,比前一种编码节约了9个比特。 常用的编码算法 √行程长度编码 哈夫曼编码 算术编码 感知编码 基于语义编码 矢量量化编码 哈夫曼编码
基本思路:出现频率越高的符号,对应的编码长度越短 编码步骤如下:
统计信源符号出现的概率;
将信源符号按概率递减顺序排列;
把两个最小的概率值加起来,作为一个新组合符号的概率; 重复步骤(2)、(3),直到概率和达到1为止;
在每次合并信源时,将合并的信源分别标记“1”和“0”(例如,概率小的标记为“1”,概率大的标记为“0”);
寻找从每一信源符号到概率为1的路径,记录下路径上的“1”和“0” 对每一符号写出“1”和“0”序列; 哈夫曼编码的 例子 考虑信源
进行哈夫曼编码的过程如下: 哈夫曼编码的不足
它必须精确地统计出原始文件中每个值的出现频率,如果没有这个精确统计,压缩的效果就会大打折扣,甚至根本达不到压缩的效果。因此哈夫曼编码通常要经过两遍操作,第一遍进行统计,第二遍产生编码,所以编码的过程是比较慢的。
另外由于各种长度的编码的译码过程也比较复杂,因此解压缩的过程也比较慢。 它对于位的增删比较敏感。 常用的编码算法 √行程长度编码 √哈夫曼编码 算术编码 感知编码 基于语义编码 矢量量化编码 算术编码 算术编码
算术编码需要注意的几个问题 算术编码与哈夫曼编码的比较
算术编码是一种相对比较新的编码,与哈夫曼编码相比,算术编码可以得到更好的压缩效果。 这是因为哈夫曼编码是按照整数比特逼近熵。假设某个字符的出现概率为80%,该字符事实上只需要 位编码,但哈夫曼编码一定会为其分配一位1或一位0的编码!
可以想象,整个信息的80%在压缩后都几乎相当于理想长度的3倍左右,压缩效果可想而知。 算术编码的一个重要特点就是可以按分数比特逼近信息熵,突破了哈夫曼编码中每个符号只能按整数个比特逼近信息熵的! 常用的编码算法 √行程长度编码 √哈夫曼编码 √算术编码 感知编码 基于语义编码 矢量量化编码 感知编码
感知编码将感知知识应用于编码中。感知编码充分利用了人耳的听觉阈值和掩蔽效应去除声音信号中的冗余数据,已经在声音编码中得到了应用。 感知编码的主要步骤是:首先将输入信号分解为各频谱元素,再根据某个心理听觉阈值和掩蔽门限进行量化编码,最后生成比特流。听觉阈值和掩蔽门限的计算需要对输入信号进行频域分解。
感知编码策略的基本结构框图
分析滤波部件可以进行正交滤波分解,或者再加上某种离散变换 量化和编码都有很多种实现方法,从直接计算标量量化中的比特分配到利用分解综合系统都可以实现量化编码。
这里所说的分析滤波是指先比较量化与非量化的频谱元素,找到每个频谱元素的量化噪声,最后将此噪声与听觉阈值和掩蔽门限比较。
常用的编码算法 √行程长度编码 √哈夫曼编码 √算术编码 √感知编码 基于语义编码 矢量量化编码 基于语义编码
基于语义(semantic-based)编码采用显示模型(如人物的头肩部分)去分析和合成运动图像,景物里的物体三维模型为严格已知。
瑞典Forchheimer等人于1983年提出的就是基于语义图像编码。由于物体模型的有效性,景物中的物体能够描述成语义水平。它可以有效地利用景物中已知物体的知识,实现非常高的压缩比。但它仅能够处理已知物体,并需要较复杂的图像分析与识别技术。 基于语义编码
为了实现基于语义的图像编码,需要根据景物中特定的一些物体,预先建立它们的通用三维模型,最常用的是三维线框模型。3D线框模型由顶点在三维空间运动的互连多角形复合而成,将色彩信息映射到该模型上就能实现合成。例如,人物头部三维线框模型不仅给出面部的几何形状,而且提供了面部表情的描述。
面部表情的变化(例如眨眼、张嘴)可用面部动作编码系统中的动作单元来描述 基于语义编码
以电视电话为例说明。
在开始通信时,首先把双方的基本特征(例如三维模型、脸部的表面纹理等)传输到对方,建立一个与特定人脸匹配的三维模型。
接下来,随着头部的运动和表情的变化,发送端抽取头部的运动参数和脸部的表情参数,编码后传送到对方;
接收端根据已知的三维模型和接收到的各种参数,用图像综合技术获得重建图像。 常用的编码算法 √行程长度编码 √哈夫曼编码 √算术编码 √感知编码 √基于语义编码 矢量量化编码 矢量量化编码
在传统的预测和变换编码中,首先将信号经某种映射变换变成一个数的序列,然后对其逐个进行标量量化编码。
而在矢量量化编码中,则是把输入数据几个一组地分成许多组,成组地量化编码,即将这些数看成一个k维矢量,然后以矢量为单位逐个矢量进行量化。 多媒体计算机技术 鲁宏伟
luhw@hust.edu.cn
第三讲 数字信号处理基础 信号处理的基本术语
人类的听觉特性和视觉特性
音频信号处理基础 图像信号处理基础 数字视频处理基础 常用的信号处理算法 常用的编码算法 信号处理的基本术语
信号的数字化处理包括两个步骤,一个是信号在时间上的离散化,即采样;另一个是幅度上的离散化,即量化。数字化之后的信号,将全部变为0、1序列,这就使得信息的采集、存储、传输、复制、加工异常方便。
采样也称抽样,是信号在时间上的离散化,即按照一定时间间隔△t在模拟信号x(t)上逐点采集其瞬时值。它是通过采样脉冲和模拟信号相乘来实现的
量化是对幅值进行离散化,即将振动幅值用二进制量化电平来表示 采样的基本过程 量化的两种方式
第三讲 数字信号处理基础 √ 信号处理的基本术语 人类的听觉特性和视觉特性 音频信号处理基础 图像信号处理基础 数字视频处理基础 常用的信号处理算法 常用的编码算法
人类的听觉特性和视觉特性 人耳的听觉特性 人眼的视觉特性 人耳的听觉特性 听域
响度级(loudness level)和响度(loudness) 音调(pitch)
掩蔽效应(masking effect) 听域
听觉阈值的大小随声音频率的改变而改变,不同的人的听觉阈值也不同。大多数人的听觉系统对2~5 kHz之间的声音最敏感。一个人是否能听到声音取决于声音的频率,以及声音的幅度是否高于这种频率下的听觉阈值。显然,低于听觉阈值的信号在声音压缩时可以去掉。 正常人可听声音的频率范围为20Hz~16kHz,考虑到正常语音的频谱范围一般在20Hz~4kHz之间,语音识别系统通常采用8kHz的采样频率。 响度级和响度
为了衡量人耳辨别不同纯音的不同灵敏度,定义声音的响度级P(phon),数值上1P等于1kHz纯音的声强级。确定声音的响度级时,需将其与1kHz的纯音相比较,调节1kHz纯音的声强,使其听起来与待测音同样响。此时,1kHz纯音相对于20Pa的声压级就规定为该声音的响度级。
当频率较高或较低时,必须有较高的响度,人耳才能感觉到。当频率超过15 000Hz时,人耳的会感觉到声音很小,很多听觉不是很好的人,根本就听不到频率20 000Hz的声音,不管响度有多大。
音调
音调是人分辨声音高低时,描述这种感受的一种特性。相对频率低的声音,听起来感觉其音调低,而频率高的声音,听起来感觉其音调高。
但是音调与声音的频率并不成正比关系,它还与声音的强度和波形有关。 掩蔽效应
心理声学模型中的另一个概念是听觉掩蔽效应,即一个强的语音信号可以掩盖一个相邻的弱信号。
当两个响度不同的声音同时作用于人耳时,响度较高的频率成分会影响人耳对响度较低的频率成分的感知,使其变得不宜觉察,这种现象被称为掩蔽效应。 人类的听觉特性和视觉特性 √人耳的听觉特性 人眼的视觉特性 人眼的视觉特性
人眼的视觉系统是世界上最好的图像处理系统,但它还远远不完美。人眼的视觉系统对图像的认知是非均匀的和非线性的,并不是对图像中的任何变化都能感知。 对比灵敏度 分辨率 马赫效应
当亮度发生跃变时,会有一种边缘增强的感觉,视觉上会感到亮侧更亮,暗侧更暗。马赫效应会导致局部阈值效应,即在边缘的亮侧,靠近边缘像素的误差感知阈值比远离边缘阈值高3~4倍,可以认为边缘掩盖了其邻近像素 第三讲 数字信号处理基础 √信号处理的基本术语
√人类的听觉特性和视觉特性 音频信号处理基础 图像信号处理基础 数字视频处理基础 常用的信号处理算法 常用的编码算法 音频信号处理基础 声音信号的特点 声音信号的分类 语音采样 预加重 加窗 短时能量 短时过零率 声音信号的特点
声音是通过空气传播的一种连续的波,如图所示。这种连续性表现在两个方面,一个是时间上的连续性,另一方面是指它在幅度上是连续的。 声音信号的特点 基频与音调 谐波与音色 幅度与音强
音宽与频带 基频与音调
频率是指信号每秒钟变化的次数。人对声音频率的感觉表现为音调的高低,在音乐中称为音高。音调正是由频率ω所决定的。音乐中音阶的划分是在频率的对数坐标(20×log)上取等分而得的: 谐波与音色
nωO称为ωO的高次谐波分量,也称为泛音。音色是由混入基音的泛音所决定的,高次谐波越丰富,音色就越有明亮感和穿透力。不同的谐波具有不同的幅值An 和相位偏移ψn ,由此产生各种音色效果。 幅度与音强
人耳对于声音细节的分辨只有在强度适中时才最灵敏。人的听觉响应与强度成对数关系。一般的人只能察觉出3分贝的音强变化,再细分则没有太多意义。
我们常用音量来描述音强,以分贝(dB=20log)为单位。在处理音频信号时,绝对强度可以放大,但其相对强度更有意义,一般用动态范围定义: 动态范围=20×log(信号的最大强度/信号的最小强度)(dB) 音宽与频带
频带宽度或称为带宽,它是描述组成复合信号的频率范围 声音信号的分类 语音采样
将话筒中传来的语音信号转换成计算机所能处理的数字信号,这个从模拟量到数字量的转变过程称为模-数转换。
根据Nyquist采样定理,如果模拟信号的频谱带宽是有限的(假设最高频率为fm),那么用等于或大于2fm的采样频率进行采样所得到的等间隔离散时间序列(采样信号)能够完全惟一地代表原模拟信号,或者说能够由采样信号恢复出原始信号。 预加重
由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,语音信号从嘴唇辐射后有6dB/Oct(倍频程)的衰减。因此,在对语音信号进行分析之前,一般要对语音信号加以提升,提升的方法有两种:其一是用模拟电路实现;其二是用数字电路实现。采用数字电路实现6dB/Oct预加重的数字滤波器的形式为:
其中, 为原始信号序列, 为预加重后的序列,为预加重系数,通常取0.9或1.0。 加窗
语音信号是一种典型的非平稳信号(即信号特征会随时间变化而变化)。但是,语音的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度来讲缓慢得多,因此语音信号常常假定为短时平稳的,即在10~20ms这样的时间段内,其频谱特性和某些物理特征参量可近似地看作是不变的。 短时能量
短时能量序列反映了语音振幅或能量随着时间缓慢变化的规律。从原始语音信号的波形图中可以看到语音信号幅度随时间有相当的变化,特别是清音段的幅度比浊音段的幅度小得多。短时能量给出了反映这些幅度变化的一个合适的描述方法。 短时平均能量可用于: 区分清音段和浊音段
对于高信噪比的语音信号,可以用来区分有无语音 短时过零率
在离散时间信号情况下,当相邻两次采样具有不同的代数符号时就称为发生了过零。过零率是指单位时间内信号由正变负或由负变正的总次数。 短时过零率是窄带信号频率量的一个简单度量 第三讲 数字信号处理基础 √信号处理的基本术语
√人类的听觉特性和视觉特性 √音频信号处理基础 图像信号处理基础 数字视频处理基础 常用的信号处理算法 常用的编码算法 图像信号处理基础 色彩的基本概念 彩色空间及其变换 RGB颜色模式 HSB颜色模式 YUV颜色模式 CMYK颜色模式
图像数据压缩的可能性 统计冗余 信息熵冗余 结构冗余 知识冗余 视觉冗余
色彩的基本概念
从人的视觉系统看,色彩可用色调、饱和度和亮度来描述。人眼看到的任一彩色光都是这三个特性的综合效果,这三个特性可以说是色彩的三要素,其中色调与光波的波长有直接关系,亮度和饱和度与光波的幅度有关。 图像深度与色彩类型 图像深度与显示深度 图像深度与色彩类型
图像深度是指位图中记录每个像素点所占的位数,它决定了彩色图像中可出现的最多颜色数,或者灰度图像中的最大灰度等级数。
每个像素点的图像深度的分配还与图像所用的色彩空间有关。以最常用的RGB色彩空间为例,图像深度与色彩的映射关系主要有真彩色、伪彩色和调配色。 真彩色
真彩色(true-color)是指图像中的每个像素值都分成R、G、B三个基色分量,每个基色分量直接决定其基色的强度,这样产生的色彩称为真彩色。
例如图像深度为24,用R:G:B=8:8:8来表示色彩,则R、G、B各占用8位来表示各自基色分量的强度,每个基色分量的强度等级为28=256种。图像可容纳224=16 M种色彩。这样得到的色彩可以反映原图的真实色彩,故称真彩色 伪彩色
伪彩色(pseudo-color)图像的每个像素值实际上是一个索引值或代码,该代码值作为色彩查找表CLUT(Color Look-Up Table)中某一项的入口地址,根据该地址可查找出包含实际R、
G、B的强度值。
用这种方式产生的色彩本身是真的,不过它不一定反映原图的色彩。在VGA显示系统中,调色板就相当于色彩查找表。从16色标准VGA调色板的定义可以看出这种伪彩色的工作方式 伪彩色
伪彩色一般用于65K色以下的显示方式中。
标准的调色板是在256K色谱中按色调均匀地选取16种或256种色彩。一般应用中,有的图像往往偏向于某一种或几种色调,此时如果采用标准调色板,则色彩失真较多。因此,同一幅图像,采用不同的调色板显示可能会出现不同的色彩效果。
16色标准VGA调色板
采用不同的调色板显示同一幅图像的效实例 调配色
调配色(direct-color)的获取是通过每个像素点的R、G、B分量分别作为单独的索引值进行变换,经相应的色彩变换表找出各自的基色强度,用变换后的R、G、B强度值产生的色彩。 调配色与伪彩色相比,相同之处是都采用查找表,不同之处是前者对R、G、B分量分别进行查找变换,后者是把整个像素当作查找的索引进行查找变换。因此,调配色的效果一般比伪彩色好。
调配色与真彩色比,相同之处是都采用R、G、B分量来决定基色强度,不同之处是前者的基色强度是由R、G、B经变换后得到的,而后者是直接用R、G、B决定。在VGA显示系统中,用调配色可以得到相当逼真的彩色图像,虽然其色彩数受调色板的而只有256色 图像深度与显示深度
显示深度表示显示缓存中记录屏幕上一个点的位数(bit),也即显示器可以显示的色彩数。因此,显示一幅图像时,屏幕上呈现的色彩效果与图像文件所提供的色彩信息有关,也即与图像深度有关;同时也与显示器当前可容纳的色彩容量有关,也即与显示深度有关。 显示深度大于图像深度 显示深度等于图像深度 显示深度小于图像深度 显示深度大于图像深度
在这种情况下屏幕上的色彩能较真实地反映图像文件的色彩效果。如当显示深度为24位,图像深度为8位时,屏幕上可以显示按该图像的调色板选取的256种颜色;图像深度为4位时可显示16色。这种情况下,显示的色彩完全取决于图像的色彩定义 显示深度等于图像深度 在这种情况下,如果用真彩色显示模式来显示真彩色图像,或者显示调色板与图像调色板一致时,屏幕上的色彩能较真实地反映图像文件的色彩效果。反之,如果显示调色板与图像调色板不一致,则显示色彩会出现失真 显示深度小于图像深度
此时显示的色彩会出现失真。例如,若显示深度为8位,需要显示一幅真彩色的图像时显然达不到应有的色彩效果。在这种情况下不同的图像软件有不同的处理方法 色调与色相
绘画中要求有固定的色彩感觉,有统一的色调,否则难以表现画面的情调和主题。
例如我们说一幅画具红色调,是指它在色彩上总体偏红。计算机在图像处理上采用数字化,可以非常精确地表现色彩的变化,色调是相对连续变化的。用一个园环来表现色谱的变化,就构成了一个色彩连续变化的色环。
色彩连续变化的色环
太阳光带中的六标准色与六个中间色,即红橙,黄橙,黄绿,蓝绿(青),蓝紫,红紫(品红),合称十二色相或色调。
把不同的色调按红橙黄绿蓝紫的顺序衔接起来,就形成了一个色调连续变化过渡的圆环,称作为色环。 亮度与明度
同一物体因受光不同会产生明度上的变化
不同颜色的光,强度相同时照射同一物体也会产生不同的亮度感觉。
明度也可以说是指各种纯正的色彩相互比较所产生的明暗差别。在纯正光谱中,黄色的明度最高,显得最亮;其次是橙、绿;再其次是红、蓝;紫色明度最低,显得最暗。 同一物体因受光不同会产生明度上的变化
照射的光越强,反射光也越强,看起来越亮。显然,如果彩色光的强度降到使人看不到了,在亮度标尺上它应与黑色对应。
同样,如果其强度变得很大,那么亮度等级应与白色对应。亮度是非彩色属性,彩色图像中的亮度对应于黑白图像中的灰度 饱和度与纯度
淡色的饱和度比浓色要低一些。
饱和度还和亮度有关,同一色调越亮或越暗越不纯。
饱和度越高,色彩越艳丽、越鲜明突出,越能发挥其色彩的固有特性。但饱和度高的色彩容易让人感到单调刺眼。饱和度低,色感比较柔和协调,可混色太杂则容易让人感觉浑浊,色调显得灰暗。 饱和度与纯度
对于同一色调的彩色光,饱和度越深,颜色越鲜明或说越纯,相反则越淡 饱和度和亮度
视觉系统对颜色的感知 视觉系统对颜色的感知
人眼对图像的亮度信息敏感、对颜色分辨率弱
由于人眼对色彩细节的分辨能力远比对亮度细节的分辨能力低,若把人眼刚能分辨的黑白相间的条纹换成不同颜色的彩色条纹,那么眼睛就不再能分辨出条纹来。
如图所示,等宽的蓝红相间的彩条,蓝绿相间的彩条和黑白相间的条纹比较。使眼睛逐渐远离屏幕,当你分辨不出彩条时,黑白条还能分辨出来 图像信号处理基础 √色彩的基本概念 彩色空间及其变换 RGB颜色模式 HSB颜色模式 YUV颜色模式 CMYK颜色模式
图像数据压缩的可能性 统计冗余 信息熵冗余 结构冗余 知识冗余
视觉冗余
RGB颜色模式
自然界中所有的颜色都可以用红、绿、蓝(RGB)这三种颜色的光(红光波长700 nm、绿光波长6.1 nm、蓝光波长435.8 nm )按不同的强度叠加而成,这就是人们常说的三基色原理。当三基色等量相加时,得到白色;等量的红绿相加而蓝为0值时得到黄色;等量的红蓝相加而绿为0时得到品红色;等量的绿蓝相加而红为0时得到青色。 彩色空间
当三基色按不同强度相叠加时,可得到任何一种颜色。任一颜色和这三种颜色之间的关系可用下面的式子来描述:
颜色=R(红色的百分比)+G(绿色的百分比)+B(蓝色的百分比)
任一颜色可以想象成RGB三维空间中的一个点,该点的坐标为(r,g,b),其中r、g、b分别为该颜色中红、绿、蓝三基色所占的百分比。自然界的所有颜色构成一个“彩色空间”。
颜色的编码 颜色的显示
电视机和计算机的监视器都是基于RGB颜色模式来创建其颜色的。它们使用的阴极射线管CRT(cathode ray tube)是一个有源物体。
CRT使用3个电子分别产生红(Red)、绿(Green)和蓝(Blue)三种波长的光,并以各种不同的相对强度综合起来产生颜色 HSB颜色模式
从心理学的角度来看,颜色有三个要素:色泽(hue)、饱和度(saturation)和亮度(brightness)。HSB颜色模式便是基于人对颜色的心里感受的—种颜色模式。
它可由底与底对接的两个圆锥体立体模型来表示。其中轴向表示亮度,自上而下由白变黑;径向表示色饱和度,自内向外逐渐变高;而圆周方向,则表示色调的变化,形成色环。 图像数据压缩基础 彩色空间及其变换 √RGB颜色模式 √ Lab颜色模式 √ HSB颜色模式 YUV颜色模式 CMYK颜色模式
图像数据压缩的可能性 统计冗余 信息熵冗余 结构冗余 知识冗余 视觉冗余 YUV颜色模式
该模式由—个亮度信号Y和两个色差信号u、V组成。它是将RGB颜色通过下述公式
转换为—个亮度信号Y和两个色度分量信号U、V。
YUV表示法的重要性是它的亮度信号(Y)和色度信号(U、V)是相互的,也就是说Y信号分量构成的黑白灰度图与用U、V信号构成的另外两幅单色图是相互的。由于Y、U、V是的,所以可以对这些单色图分别进行编码。黑白电视能接收彩色电视信号就是利用了YUV分量之间的性。 YUV颜色模式
一幅彩色图像和它对应的亮度信号(Y分量)图像
YUV表示法的另一个优点是可以利用人眼的特性来降低数字彩色图像所需要的存储容量。人眼对彩色细节的分辨能力远比对亮度细节的分辨能力低。
例如,要存储RGB 8:8:8的彩色图像,即R、G和B分量都用8位二进制数表示,图像的大小为0×480像素,那末所需要的存储容量为921600字节。如果用YUV来表示同一幅彩色图像,Y分量仍然为0×480,并且Y分量仍然用8位表示,而对每四个相邻像素(2×2)的U、V值分别用相同的一个值表示,那末存储同样的一幅图像所需的存储空间就减少到460800字节。这实际上也是图像压缩技术的一种方法。 图像数据压缩基础 彩色空间及其变换 √RGB颜色模式 √ Lab颜色模式 √ HSB颜色模式 √ YUV颜色模式 CMYK颜色模式
图像数据压缩的可能性 统计冗余 信息熵冗余 结构冗余 知识冗余 视觉冗余 CMYK颜色模式
这是彩色印刷使用的—种颜色模式。它由青(cyan)、品红(magenta)、黄(yellow)和黑(black)四种颜色组成。
这种模式的创建基础和RGB不同,它不是靠增加光线,而是靠减去光线。这是因为与监视器或者电视机不同,打印纸不能创建光源,即它不会发射光线,而只能吸收和反射光线,即它只能够吸收特定波长而反射其它波长。
通过对上述四种颜色的组合,可以产生可见光谱中的绝大部分颜色。 图像数据压缩基础 √彩色空间及其变换 √RGB颜色模式 √ HSB颜色模式 √ YUV颜色模式 √ CMYK颜色模式 图像数据压缩的可能性 统计冗余 信息熵冗余 结构冗余
知识冗余 视觉冗余 统计冗余
图像数据存在大量的统计特征的重复,这种重复包括静态单帧图像数据在空间上的冗余和音频、视频数据在时间上的冗余。
在动态图像序列中,前后两帧图像之间具有较大的相关性,表现出帧与帧之间的重复,因而存在时间冗余。 图像数据压缩基础 √彩色空间及其变换 √RGB颜色模式 √ HSB颜色模式 √ YUV颜色模式 √ CMYK颜色模式 图像数据压缩的可能性 √统计冗余 信息熵冗余 结构冗余 知识冗余 视觉冗余 信息熵冗余
信息熵定义为一组数据所表示的信息量,即
式中,E 为信息熵,N 为数据的种类(或称码元)个数,为第i个码元出现的概率。
一组数据的数据量显然等于各记录码元的二进制位数(即编码长度)与该码元出现的概率乘积之和,即
式中,D 为数据量,为第i 个码元的二进制位数。
一般取 (如ASCII编码把所有码元都编码为7比特),这样得到的D 必然大于E。这种因码元编码长度的不经济带来的冗余称为信息熵冗余或编码冗余。 图像数据压缩基础 √彩色空间及其变换 √RGB颜色模式 √ Lab颜色模式 √ HSB颜色模式 √ YUV颜色模式 √ CMYK颜色模式 图像数据压缩的可能性 √统计冗余 √信息熵冗余 结构冗余 知识冗余
视觉冗余 结构冗余
有些图像从大面积上或整体上看存在着重复出现的相同或相近的纹理结构,例如布纹图像和草席图像,被称为结构冗余。 图像数据压缩基础 √彩色空间及其变换 √RGB颜色模式 √ HSB颜色模式 √ YUV颜色模式 √ CMYK颜色模式 图像数据压缩的可能性 √统计冗余 √信息熵冗余 √结构冗余 知识冗余 视觉冗余 知识冗余
有许多图像的理解与图像所表现内容的基础知识(先验或背景知识)有相当大的相关性,从这种知识出发可以归纳出图像的某种规律性变化,这类冗余称为知识冗余。知识冗余的一个典型例子是对人像的理解,比如,鼻子上方有眼睛,鼻子又在嘴的上方等。 图像数据压缩基础 √彩色空间及其变换 √RGB颜色模式 √ HSB颜色模式 √ YUV颜色模式 √ CMYK颜色模式 图像数据压缩的可能性 √统计冗余 √信息熵冗余 √结构冗余 √知识冗余 视觉冗余 视觉冗余
人类的视觉系统实际上只在一定程度上对图像的变化产生敏感,即图像数据中存在着大量人类视觉觉察不到的细节。事实上,人类视觉系统的一般分辨力为灰度级,而一般图像量化采用的是256灰度级,这类冗余称为视觉冗余。 第三讲 数字信号处理基础 √信号处理的基本术语
√人类的听觉特性和视觉特性 √音频信号处理基础 √图像信号处理基础 数字视频处理基础 常用的信号处理算法 常用的编码算法
数字视频处理基础 数字视频概述 数字视频的特征 数字视频的描述
数字视频处理的主要研究内容 数字视频CCIR 601编码标准 高清数字电视标准
视频压缩编码的基本概念
视频信号的数字化处理对信号的损伤 数字视频概述
数字视频就是连续的数字图像序列。与传统的模拟视频相比,数字视频具有很多的优点,它提供了相当高的存储质量和交互性,具有强大的编辑能力和抑制信道噪声的能力,易于实现对视频数据的加密等等。
一段数字视频就是一个数字图像的序列,但并不等同于静态图像序列,视频中的帧彼此间不是无关的,包含了很多帧间瞬时的相关因素。
数字视频处理就是通过对视频序列各帧图像及其间的相互关系进行分析处理,得到需要的各类信息,用于实现符合要求的存储、检索等功能。 数字视频处理基础 √数字视频概述 数字视频的特征 数字视频的描述
数字视频处理的主要研究内容 数字视频CCIR 601编码标准 高清数字电视标准
视频压缩编码的基本概念
视频信号的数字化处理对信号的损伤 数字视频的特征 视频数据量大
视频数据内容的多样性
视频数据解释的多样性和模糊性 视频数据结构复杂 数字视频处理基础 √数字视频概述 √数字视频的特征 数字视频的描述
数字视频处理的主要研究内容 数字视频CCIR 601编码标准 高清数字电视标准
视频压缩编码的基本概念
视频信号的数字化处理对信号的损伤 数字视频的描述
数字视频是由多幅连续的图像序列构成的。其中X轴和Y轴表示水平及垂直方向的空间维,而t轴表示时间维。 数字视频的描述
若一幅图像沿时间轴保持一个时间段t,利用人眼的视觉暂留效应,可形成连续运动的感觉。人眼在亮度信号消失后亮度感仍可持续1/20~1/10秒的时间。如果每帧图像交替速度足够快(一般为每秒25~30帧),人眼就感觉不到图像的不连续。
帧(Frame)是一幅静态的图像,是组成视频的最小单位;镜头(Shot)是由一系列帧组成的一段视频,它描绘同一场景,表示的是一个摄像机动作、一个事件或连续的动作;场景(Scene)包含有多个镜头,针对同一批对象,但拍摄的角度不同、表达的含义不同;幕(Act)是由一系列相关的场景组成的一段视频,包含一个完整的事件或故事情节。 数字视频处理基础 √数字视频概述 √数字视频的特征 √数字视频的描述
数字视频处理的主要研究内容 数字视频CCIR 601编码标准 高清数字电视标准
视频压缩编码的基本概念
视频信号的数字化处理对信号的损伤 数字视频研究内容 视频编码压缩 镜头检测与分割 视频对象检测与分割
数字视频处理基础 √数字视频概述 √数字视频的特征 √数字视频的描述
√数字视频处理的主要研究内容 数字视频CCIR 601编码标准 高清数字电视标准
视频压缩编码的基本概念
视频信号的数字化处理对信号的损伤 数字视频CCIR 601编码标准
数字视频CCIR 601编码标准是国家无线电咨询委员会(CCIR)制定的广播级质量的数字电视编码标准,称为CCIR 601标准。
在该标准中,对采样频率、采样结构、色彩空间转换等都作了严格的规定,主要有: 采样频率 分辨率 数据量 采样频率
为了保证信号的同步,采样频率必须是电视信号行频的倍数。CCIR为NTSC、PAL和SECAM制式制定的共同的电视图像采样标准: f s=13.5MHz
这个采样频率正好是PAL、SECAM制行频的8倍, fs=625×25×8=13.5MHz
NTSC制行频的858倍,可以保证采样时采样时钟与行同步信号同步。
fs=525×29.97×858=13.5 MHz
对于4:2:2的采样格式,亮度信号用fs频率采样,两个色差信号分别用f s/2=6.75MHz的频率采样。
不同电视制式的相关参数 电视信号的采样结构 数据量
CCIR 601规定,每个样本点都按8位数字化,也即有256个等级。但实际上亮度信号占220级,色度信号占225级,其它位作同步、编码等控制用。如果按f s 的采样率、4:2:2的格式采样,则数字视频的数据量为:
13.5(MHz)×8(bit)+2×6.75(MHz)×8(bit) = 27Mbyte / s 数字视频处理基础 √数字视频概述 √数字视频的特征 √数字视频的描述
√数字视频处理的主要研究内容 √数字视频CCIR 601编码标准 高清数字电视标准
视频压缩编码的基本概念
视频信号的数字化处理对信号的损伤 高清数字电视标准
2007年1月1日正式实施的六项数字电视接收设备—显示器标准中规定,液晶、等离子如果要称为高清电视,其清晰度指标必须达到720线,物理分辨率通常需要达到1366×768 数字电视显示屏有宽高比为16比9的高清晰度电视和宽高比为4比3的标准清晰度电视,分别简称为高清电视和标清电视 数字电视的国际标准 DTV 数字电视
HDTV 数字高清晰度电视 SDTV 数字标准清晰度电视
数字电视
DTV 数字电视:广义的数字电视是数字传输系统,是原有电视系统的数字化。凡在电视 信号的获取、处理、传输和接收过程中使用数字电视信号的,都可称为数字电视系统或数字电视设备。
数字电视(DTV)的精确定义是:将活动图像、声音和数据,通过数字技术进行压缩、编码、传输/存储,实时发送/广播,供观众接收/播放的视听系统。也就是说,这是一个从节目的采集、制作到节目传输,以及到用户终端的接收全部实现数字化的系统 数字高清晰度电视
HDTV 数字高清晰度电视:高清晰电视是一种电视业务,国际电信联盟的定义是:“高清晰度电视应是一个透明系统,一个正常视力的观众在距该系统显示屏高度的三倍距离上所看到的图像质量,应具有观看原始景物或表演时所得到的印象。”其水平和垂直清晰度是常规电视的两倍左右,配有多路环绕立体声。 从视觉效果来看,数字 HDTV(1 000线以上)为高清晰度电视,图像质量可达到或接近35 mm宽银幕电影的水平
数字标准清晰度电视
SDTV 数字标准清晰度电视:(500~600线)即标准清晰度电视,主要是对应现有电视的分辨率量级,其图像质量为演播室水平
数字SDTV的接收主要通过在普通电视上增加机顶盒的方式来实现。 高清电视标准参数 数字视频处理基础 √数字视频概述 √数字视频的特征 √数字视频的描述
√数字视频处理的主要研究内容 √数字视频CCIR 601编码标准 √高清数字电视标准 视频压缩编码的基本概念
视频信号的数字化处理对信号的损伤 视频压缩编码的基本概念
视频压缩的目标是在尽可能保证视觉效果的前提下减少视频数据率。视频压缩比一般指压缩后的数据量与压缩前的数据量之比。 有损和无损压缩 帧内和帧间压缩 对称和不对称编码 评价压缩算法的指标
压缩比 指压缩编码后的数据量与原始数据大小的比值; 算法的复杂性和运算速度; 失真度。 压缩算法分类
根据对编码数据进行解码后与编码前的数据是否一致可以把数据编码方法分为两类: 无损编码:解码后的数据与编码前的数据完全一致,没有任何失真。 例:RLE编码 有损编码:解码后的数据与原始数据有一定程度的偏差或失真,但一般不影响听觉或视觉效果。 例:PCM编码 根据算法原理,可分为:预测编码、变换编码、信息熵编码、矢量量化编码、模型法编码、子带编码和混合编码等 根据算法原理,可分为:预测编码、变换编码、信息熵编码、矢量量化编码、模型法编码、子带编码和混合编码等
数字视频处理基础 √数字视频概述 √数字视频的特征 √数字视频的描述
√数字视频处理的主要研究内容 √数字视频CCIR 601编码标准 √高清数字电视标准
√视频压缩编码的基本概念
视频信号的数字化处理对信号的损伤
视频信号的数字化处理对信号的损伤
同声音信号一样,视频信号的数字化处理也需要三个步骤,即:取样、量化和编码。这些处理过程会不同程度地带来视频信号的损伤。 取样过程产生的信号损伤 量化误差所带来的信号损伤 压缩编码所带来的信号损伤 第三讲 数字信号处理基础 √信号处理的基本术语
√人类的听觉特性和视觉特性 √音频信号处理基础 √图像信号处理基础 √数字视频处理基础 常用的信号处理算法 常用的编码算法 常用的信号处理算法 傅里叶变换 小波变换 分形变换 人工神经网络 傅里叶变换
傅里叶分析是通过将原始信号分解成不同频率成分的正弦波,实现时域信号转变为频域信号的一种数学方法,在信号的分析和处理中有着十分重要的作用。 对数字信号,需要采用相关的离散化方法,这就是由傅里叶分析得到的离散傅里叶变换DFT,其逆变换表示为IDFT。 常用的信号处理算法 √傅里叶变换 小波变换 分形变换 人工神经网络 小波变换
小波变换的理论是近年来兴起的新的数学分支,它是继1822年法国人傅里叶提出傅里叶变换之后又一里程碑式的发展,解决了很多傅里叶变换不能解决的困难问题。 与傅里叶变换一样,小波变换的基本思想是将信号展开成一族基函数之加权和,即用一族函数来表示或逼近信号或函数。
小波变换用于图像编码的基本思想就是把图像进行多分辨率分解,分解成不同空间、不同频率的子图像,然后再对子图像进行系数编码。 小波变换
图像经过小波变换后生成的小波图像的数据总量与原图像的数据量相等,即小波变换本身并不具有压缩功能。之所以将它用于图像压缩,是因为生成的小波图像具有与原图像不同的特性,表现在图像的能量主要集中于低频部分,而水平、垂直和对角线部分的能量则较少;水平、垂直和对角线部分表征了原图像在水平、垂直和对角线部分的边缘信息,具有明显的方向特性。低频部分可以称作亮度图像,水平、垂直和对角线部分可以称作细节图像。对所得的四个子图,根据人类的视觉生理和心理特点可分别作不同策略的量化和编码处理,以达到数据压缩的目的。
常用的信号处理算法 √傅里叶变换 √小波变换 分形变换 人工神经网络 分形变换
“分形” 一词译于英文Fractal,系分形几何的创始人曼德尔布罗特于1975年由拉丁语Frangere一词创造而成,词本身具有“破碎”、“不规则”等含义。Mandelbrot研究中最精彩的部分是1980年他发现的并以他的名字命名的集合,他发现整个宇宙以一种出人意料的方式构成自相似的结构(见右图) Newton/Nova 分形
牛顿建议用一个逼近方法求解一个方程的根。你猜测一个初始点,然后使用函数的一阶导数,用切线逐渐逼近方程的根。如方程 Z^6 + 1 = 0有六个根,用牛顿的方法“猜测”复平面上各点最后趋向方程的那一个根, 你就可以得到一个怪异的分形图形 分形变换
分形图像编码的核心是迭代函数系统。迭代函数系统其实是一组压缩仿射变换,每一个压缩仿射变换ω形如
式中:xi, yi是点Xi的坐标;a,b,c,d,e,f是变换常数;d(X,Y)表示点X与点Y间的距离;λ称为压缩因子。
常用的信号处理算法 √傅里叶变换 √小波变换 √分形变换 人工神经网络 人工神经网络
人工神经网络是对人脑或自然神经网络若干基本特性的抽象和模拟。人工神经网络以对大脑的生理研究成果为基础,其目的在于模拟大脑的某些机理与机制,实现某个方面的功能。 国际著名的神经网络研究专家,第一家神经计算机公司的创立者与领导人Hecht—Nielsen给人工神经网络下的定义就是:“人工神经网络是由人工建立的以有向图为拓扑结构的动态系统,它通过对连续或断续的输入作状态响应而进行信息处理。” 人工神经网络
人工神经网络的以下几个突出的优点使它近年来引起人们的极大关注 可以充分逼近任意复杂的非线性关系
所有定量或定性的信息都等势分布贮存于网络内的各神经元 采用并行分布处理方法,使得快速进行大量运算成为可能 可学习和自适应不知道或不确定的系统 能够同时处理定量、定性知识 第三讲 数字信号处理基础 √信号处理的基本术语
√人类的听觉特性和视觉特性 √音频信号处理基础
√图像信号处理基础 √数字视频处理基础 √常用的信号处理算法 常用的编码算法 常用的编码算法 行程长度编码 哈夫曼编码 算术编码 感知编码 基于语义编码 矢量量化编码 行程长度编码
把一系列的重复值(例如图像象素的灰度值)用一个单独的值再加上一个计数值来取代。 比如有这样一个字母序列aabbbccccccccdddddd它的行程长度编码就是2a3b8c6d。 早期的很多位图文件格式都用行程长度编码,例如TIFF,PCX 。 行程长度编码的例子
有一线状图像,其灰度随长度坐标的关系如图3.1所示。描述这个一维图像可以用顺序的七个3bit的二进制数表示:011,011,011,011,101,101,101,共21比特。
如果用行程编码方法对其编码 ,其编码就变成了100,011;011,101,共用了12比特,比前一种编码节约了9个比特。 常用的编码算法 √行程长度编码 哈夫曼编码 算术编码 感知编码 基于语义编码 矢量量化编码 哈夫曼编码
基本思路:出现频率越高的符号,对应的编码长度越短 编码步骤如下:
统计信源符号出现的概率;
将信源符号按概率递减顺序排列;
把两个最小的概率值加起来,作为一个新组合符号的概率; 重复步骤(2)、(3),直到概率和达到1为止;
在每次合并信源时,将合并的信源分别标记“1”和“0”(例如,概率小的标记为“1”,概率大的标记为“0”);
寻找从每一信源符号到概率为1的路径,记录下路径上的“1”和“0” 对每一符号写出“1”和“0”序列; 哈夫曼编码的 例子 考虑信源
进行哈夫曼编码的过程如下: 哈夫曼编码的不足
它必须精确地统计出原始文件中每个值的出现频率,如果没有这个精确统计,压缩的效果就会大打折扣,甚至根本达不到压缩的效果。因此哈夫曼编码通常要经过两遍操作,第一遍进
行统计,第二遍产生编码,所以编码的过程是比较慢的。
另外由于各种长度的编码的译码过程也比较复杂,因此解压缩的过程也比较慢。 它对于位的增删比较敏感。 常用的编码算法 √行程长度编码 √哈夫曼编码 算术编码 感知编码 基于语义编码 矢量量化编码 算术编码 算术编码
算术编码需要注意的几个问题 算术编码与哈夫曼编码的比较
算术编码是一种相对比较新的编码,与哈夫曼编码相比,算术编码可以得到更好的压缩效果。 这是因为哈夫曼编码是按照整数比特逼近熵。假设某个字符的出现概率为80%,该字符事实上只需要 位编码,但哈夫曼编码一定会为其分配一位1或一位0的编码!
可以想象,整个信息的80%在压缩后都几乎相当于理想长度的3倍左右,压缩效果可想而知。 算术编码的一个重要特点就是可以按分数比特逼近信息熵,突破了哈夫曼编码中每个符号只能按整数个比特逼近信息熵的! 常用的编码算法 √行程长度编码 √哈夫曼编码 √算术编码 感知编码 基于语义编码 矢量量化编码 感知编码
感知编码将感知知识应用于编码中。感知编码充分利用了人耳的听觉阈值和掩蔽效应去除声音信号中的冗余数据,已经在声音编码中得到了应用。 感知编码的主要步骤是:首先将输入信号分解为各频谱元素,再根据某个心理听觉阈值和掩蔽门限进行量化编码,最后生成比特流。听觉阈值和掩蔽门限的计算需要对输入信号进行频域分解。
感知编码策略的基本结构框图
分析滤波部件可以进行正交滤波分解,或者再加上某种离散变换 量化和编码都有很多种实现方法,从直接计算标量量化中的比特分配到利用分解综合系统都可以实现量化编码。
这里所说的分析滤波是指先比较量化与非量化的频谱元素,找到每个频谱元素的量化噪声,最后将此噪声与听觉阈值和掩蔽门限比较。 常用的编码算法 √行程长度编码 √哈夫曼编码 √算术编码
√感知编码 基于语义编码 矢量量化编码 基于语义编码
基于语义(semantic-based)编码采用显示模型(如人物的头肩部分)去分析和合成运动图像,景物里的物体三维模型为严格已知。
瑞典Forchheimer等人于1983年提出的就是基于语义图像编码。由于物体模型的有效性,景物中的物体能够描述成语义水平。它可以有效地利用景物中已知物体的知识,实现非常高的压缩比。但它仅能够处理已知物体,并需要较复杂的图像分析与识别技术。 基于语义编码
为了实现基于语义的图像编码,需要根据景物中特定的一些物体,预先建立它们的通用三维模型,最常用的是三维线框模型。3D线框模型由顶点在三维空间运动的互连多角形复合而成,将色彩信息映射到该模型上就能实现合成。例如,人物头部三维线框模型不仅给出面部的几何形状,而且提供了面部表情的描述。
面部表情的变化(例如眨眼、张嘴)可用面部动作编码系统中的动作单元来描述 基于语义编码
以电视电话为例说明。
在开始通信时,首先把双方的基本特征(例如三维模型、脸部的表面纹理等)传输到对方,建立一个与特定人脸匹配的三维模型。
接下来,随着头部的运动和表情的变化,发送端抽取头部的运动参数和脸部的表情参数,编码后传送到对方;
接收端根据已知的三维模型和接收到的各种参数,用图像综合技术获得重建图像。 常用的编码算法 √行程长度编码 √哈夫曼编码 √算术编码 √感知编码 √基于语义编码 矢量量化编码 矢量量化编码
在传统的预测和变换编码中,首先将信号经某种映射变换变成一个数的序列,然后对其逐个进行标量量化编码。
而在矢量量化编码中,则是把输入数据几个一组地分成许多组,成组地量化编码,即将这些数看成一个k维矢量,然后以矢量为单位逐个矢量进行量化。 多媒体计算机技术 鲁宏伟
luhw@hust.edu.cn
第三讲 数字信号处理基础 信号处理的基本术语
人类的听觉特性和视觉特性 音频信号处理基础 图像信号处理基础 数字视频处理基础 常用的信号处理算法
常用的编码算法 信号处理的基本术语
信号的数字化处理包括两个步骤,一个是信号在时间上的离散化,即采样;另一个是幅度上的离散化,即量化。数字化之后的信号,将全部变为0、1序列,这就使得信息的采集、存储、传输、复制、加工异常方便。
采样也称抽样,是信号在时间上的离散化,即按照一定时间间隔△t在模拟信号x(t)上逐点采集其瞬时值。它是通过采样脉冲和模拟信号相乘来实现的
量化是对幅值进行离散化,即将振动幅值用二进制量化电平来表示 采样的基本过程 量化的两种方式
第三讲 数字信号处理基础 √ 信号处理的基本术语 人类的听觉特性和视觉特性 音频信号处理基础 图像信号处理基础 数字视频处理基础 常用的信号处理算法 常用的编码算法
人类的听觉特性和视觉特性 人耳的听觉特性 人眼的视觉特性 人耳的听觉特性 听域
响度级(loudness level)和响度(loudness) 音调(pitch)
掩蔽效应(masking effect) 听域
听觉阈值的大小随声音频率的改变而改变,不同的人的听觉阈值也不同。大多数人的听觉系统对2~5 kHz之间的声音最敏感。一个人是否能听到声音取决于声音的频率,以及声音的幅度是否高于这种频率下的听觉阈值。显然,低于听觉阈值的信号在声音压缩时可以去掉。 正常人可听声音的频率范围为20Hz~16kHz,考虑到正常语音的频谱范围一般在20Hz~4kHz之间,语音识别系统通常采用8kHz的采样频率。 响度级和响度
为了衡量人耳辨别不同纯音的不同灵敏度,定义声音的响度级P(phon),数值上1P等于1kHz纯音的声强级。确定声音的响度级时,需将其与1kHz的纯音相比较,调节1kHz纯音的声强,使其听起来与待测音同样响。此时,1kHz纯音相对于20Pa的声压级就规定为该声音的响度级。
当频率较高或较低时,必须有较高的响度,人耳才能感觉到。当频率超过15 000Hz时,人耳的会感觉到声音很小,很多听觉不是很好的人,根本就听不到频率20 000Hz的声音,不管响度有多大。 音调
音调是人分辨声音高低时,描述这种感受的一种特性。相对频率低的声音,听起来感觉其音调低,而频率高的声音,听起来感觉其音调高。
但是音调与声音的频率并不成正比关系,它还与声音的强度和波形有关。
掩蔽效应
心理声学模型中的另一个概念是听觉掩蔽效应,即一个强的语音信号可以掩盖一个相邻的弱信号。
当两个响度不同的声音同时作用于人耳时,响度较高的频率成分会影响人耳对响度较低的频率成分的感知,使其变得不宜觉察,这种现象被称为掩蔽效应。 人类的听觉特性和视觉特性 √人耳的听觉特性 人眼的视觉特性 人眼的视觉特性
人眼的视觉系统是世界上最好的图像处理系统,但它还远远不完美。人眼的视觉系统对图像的认知是非均匀的和非线性的,并不是对图像中的任何变化都能感知。 对比灵敏度 分辨率 马赫效应
当亮度发生跃变时,会有一种边缘增强的感觉,视觉上会感到亮侧更亮,暗侧更暗。马赫效应会导致局部阈值效应,即在边缘的亮侧,靠近边缘像素的误差感知阈值比远离边缘阈值高3~4倍,可以认为边缘掩盖了其邻近像素 第三讲 数字信号处理基础 √信号处理的基本术语
√人类的听觉特性和视觉特性 音频信号处理基础 图像信号处理基础 数字视频处理基础 常用的信号处理算法 常用的编码算法 音频信号处理基础 声音信号的特点 声音信号的分类 语音采样 预加重 加窗 短时能量 短时过零率 声音信号的特点
声音是通过空气传播的一种连续的波,如图所示。这种连续性表现在两个方面,一个是时间上的连续性,另一方面是指它在幅度上是连续的。 声音信号的特点 基频与音调 谐波与音色 幅度与音强 音宽与频带 基频与音调
频率是指信号每秒钟变化的次数。人对声音频率的感觉表现为音调的高低,在音乐中称为音高。音调正是由频率ω所决定的。音乐中音阶的划分是在频率的对数坐标(20×log)上取
等分而得的: 谐波与音色
nωO称为ωO的高次谐波分量,也称为泛音。音色是由混入基音的泛音所决定的,高次谐波越丰富,音色就越有明亮感和穿透力。不同的谐波具有不同的幅值An 和相位偏移ψn ,由此产生各种音色效果。 幅度与音强
人耳对于声音细节的分辨只有在强度适中时才最灵敏。人的听觉响应与强度成对数关系。一般的人只能察觉出3分贝的音强变化,再细分则没有太多意义。
我们常用音量来描述音强,以分贝(dB=20log)为单位。在处理音频信号时,绝对强度可以放大,但其相对强度更有意义,一般用动态范围定义: 动态范围=20×log(信号的最大强度/信号的最小强度)(dB) 音宽与频带
频带宽度或称为带宽,它是描述组成复合信号的频率范围 声音信号的分类 语音采样
将话筒中传来的语音信号转换成计算机所能处理的数字信号,这个从模拟量到数字量的转变过程称为模-数转换。
根据Nyquist采样定理,如果模拟信号的频谱带宽是有限的(假设最高频率为fm),那么用等于或大于2fm的采样频率进行采样所得到的等间隔离散时间序列(采样信号)能够完全惟一地代表原模拟信号,或者说能够由采样信号恢复出原始信号。 预加重
由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,语音信号从嘴唇辐射后有6dB/Oct(倍频程)的衰减。因此,在对语音信号进行分析之前,一般要对语音信号加以提升,提升的方法有两种:其一是用模拟电路实现;其二是用数字电路实现。采用数字电路实现6dB/Oct预加重的数字滤波器的形式为:
其中, 为原始信号序列, 为预加重后的序列,为预加重系数,通常取0.9或1.0。 加窗
语音信号是一种典型的非平稳信号(即信号特征会随时间变化而变化)。但是,语音的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度来讲缓慢得多,因此语音信号常常假定为短时平稳的,即在10~20ms这样的时间段内,其频谱特性和某些物理特征参量可近似地看作是不变的。 短时能量
短时能量序列反映了语音振幅或能量随着时间缓慢变化的规律。从原始语音信号的波形图中可以看到语音信号幅度随时间有相当的变化,特别是清音段的幅度比浊音段的幅度小得多。短时能量给出了反映这些幅度变化的一个合适的描述方法。 短时平均能量可用于: 区分清音段和浊音段
对于高信噪比的语音信号,可以用来区分有无语音 短时过零率
在离散时间信号情况下,当相邻两次采样具有不同的代数符号时就称为发生了过零。过零率是指单位时间内信号由正变负或由负变正的总次数。 短时过零率是窄带信号频率量的一个简单度量 第三讲 数字信号处理基础
√信号处理的基本术语
√人类的听觉特性和视觉特性 √音频信号处理基础 图像信号处理基础 数字视频处理基础 常用的信号处理算法 常用的编码算法 图像信号处理基础 色彩的基本概念 彩色空间及其变换 RGB颜色模式 HSB颜色模式 YUV颜色模式 CMYK颜色模式
图像数据压缩的可能性 统计冗余 信息熵冗余 结构冗余 知识冗余 视觉冗余
色彩的基本概念
从人的视觉系统看,色彩可用色调、饱和度和亮度来描述。人眼看到的任一彩色光都是这三个特性的综合效果,这三个特性可以说是色彩的三要素,其中色调与光波的波长有直接关系,亮度和饱和度与光波的幅度有关。 图像深度与色彩类型 图像深度与显示深度 图像深度与色彩类型
图像深度是指位图中记录每个像素点所占的位数,它决定了彩色图像中可出现的最多颜色数,或者灰度图像中的最大灰度等级数。
每个像素点的图像深度的分配还与图像所用的色彩空间有关。以最常用的RGB色彩空间为例,图像深度与色彩的映射关系主要有真彩色、伪彩色和调配色。 真彩色
真彩色(true-color)是指图像中的每个像素值都分成R、G、B三个基色分量,每个基色分量直接决定其基色的强度,这样产生的色彩称为真彩色。
例如图像深度为24,用R:G:B=8:8:8来表示色彩,则R、G、B各占用8位来表示各自基色分量的强度,每个基色分量的强度等级为28=256种。图像可容纳224=16 M种色彩。这样得到的色彩可以反映原图的真实色彩,故称真彩色 伪彩色
伪彩色(pseudo-color)图像的每个像素值实际上是一个索引值或代码,该代码值作为色彩查找表CLUT(Color Look-Up Table)中某一项的入口地址,根据该地址可查找出包含实际R、G、B的强度值。
用这种方式产生的色彩本身是真的,不过它不一定反映原图的色彩。在VGA显示系统中,调色板就相当于色彩查找表。从16色标准VGA调色板的定义可以看出这种伪彩色的工作方式
伪彩色
伪彩色一般用于65K色以下的显示方式中。
标准的调色板是在256K色谱中按色调均匀地选取16种或256种色彩。一般应用中,有的图像往往偏向于某一种或几种色调,此时如果采用标准调色板,则色彩失真较多。因此,同一幅图像,采用不同的调色板显示可能会出现不同的色彩效果。
16色标准VGA调色板
采用不同的调色板显示同一幅图像的效实例 调配色
调配色(direct-color)的获取是通过每个像素点的R、G、B分量分别作为单独的索引值进行变换,经相应的色彩变换表找出各自的基色强度,用变换后的R、G、B强度值产生的色彩。 调配色与伪彩色相比,相同之处是都采用查找表,不同之处是前者对R、G、B分量分别进行查找变换,后者是把整个像素当作查找的索引进行查找变换。因此,调配色的效果一般比伪彩色好。
调配色与真彩色比,相同之处是都采用R、G、B分量来决定基色强度,不同之处是前者的基色强度是由R、G、B经变换后得到的,而后者是直接用R、G、B决定。在VGA显示系统中,用调配色可以得到相当逼真的彩色图像,虽然其色彩数受调色板的而只有256色 图像深度与显示深度
显示深度表示显示缓存中记录屏幕上一个点的位数(bit),也即显示器可以显示的色彩数。因此,显示一幅图像时,屏幕上呈现的色彩效果与图像文件所提供的色彩信息有关,也即与图像深度有关;同时也与显示器当前可容纳的色彩容量有关,也即与显示深度有关。 显示深度大于图像深度 显示深度等于图像深度 显示深度小于图像深度 显示深度大于图像深度
在这种情况下屏幕上的色彩能较真实地反映图像文件的色彩效果。如当显示深度为24位,图像深度为8位时,屏幕上可以显示按该图像的调色板选取的256种颜色;图像深度为4位时可显示16色。这种情况下,显示的色彩完全取决于图像的色彩定义 显示深度等于图像深度 在这种情况下,如果用真彩色显示模式来显示真彩色图像,或者显示调色板与图像调色板一致时,屏幕上的色彩能较真实地反映图像文件的色彩效果。反之,如果显示调色板与图像调色板不一致,则显示色彩会出现失真 显示深度小于图像深度
此时显示的色彩会出现失真。例如,若显示深度为8位,需要显示一幅真彩色的图像时显然达不到应有的色彩效果。在这种情况下不同的图像软件有不同的处理方法 色调与色相
绘画中要求有固定的色彩感觉,有统一的色调,否则难以表现画面的情调和主题。
例如我们说一幅画具红色调,是指它在色彩上总体偏红。计算机在图像处理上采用数字化,可以非常精确地表现色彩的变化,色调是相对连续变化的。用一个园环来表现色谱的变化,就构成了一个色彩连续变化的色环。 色彩连续变化的色环
太阳光带中的六标准色与六个中间色,即红橙,黄橙,黄绿,蓝绿(青),蓝紫,红紫(品红),合称十二色相或色调。
把不同的色调按红橙黄绿蓝紫的顺序衔接起来,就形成了一个色调连续变化过渡的圆环,称
作为色环。 亮度与明度
同一物体因受光不同会产生明度上的变化
不同颜色的光,强度相同时照射同一物体也会产生不同的亮度感觉。
明度也可以说是指各种纯正的色彩相互比较所产生的明暗差别。在纯正光谱中,黄色的明度最高,显得最亮;其次是橙、绿;再其次是红、蓝;紫色明度最低,显得最暗。 同一物体因受光不同会产生明度上的变化
照射的光越强,反射光也越强,看起来越亮。显然,如果彩色光的强度降到使人看不到了,在亮度标尺上它应与黑色对应。
同样,如果其强度变得很大,那么亮度等级应与白色对应。亮度是非彩色属性,彩色图像中的亮度对应于黑白图像中的灰度 饱和度与纯度
淡色的饱和度比浓色要低一些。
饱和度还和亮度有关,同一色调越亮或越暗越不纯。
饱和度越高,色彩越艳丽、越鲜明突出,越能发挥其色彩的固有特性。但饱和度高的色彩容易让人感到单调刺眼。饱和度低,色感比较柔和协调,可混色太杂则容易让人感觉浑浊,色调显得灰暗。 饱和度与纯度
对于同一色调的彩色光,饱和度越深,颜色越鲜明或说越纯,相反则越淡 饱和度和亮度
视觉系统对颜色的感知 视觉系统对颜色的感知
人眼对图像的亮度信息敏感、对颜色分辨率弱
由于人眼对色彩细节的分辨能力远比对亮度细节的分辨能力低,若把人眼刚能分辨的黑白相间的条纹换成不同颜色的彩色条纹,那么眼睛就不再能分辨出条纹来。
如图所示,等宽的蓝红相间的彩条,蓝绿相间的彩条和黑白相间的条纹比较。使眼睛逐渐远离屏幕,当你分辨不出彩条时,黑白条还能分辨出来 图像信号处理基础 √色彩的基本概念 彩色空间及其变换 RGB颜色模式 HSB颜色模式 YUV颜色模式 CMYK颜色模式
图像数据压缩的可能性 统计冗余 信息熵冗余 结构冗余 知识冗余 视觉冗余
RGB颜色模式
自然界中所有的颜色都可以用红、绿、蓝(RGB)这三种颜色的光(红光波长700 nm、绿光波长6.1 nm、蓝光波长435.8 nm )按不同的强度叠加而成,这就是人们常说的三基色原理。
当三基色等量相加时,得到白色;等量的红绿相加而蓝为0值时得到黄色;等量的红蓝相加而绿为0时得到品红色;等量的绿蓝相加而红为0时得到青色。 彩色空间
当三基色按不同强度相叠加时,可得到任何一种颜色。任一颜色和这三种颜色之间的关系可用下面的式子来描述:
颜色=R(红色的百分比)+G(绿色的百分比)+B(蓝色的百分比)
任一颜色可以想象成RGB三维空间中的一个点,该点的坐标为(r,g,b),其中r、g、b分别为该颜色中红、绿、蓝三基色所占的百分比。自然界的所有颜色构成一个“彩色空间”。
颜色的编码 颜色的显示
电视机和计算机的监视器都是基于RGB颜色模式来创建其颜色的。它们使用的阴极射线管CRT(cathode ray tube)是一个有源物体。
CRT使用3个电子分别产生红(Red)、绿(Green)和蓝(Blue)三种波长的光,并以各种不同的相对强度综合起来产生颜色 HSB颜色模式
从心理学的角度来看,颜色有三个要素:色泽(hue)、饱和度(saturation)和亮度(brightness)。HSB颜色模式便是基于人对颜色的心里感受的—种颜色模式。
它可由底与底对接的两个圆锥体立体模型来表示。其中轴向表示亮度,自上而下由白变黑;径向表示色饱和度,自内向外逐渐变高;而圆周方向,则表示色调的变化,形成色环。 图像数据压缩基础 彩色空间及其变换 √RGB颜色模式 √ Lab颜色模式 √ HSB颜色模式 YUV颜色模式 CMYK颜色模式
图像数据压缩的可能性 统计冗余 信息熵冗余 结构冗余 知识冗余 视觉冗余 YUV颜色模式
该模式由—个亮度信号Y和两个色差信号u、V组成。它是将RGB颜色通过下述公式
转换为—个亮度信号Y和两个色度分量信号U、V。
YUV表示法的重要性是它的亮度信号(Y)和色度信号(U、V)是相互的,也就是说Y信号分量构成的黑白灰度图与用U、V信号构成的另外两幅单色图是相互的。由于Y、U、V是的,所以可以对这些单色图分别进行编码。黑白电视能接收彩色电视信号就是利用了YUV分量之间的性。
YUV颜色模式
一幅彩色图像和它对应的亮度信号(Y分量)图像
YUV表示法的另一个优点是可以利用人眼的特性来降低数字彩色图像所需要的存储容量。人眼对彩色细节的分辨能力远比对亮度细节的分辨能力低。
例如,要存储RGB 8:8:8的彩色图像,即R、G和B分量都用8位二进制数表示,图像的大小为0×480像素,那末所需要的存储容量为921600字节。如果用YUV来表示同一幅彩色图像,Y分量仍然为0×480,并且Y分量仍然用8位表示,而对每四个相邻像素(2×2)的U、V值分别用相同的一个值表示,那末存储同样的一幅图像所需的存储空间就减少到460800字节。这实际上也是图像压缩技术的一种方法。 图像数据压缩基础 彩色空间及其变换 √RGB颜色模式 √ Lab颜色模式 √ HSB颜色模式 √ YUV颜色模式 CMYK颜色模式
图像数据压缩的可能性 统计冗余 信息熵冗余 结构冗余 知识冗余 视觉冗余 CMYK颜色模式
这是彩色印刷使用的—种颜色模式。它由青(cyan)、品红(magenta)、黄(yellow)和黑(black)四种颜色组成。
这种模式的创建基础和RGB不同,它不是靠增加光线,而是靠减去光线。这是因为与监视器或者电视机不同,打印纸不能创建光源,即它不会发射光线,而只能吸收和反射光线,即它只能够吸收特定波长而反射其它波长。
通过对上述四种颜色的组合,可以产生可见光谱中的绝大部分颜色。 图像数据压缩基础 √彩色空间及其变换 √RGB颜色模式 √ HSB颜色模式 √ YUV颜色模式 √ CMYK颜色模式 图像数据压缩的可能性 统计冗余 信息熵冗余 结构冗余 知识冗余 视觉冗余 统计冗余
图像数据存在大量的统计特征的重复,这种重复包括静态单帧图像数据在空间上的冗余和音
频、视频数据在时间上的冗余。
在动态图像序列中,前后两帧图像之间具有较大的相关性,表现出帧与帧之间的重复,因而存在时间冗余。 图像数据压缩基础 √彩色空间及其变换 √RGB颜色模式 √ HSB颜色模式 √ YUV颜色模式 √ CMYK颜色模式 图像数据压缩的可能性 √统计冗余 信息熵冗余 结构冗余 知识冗余 视觉冗余 信息熵冗余
信息熵定义为一组数据所表示的信息量,即
式中,E 为信息熵,N 为数据的种类(或称码元)个数,为第i个码元出现的概率。
一组数据的数据量显然等于各记录码元的二进制位数(即编码长度)与该码元出现的概率乘积之和,即
式中,D 为数据量,为第i 个码元的二进制位数。
一般取 (如ASCII编码把所有码元都编码为7比特),这样得到的D 必然大于E。这种因码元编码长度的不经济带来的冗余称为信息熵冗余或编码冗余。 图像数据压缩基础 √彩色空间及其变换 √RGB颜色模式 √ Lab颜色模式 √ HSB颜色模式 √ YUV颜色模式 √ CMYK颜色模式 图像数据压缩的可能性 √统计冗余 √信息熵冗余 结构冗余 知识冗余 视觉冗余 结构冗余
有些图像从大面积上或整体上看存在着重复出现的相同或相近的纹理结构,例如布纹图像和草席图像,被称为结构冗余。
图像数据压缩基础 √彩色空间及其变换 √RGB颜色模式 √ HSB颜色模式 √ YUV颜色模式 √ CMYK颜色模式 图像数据压缩的可能性 √统计冗余 √信息熵冗余 √结构冗余 知识冗余 视觉冗余 知识冗余
有许多图像的理解与图像所表现内容的基础知识(先验或背景知识)有相当大的相关性,从这种知识出发可以归纳出图像的某种规律性变化,这类冗余称为知识冗余。知识冗余的一个典型例子是对人像的理解,比如,鼻子上方有眼睛,鼻子又在嘴的上方等。 图像数据压缩基础 √彩色空间及其变换 √RGB颜色模式 √ HSB颜色模式 √ YUV颜色模式 √ CMYK颜色模式 图像数据压缩的可能性 √统计冗余 √信息熵冗余 √结构冗余 √知识冗余 视觉冗余 视觉冗余
人类的视觉系统实际上只在一定程度上对图像的变化产生敏感,即图像数据中存在着大量人类视觉觉察不到的细节。事实上,人类视觉系统的一般分辨力为灰度级,而一般图像量化采用的是256灰度级,这类冗余称为视觉冗余。 第三讲 数字信号处理基础 √信号处理的基本术语
√人类的听觉特性和视觉特性 √音频信号处理基础 √图像信号处理基础 数字视频处理基础 常用的信号处理算法 常用的编码算法 数字视频处理基础 数字视频概述 数字视频的特征 数字视频的描述
数字视频处理的主要研究内容 数字视频CCIR 601编码标准 高清数字电视标准
视频压缩编码的基本概念
视频信号的数字化处理对信号的损伤 数字视频概述
数字视频就是连续的数字图像序列。与传统的模拟视频相比,数字视频具有很多的优点,它提供了相当高的存储质量和交互性,具有强大的编辑能力和抑制信道噪声的能力,易于实现对视频数据的加密等等。
一段数字视频就是一个数字图像的序列,但并不等同于静态图像序列,视频中的帧彼此间不是无关的,包含了很多帧间瞬时的相关因素。
数字视频处理就是通过对视频序列各帧图像及其间的相互关系进行分析处理,得到需要的各类信息,用于实现符合要求的存储、检索等功能。 数字视频处理基础 √数字视频概述 数字视频的特征 数字视频的描述
数字视频处理的主要研究内容 数字视频CCIR 601编码标准 高清数字电视标准
视频压缩编码的基本概念
视频信号的数字化处理对信号的损伤 数字视频的特征 视频数据量大
视频数据内容的多样性
视频数据解释的多样性和模糊性 视频数据结构复杂 数字视频处理基础 √数字视频概述 √数字视频的特征 数字视频的描述
数字视频处理的主要研究内容 数字视频CCIR 601编码标准 高清数字电视标准
视频压缩编码的基本概念
视频信号的数字化处理对信号的损伤 数字视频的描述
数字视频是由多幅连续的图像序列构成的。其中X轴和Y轴表示水平及垂直方向的空间维,而t轴表示时间维。 数字视频的描述
若一幅图像沿时间轴保持一个时间段t,利用人眼的视觉暂留效应,可形成连续运动的感觉。人眼在亮度信号消失后亮度感仍可持续1/20~1/10秒的时间。如果每帧图像交替速度足够快(一般为每秒25~30帧),人眼就感觉不到图像的不连续。
帧(Frame)是一幅静态的图像,是组成视频的最小单位;镜头(Shot)是由一系列帧组成的一段
视频,它描绘同一场景,表示的是一个摄像机动作、一个事件或连续的动作;场景(Scene)包含有多个镜头,针对同一批对象,但拍摄的角度不同、表达的含义不同;幕(Act)是由一系列相关的场景组成的一段视频,包含一个完整的事件或故事情节。 数字视频处理基础 √数字视频概述 √数字视频的特征 √数字视频的描述
数字视频处理的主要研究内容 数字视频CCIR 601编码标准 高清数字电视标准
视频压缩编码的基本概念
视频信号的数字化处理对信号的损伤 数字视频研究内容 视频编码压缩 镜头检测与分割 视频对象检测与分割
数字视频处理基础 √数字视频概述 √数字视频的特征 √数字视频的描述
√数字视频处理的主要研究内容 数字视频CCIR 601编码标准 高清数字电视标准
视频压缩编码的基本概念
视频信号的数字化处理对信号的损伤 数字视频CCIR 601编码标准
数字视频CCIR 601编码标准是国家无线电咨询委员会(CCIR)制定的广播级质量的数字电视编码标准,称为CCIR 601标准。
在该标准中,对采样频率、采样结构、色彩空间转换等都作了严格的规定,主要有: 采样频率 分辨率 数据量 采样频率
为了保证信号的同步,采样频率必须是电视信号行频的倍数。CCIR为NTSC、PAL和SECAM制式制定的共同的电视图像采样标准: f s=13.5MHz
这个采样频率正好是PAL、SECAM制行频的8倍, fs=625×25×8=13.5MHz
NTSC制行频的858倍,可以保证采样时采样时钟与行同步信号同步。 fs=525×29.97×858=13.5 MHz
对于4:2:2的采样格式,亮度信号用fs频率采样,两个色差信号分别用f s/2=6.75MHz的频率采样。
不同电视制式的相关参数
电视信号的采样结构 数据量
CCIR 601规定,每个样本点都按8位数字化,也即有256个等级。但实际上亮度信号占220级,色度信号占225级,其它位作同步、编码等控制用。如果按f s 的采样率、4:2:2的格式采样,则数字视频的数据量为:
13.5(MHz)×8(bit)+2×6.75(MHz)×8(bit) = 27Mbyte / s 数字视频处理基础 √数字视频概述 √数字视频的特征 √数字视频的描述
√数字视频处理的主要研究内容 √数字视频CCIR 601编码标准 高清数字电视标准
视频压缩编码的基本概念
视频信号的数字化处理对信号的损伤 高清数字电视标准
2007年1月1日正式实施的六项数字电视接收设备—显示器标准中规定,液晶、等离子如果要称为高清电视,其清晰度指标必须达到720线,物理分辨率通常需要达到1366×768 数字电视显示屏有宽高比为16比9的高清晰度电视和宽高比为4比3的标准清晰度电视,分别简称为高清电视和标清电视 数字电视的国际标准 DTV 数字电视
HDTV 数字高清晰度电视 SDTV 数字标准清晰度电视
数字电视
DTV 数字电视:广义的数字电视是数字传输系统,是原有电视系统的数字化。凡在电视 信号的获取、处理、传输和接收过程中使用数字电视信号的,都可称为数字电视系统或数字电视设备。
数字电视(DTV)的精确定义是:将活动图像、声音和数据,通过数字技术进行压缩、编码、传输/存储,实时发送/广播,供观众接收/播放的视听系统。也就是说,这是一个从节目的采集、制作到节目传输,以及到用户终端的接收全部实现数字化的系统 数字高清晰度电视
HDTV 数字高清晰度电视:高清晰电视是一种电视业务,国际电信联盟的定义是:“高清晰度电视应是一个透明系统,一个正常视力的观众在距该系统显示屏高度的三倍距离上所看到的图像质量,应具有观看原始景物或表演时所得到的印象。”其水平和垂直清晰度是常规电视的两倍左右,配有多路环绕立体声。 从视觉效果来看,数字 HDTV(1 000线以上)为高清晰度电视,图像质量可达到或接近35 mm宽银幕电影的水平 数字标准清晰度电视
SDTV 数字标准清晰度电视:(500~600线)即标准清晰度电视,主要是对应现有电视的分辨率量级,其图像质量为演播室水平
数字SDTV的接收主要通过在普通电视上增加机顶盒的方式来实现。
高清电视标准参数 数字视频处理基础 √数字视频概述 √数字视频的特征 √数字视频的描述
√数字视频处理的主要研究内容 √数字视频CCIR 601编码标准 √高清数字电视标准 视频压缩编码的基本概念
视频信号的数字化处理对信号的损伤 视频压缩编码的基本概念
视频压缩的目标是在尽可能保证视觉效果的前提下减少视频数据率。视频压缩比一般指压缩后的数据量与压缩前的数据量之比。 有损和无损压缩 帧内和帧间压缩 对称和不对称编码 评价压缩算法的指标
压缩比 指压缩编码后的数据量与原始数据大小的比值; 算法的复杂性和运算速度; 失真度。 压缩算法分类
根据对编码数据进行解码后与编码前的数据是否一致可以把数据编码方法分为两类: 无损编码:解码后的数据与编码前的数据完全一致,没有任何失真。 例:RLE编码 有损编码:解码后的数据与原始数据有一定程度的偏差或失真,但一般不影响听觉或视觉效果。 例:PCM编码 根据算法原理,可分为:预测编码、变换编码、信息熵编码、矢量量化编码、模型法编码、子带编码和混合编码等 根据算法原理,可分为:预测编码、变换编码、信息熵编码、矢量量化编码、模型法编码、子带编码和混合编码等
数字视频处理基础 √数字视频概述 √数字视频的特征 √数字视频的描述
√数字视频处理的主要研究内容 √数字视频CCIR 601编码标准 √高清数字电视标准
√视频压缩编码的基本概念
视频信号的数字化处理对信号的损伤 视频信号的数字化处理对信号的损伤
同声音信号一样,视频信号的数字化处理也需要三个步骤,即:取样、量化和编码。这些处理过程会不同程度地带来视频信号的损伤。 取样过程产生的信号损伤
量化误差所带来的信号损伤 压缩编码所带来的信号损伤 第三讲 数字信号处理基础 √信号处理的基本术语
√人类的听觉特性和视觉特性 √音频信号处理基础 √图像信号处理基础 √数字视频处理基础 常用的信号处理算法 常用的编码算法 常用的信号处理算法 傅里叶变换 小波变换 分形变换 人工神经网络 傅里叶变换
傅里叶分析是通过将原始信号分解成不同频率成分的正弦波,实现时域信号转变为频域信号的一种数学方法,在信号的分析和处理中有着十分重要的作用。 对数字信号,需要采用相关的离散化方法,这就是由傅里叶分析得到的离散傅里叶变换DFT,其逆变换表示为IDFT。 常用的信号处理算法 √傅里叶变换 小波变换 分形变换 人工神经网络 小波变换
小波变换的理论是近年来兴起的新的数学分支,它是继1822年法国人傅里叶提出傅里叶变换之后又一里程碑式的发展,解决了很多傅里叶变换不能解决的困难问题。 与傅里叶变换一样,小波变换的基本思想是将信号展开成一族基函数之加权和,即用一族函数来表示或逼近信号或函数。
小波变换用于图像编码的基本思想就是把图像进行多分辨率分解,分解成不同空间、不同频率的子图像,然后再对子图像进行系数编码。 小波变换
图像经过小波变换后生成的小波图像的数据总量与原图像的数据量相等,即小波变换本身并不具有压缩功能。之所以将它用于图像压缩,是因为生成的小波图像具有与原图像不同的特性,表现在图像的能量主要集中于低频部分,而水平、垂直和对角线部分的能量则较少;水平、垂直和对角线部分表征了原图像在水平、垂直和对角线部分的边缘信息,具有明显的方向特性。低频部分可以称作亮度图像,水平、垂直和对角线部分可以称作细节图像。对所得的四个子图,根据人类的视觉生理和心理特点可分别作不同策略的量化和编码处理,以达到数据压缩的目的。 常用的信号处理算法 √傅里叶变换 √小波变换 分形变换
人工神经网络 分形变换
“分形” 一词译于英文Fractal,系分形几何的创始人曼德尔布罗特于1975年由拉丁语Frangere一词创造而成,词本身具有“破碎”、“不规则”等含义。Mandelbrot研究中最精彩的部分是1980年他发现的并以他的名字命名的集合,他发现整个宇宙以一种出人意料的方式构成自相似的结构(见右图) Newton/Nova 分形
牛顿建议用一个逼近方法求解一个方程的根。你猜测一个初始点,然后使用函数的一阶导数,用切线逐渐逼近方程的根。如方程 Z^6 + 1 = 0有六个根,用牛顿的方法“猜测”复平面上各点最后趋向方程的那一个根, 你就可以得到一个怪异的分形图形 分形变换
分形图像编码的核心是迭代函数系统。迭代函数系统其实是一组压缩仿射变换,每一个压缩仿射变换ω形如
式中:xi, yi是点Xi的坐标;a,b,c,d,e,f是变换常数;d(X,Y)表示点X与点Y间的距离;λ称为压缩因子。
常用的信号处理算法 √傅里叶变换 √小波变换 √分形变换 人工神经网络 人工神经网络
人工神经网络是对人脑或自然神经网络若干基本特性的抽象和模拟。人工神经网络以对大脑的生理研究成果为基础,其目的在于模拟大脑的某些机理与机制,实现某个方面的功能。 国际著名的神经网络研究专家,第一家神经计算机公司的创立者与领导人Hecht—Nielsen给人工神经网络下的定义就是:“人工神经网络是由人工建立的以有向图为拓扑结构的动态系统,它通过对连续或断续的输入作状态响应而进行信息处理。” 人工神经网络
人工神经网络的以下几个突出的优点使它近年来引起人们的极大关注 可以充分逼近任意复杂的非线性关系
所有定量或定性的信息都等势分布贮存于网络内的各神经元 采用并行分布处理方法,使得快速进行大量运算成为可能 可学习和自适应不知道或不确定的系统 能够同时处理定量、定性知识 第三讲 数字信号处理基础 √信号处理的基本术语
√人类的听觉特性和视觉特性 √音频信号处理基础 √图像信号处理基础 √数字视频处理基础 √常用的信号处理算法 常用的编码算法
常用的编码算法 行程长度编码 哈夫曼编码 算术编码 感知编码 基于语义编码 矢量量化编码 行程长度编码
把一系列的重复值(例如图像象素的灰度值)用一个单独的值再加上一个计数值来取代。 比如有这样一个字母序列aabbbccccccccdddddd它的行程长度编码就是2a3b8c6d。 早期的很多位图文件格式都用行程长度编码,例如TIFF,PCX 。 行程长度编码的例子
有一线状图像,其灰度随长度坐标的关系如图3.1所示。描述这个一维图像可以用顺序的七个3bit的二进制数表示:011,011,011,011,101,101,101,共21比特。
如果用行程编码方法对其编码 ,其编码就变成了100,011;011,101,共用了12比特,比前一种编码节约了9个比特。 常用的编码算法 √行程长度编码 哈夫曼编码 算术编码 感知编码 基于语义编码 矢量量化编码 哈夫曼编码
基本思路:出现频率越高的符号,对应的编码长度越短 编码步骤如下:
统计信源符号出现的概率;
将信源符号按概率递减顺序排列;
把两个最小的概率值加起来,作为一个新组合符号的概率; 重复步骤(2)、(3),直到概率和达到1为止;
在每次合并信源时,将合并的信源分别标记“1”和“0”(例如,概率小的标记为“1”,概率大的标记为“0”);
寻找从每一信源符号到概率为1的路径,记录下路径上的“1”和“0” 对每一符号写出“1”和“0”序列; 哈夫曼编码的 例子 考虑信源
进行哈夫曼编码的过程如下: 哈夫曼编码的不足
它必须精确地统计出原始文件中每个值的出现频率,如果没有这个精确统计,压缩的效果就会大打折扣,甚至根本达不到压缩的效果。因此哈夫曼编码通常要经过两遍操作,第一遍进行统计,第二遍产生编码,所以编码的过程是比较慢的。
另外由于各种长度的编码的译码过程也比较复杂,因此解压缩的过程也比较慢。 它对于位的增删比较敏感。 常用的编码算法
√行程长度编码 √哈夫曼编码 算术编码 感知编码 基于语义编码 矢量量化编码 算术编码 算术编码
算术编码需要注意的几个问题 算术编码与哈夫曼编码的比较
算术编码是一种相对比较新的编码,与哈夫曼编码相比,算术编码可以得到更好的压缩效果。 这是因为哈夫曼编码是按照整数比特逼近熵。假设某个字符的出现概率为80%,该字符事实上只需要 位编码,但哈夫曼编码一定会为其分配一位1或一位0的编码!
可以想象,整个信息的80%在压缩后都几乎相当于理想长度的3倍左右,压缩效果可想而知。 算术编码的一个重要特点就是可以按分数比特逼近信息熵,突破了哈夫曼编码中每个符号只能按整数个比特逼近信息熵的! 常用的编码算法 √行程长度编码 √哈夫曼编码 √算术编码 感知编码 基于语义编码 矢量量化编码 感知编码
感知编码将感知知识应用于编码中。感知编码充分利用了人耳的听觉阈值和掩蔽效应去除声音信号中的冗余数据,已经在声音编码中得到了应用。 感知编码的主要步骤是:首先将输入信号分解为各频谱元素,再根据某个心理听觉阈值和掩蔽门限进行量化编码,最后生成比特流。听觉阈值和掩蔽门限的计算需要对输入信号进行频域分解。
感知编码策略的基本结构框图
分析滤波部件可以进行正交滤波分解,或者再加上某种离散变换 量化和编码都有很多种实现方法,从直接计算标量量化中的比特分配到利用分解综合系统都可以实现量化编码。
这里所说的分析滤波是指先比较量化与非量化的频谱元素,找到每个频谱元素的量化噪声,最后将此噪声与听觉阈值和掩蔽门限比较。 常用的编码算法 √行程长度编码 √哈夫曼编码 √算术编码 √感知编码 基于语义编码 矢量量化编码 基于语义编码
基于语义(semantic-based)编码采用显示模型(如人物的头肩部分)去分析和合成运动图像,景物里的物体三维模型为严格已知。
瑞典Forchheimer等人于1983年提出的就是基于语义图像编码。由于物体模型的有效性,景物中的物体能够描述成语义水平。它可以有效地利用景物中已知物体的知识,实现非常高的压缩比。但它仅能够处理已知物体,并需要较复杂的图像分析与识别技术。 基于语义编码
为了实现基于语义的图像编码,需要根据景物中特定的一些物体,预先建立它们的通用三维模型,最常用的是三维线框模型。3D线框模型由顶点在三维空间运动的互连多角形复合而成,将色彩信息映射到该模型上就能实现合成。例如,人物头部三维线框模型不仅给出面部的几何形状,而且提供了面部表情的描述。
面部表情的变化(例如眨眼、张嘴)可用面部动作编码系统中的动作单元来描述 基于语义编码
以电视电话为例说明。
在开始通信时,首先把双方的基本特征(例如三维模型、脸部的表面纹理等)传输到对方,建立一个与特定人脸匹配的三维模型。
接下来,随着头部的运动和表情的变化,发送端抽取头部的运动参数和脸部的表情参数,编码后传送到对方;
接收端根据已知的三维模型和接收到的各种参数,用图像综合技术获得重建图像。 常用的编码算法 √行程长度编码 √哈夫曼编码 √算术编码 √感知编码 √基于语义编码 矢量量化编码 矢量量化编码
在传统的预测和变换编码中,首先将信号经某种映射变换变成一个数的序列,然后对其逐个进行标量量化编码。
而在矢量量化编码中,则是把输入数据几个一组地分成许多组,成组地量化编码,即将这些数看成一个k维矢量,然后以矢量为单位逐个矢量进行量化。 多媒体计算机技术 鲁宏伟
luhw@hust.edu.cn
第六讲 多媒体计算机软件 多媒体软件的分类 多媒体驱动程序 多媒体操作系统 多媒体数据准备软件 多媒体创作工具 多媒体应用软件 多媒体软件的分类
多媒体软件可以分成不同的层次和类别,这种划分是在发展过程中形成的,并没有绝对的标准。通常将其划分为5类:驱动程序、支持多媒体的操作系统或操作环境、多媒体数据准备软件、多媒体编辑创作软件和多媒体应用软件。
从层次上看,多媒体软件可以分为4层,如图6.1(见书) 第六讲 多媒体计算机软件 √多媒体软件的分类 多媒体驱动程序 多媒体操作系统 多媒体数据准备软件 多媒体创作工具 多媒体应用软件 多媒体驱动程序 多媒体系统中直接和硬件打交道的软件称为设备驱动程序,它完成设备的初始化、各种设备操作以及设备的打开、关闭、基于硬件的压缩和解压缩、图像快速变换等基本硬件功能调用。这种软件一般由硬件厂商随硬件设备提供。 例: DOS
Windows 3.x Windows 9x
Windows NT/2000
第六讲 多媒体计算机软件 √多媒体软件的分类 √多媒体驱动程序 多媒体操作系统 多媒体数据准备软件 多媒体创作工具 多媒体应用软件 多媒体操作系统 多媒体操作系统在驱动软件之上,它是多媒体软件的核心,其主要任务和特征如下: 负责多媒体环境下多任务的调度
保证音频、视频同步控制以及信息处理的实时性 提供多媒体信息的各种基本操作管理 具有设备的相对性与可扩展性
例:Windows 9x、Windows NT、Windows Me 第六讲 多媒体计算机软件 √多媒体软件的分类 √多媒体驱动程序 √多媒体操作系统 多媒体数据准备软件 多媒体创作工具 多媒体应用软件 多媒体数据准备软件 多媒体数据准备软件是指用于采集多种多媒体数据的软件,如声音录制、编辑软件;图像扫描及预处理软件、全动态视频采集软件、动画生成编辑系统等。 例:Windows环境下声音和视频数据的采集(编程) 第六讲 多媒体计算机软件
√多媒体软件的分类 √多媒体驱动程序 √多媒体操作系统 √多媒体数据准备软件 多媒体创作工具 多媒体应用软件 多媒体创作工具
多媒体数据库和创作工具为多媒体应用提供资源和信息加工,如声音录制、编辑,视频采集、剪接、动画生成、网页制作等。 多媒体创作工具的分类:
媒体创作软件工具,用于建立媒体模型,产生媒体数据 多媒体节目写作工具,提供不同的编辑、写作方式
媒体播放工具:可以在电脑上播出,有的甚至能在消费类电子产品中播出 其他各类媒体处理工具 例:音频处理软件;图形、图像及动画制作与编辑软件;网上音、视频文件制作 第六讲 多媒体计算机软件 √多媒体软件的分类 √多媒体驱动程序 √多媒体操作系统 √多媒体数据准备软件 √多媒体创作工具 多媒体应用软件 多媒体应用软件
应用软件主要为用户提供在各个具体领域中的辅助功能,它也是绝大多数用户学习、使用计算机时最感兴趣的内容。
应用软件的内容很广泛,涉及到社会的许多领域,很难概括齐全,也很难确切地进行分类。常见的应用软件有如下几种: 各种信息管理软件 办公自动化系统 各种文字处理软件
各种辅助设计软件以及辅助教学软件
各种软件包,如数值计算程序库、图形软件包等 多媒体播放器
多媒体播放器是指那些能够回放不同编码格式音视频文件的软件。这类软件一般分为两类:一类是运行在个人计算机上并用来播放本地存储的音视频文件的播放器,目前,这类播放软件很多;另一类就是播放基于Web的音视频流的播放器。
能够播放基于Web的音视频流的播放器主要包括Apple公司的QuickTime、微软公司的Windows Media Player和Real Networks推出的RealPlayer。 多媒体播放器
QuickTime和Windows Media Player都是在1991年推向市场,而RealPlayer则是在1995年推出的。三种不同的软件具有一些各自不同的特点。
QuickTime软件是免费的,但其开发工具和音/视频内容是需要付费的。QuickTime支持很多的视频格式,其中包括微软早期给出的AVI格式,但不支持WMV(Windows Media Video)格式。
多媒体播放器
Windows Media Player除了支持Windows环境下的几乎所有音视频格式外,在其最新的版本里还提供了将录制的电视节目转换为便携式设备能够浏览的文件格式的能力。
RealPlayer对流媒体的支持功能上与QuickTime、Windows Media Player类似,支持几乎所有主流的音视频格式,包括WMV、AVI、MP3、MP4以及Apple公司的MOV格式 多媒体播放器
除了上述三种播放器外,Adobe公司的Flash也提供对网络视频的支持。
Flash原本是由Macromedia(该公司后来被Adobe公司收购)推出的一种网页制作软件,它不同于FrontPage和Homesite等普通的网页制作软件。
从Flash 7版本起提供了对视频播放的支持。Flash仅支持采用Flash Video格式(FLV)编码的视频格式或Shock-Wave Flash格式(SWF),但其他文件格式可以转换成FLV或SWF文件。与上述三大播放器相比,Flash格式要比其他格式的文件小得多,且能提供更快的下载速度 Microsoft DirectX
DirectX是一组低级“应用程序编程接口(API)”,可为Windows程序提供高性能的硬件加速多媒体支持,增强计算机的多媒体功能。使用DirectX可直接访问显卡与声卡,从而使程序提供逼真的三维图形和令人如醉如痴的音乐与声音效果。 DirectX包含Direct Graphics(Direct 3D+Direct Draw)、Direct Input、Direct Play、Direct Sound、Direct Show、Direct Setup等多个组件,提供了一整套的多媒体接口方案 Microsoft DirectSound简介
Microsoft DirectSound 是DirectX API的音频组件之一。它为程序和音频适配器的混音、声音播放和声音捕获功能之间提供了链接。DirectSound为多媒体软件程序提供低延迟混合、硬件加速以及直接访问声音设备等功能。 DirectSound的主要优点
即时查询硬件特性的能力,并且根据当前计算机硬件配置来决定最好的解决问题的方法 通过属性集,可以使用那些尚未由Direct Sound直接支持的硬件新特性 音频流的低延迟时间混音,保证了程序的快速响应 实现3D音效 音频捕获支持
DirectSound与其他音频组件的关系 Microsoft DirectShow
DirectShow为多媒体流的捕获与回放提供了强有力的支持。
运用DirectShow,可以很方便地从支持WDM(Win32 Driver Model)的采集卡上捕获数据,并且进行相应的后期处理乃至存储到文件中。
DirectShow支持各种音频与视频格式,包括ASF(高级流式格式)、AVI、DV(数字视频)、MPEG、MP3、WMA/WMV(Windows媒体音频/视频)和WAV格式文件。
DirectShow还具有直接支持DVD回放、视频的非线性编辑以及与数字摄像机的数据交换、硬件加速视频解码以及调谐广播模拟与数字电视信号等功能。 DirectShow系统结构图 多媒体计算机技术 鲁宏伟
luhw@hust.edu.cn
第八讲 多媒体数据库概述 多媒体数据的特点
多媒体数据库的发展现状
多媒体数据库的数据模型 多媒体数据库检索与查询 分布式多媒体数据库系统 结构化查询语言 多媒体数据挖掘 多媒体数据的特点
传统的数据处理中所处理的数据类型主要是整型、实型、布尔型和字符型,而多媒体数据处理中的数据类型除了上述常规数据类型外,还要处理图形、图像、声音、文字及动画等复杂数据类型。
多媒体数据与常规数据有许多差别,主要表现在以下几方面:数据量 、数据长度 、数据模型 、数据定义及操作 、数据的时间特性和版本概念 、数据传送 多媒体数据库应具有的功能
支持图形、图像、动画、声音、动态视频、文本等多媒体字段类型及用户定义特殊类型 支持定长数据和非定长数据的集成管理 支持复杂实体的表示和处理 支持同一实体的多种表现形式 具有良好的用户界面
支持多媒体的特殊查询及良好的处理接口 支持分布式环境 多媒体数据库的构造
通常,把能够管理数值、文字、表格、图形、图像、声音等多种媒体的数据库称为多媒体数据库(Multimedia DataBase,MDB)。 多媒体数据库应具有的功能
支持图形、图像、动画、声音、动态视频、文本等多媒体字段类型及用户自定义类型。 支持定长数据和非定长数据的集成管理。
支持复杂实体的表示和处理,要求有表示和处理实体间复杂关系(如时空关系)的能力,有保证实体完整性和一致性的机制。 支持同一实体的多种表现形式(如一段视频在播放时可改变其帧率或一幅静态图像,在显示时改变其对比度等性质而不影响库中的内容等)。 具有良好的用户界面。
支持多媒体的特殊查询及良好的处理接口。 支持分布式环境。
构造多媒体数据库的方法
一类是在关系数据库的基础上构造多媒体数据库。虽然关系数据模型抽象能力较差,不适于用来表示复杂的多媒体对象,但它比较成熟、应用广泛,对于某些应用而言,在关系数据库的基础上构造多媒体数据库还是可行的。
另一类是在面向对象数据库的基础上构造多媒体数据库。因为面向对象数据模型具有很强的抽象能力,可以很好地满足复杂的多媒体对象的各种表示需求,能够为多媒体数据库的构造提供理想的基础,因而面向对象技术在多媒体数据存储及管理中的应用也成为重要研究课题。
在关系数据库的基础上构造多媒体数据库
从20世纪80年代以来,关系数据库系统凭借其坚实的理论基础、简单的结构,具有国际标准的数据库语言、成熟的产品和广大的用户群,一直在数据库领域占统治地位。
但关系模型结构简单,是单一的二维表,数据类型和长度被在一个较小的子集中,又不
支持新的数据类型和数据结构,难以实现空间数据和时态数据,缺乏演绎和推理操作,因此表达数据特性的能力受到。
在多媒体数据库系统中使用关系模型,必须对现有的关系模型进行扩充,使它不但能支持格式化数据,也能处理非格式化数据。
在面向对象数据库的基础上构造多媒体数据库
20世纪80年代初发展起来的面向对象技术,以自然、直观、科学的思维模式去看待、描述、定义、处理现实世界,把世界看成是由对象组成的大系统,而对象包含了静态结构、动态行为和约束条件三大要素,通过引入封装、继承、对象、消息、超类、子类等概念,科学地描述各种对象及其内在的结构和联系,从而使许多复杂甚至无法解决的问题都变得相对简单。 面向对象技术的发展也推动了数据库技术的发展,二者的结合促使了面向对象数据库的诞生。
研究表明,面向对象数据库是解决多媒体数据较为科学的方法和工具,它可以方便灵活地处理图形、图像、声音、文字、动画等多媒体信息,尤其是具有层次结构的复杂对象,如GIS(地理信息系统)。 多媒体数据库检索与查询 查询方法 全文检索技术
万维网文档的全文检索技术 图像检索
基于内容的信息检索 查询方法
查询方法是数据库系统极其重要的特性之一,是鉴别一个数据库管理系统成功与否的重要依据。
多媒体数据库的三种查询方法:关键字查询、可视化查询、语义查询。 全文检索技术
所谓全文检索就是给定一个字符串或字符串的逻辑表达式,在全文数据库中进行相应的检索,查出与指定表达式相匹配的出现并将这些出现的原文件作为检索结果返回给用户。 实现快速的全文检索包括以下几个方面的技术问题: 检索的快速响应 如何建立索引库 如何压缩索引数据
提供完整、丰富的检索操作手段 超文本处理
分布式网络文档的检索处理 万维网文档的全文检索技术
对WWW网上的HTML文档涉及全文检索系统时主要考虑以下几个方面的特点: 分布性 数据量巨大 动态性
复杂的标识符处理
简单的WWW网全文检索系统的结构 (1)网页抓取
搜索引擎派出一个能够在网上发现新网页并抓文件的程序,这个程序通常称之为蜘蛛(Spider)或爬虫。
Spider是基于Web的程序,它从已知的网页出发,通过请求站点上的 HTML 文档访问某一站点,不断从一个站点移到另一个站点,自动建立索引,加入到网页数据库中,这个过程就叫爬行。
Spider 进入某个超文本时,利用HTML 语言的标记结构来搜索信息及获取指向其他超文本的URL地址,无需用户干预,实现网络上的自动爬行和搜索。Spider每遇到一个新文档,都要搜索它上面的链接。通常采取的爬行策略有两种:深度优先,即先沿一条路径采到叶节点,再从同层其他路径进行采集;广度优先,即先采集完同一层网页,再采集下一层网页。 (2)索引
Spider将抓取的页面文件分解、分析,并以巨大表格的形式存入数据库,这个过程即是索引(index)。在索引数据库中,网页文字内容,关键词出现的位置、字体、颜色、加粗、斜体等相关信息都有相应记录。
索引的方法主要分为两种:一种基于关键词的索引;另一种是基于概念的索引。第一种是大多数搜索引擎使用的方法,是从文档中提取重要的词作索引。在文档中顶部出现的词以及在整个文档中出现多次的词可以认为是比较重要的。第二种方法与前种不同之处在于试着了解语义,用一个词能代表许多意义相近的词,这样既节省了索引空间,也为检索时可返回有关主题的所有文档,甚至这些文档中的词与检索词并不精确匹配。 (3)搜索词处理
用户在搜索引擎界面输入关键词,单击“搜索”按钮后,搜索引擎程序即对搜索词进行处理,如中文特有的分词处理,去除停止词,判断是否需要启动整合搜索,判断是否有拼写错误或错别字等情况。 (4)排序
对搜索词处理后,搜索引擎程序便开始工作,从索引数据库中找出所有包含搜索词的网页,并且根据排名算法计算出哪些网页应该排在前面,然后按照一定格式返回到“搜索”页面。 排名算法决定了搜索结果中不同网站的排名,因为为了提升网站的排名,搜索引擎优化技术应运而生。 搜索引擎优化
即(Search Engine Optimization,简写为SEO),一般可简称为搜索优化。 其目的是通过了解各类搜索引擎如何抓取互联网页面、如何进行索引以及如何确定其对某一特定关键词的搜索结果排名等技术,来对网页内容进行相关的优化,使其符合用户浏览习惯,在不损害用户体验的情况下提高搜索引擎排名,从而提高网站访问量,最终提升网站的销售能力或宣传能力的技术。 基于内容的信息检索
根据媒体对象的语义和上下文联系进行检索。它有如下特点: 从媒体内容中提取信息线索。 是一种近似匹配
大型数据库的快速检索 多种检索手段
主要包括:基于内容的图像检索、基于内容的视频检索、基于内容的音频检索 图象检索 图象检索
图像检索中的关键技术 借用文本索引技术 基于内容的图像检索 相关反馈和自动标注技术
借用文本索引技术
早期的图像检索借用了文本索引技术。
文本搜索引擎是将网站、网页的内容索引为一系列关键字,当用户输入关键字后,系统可以根据数据库中的倒排文件将关键字映射为网站或网页的地址。
对于图像文件,一样可以根据其内容手工将其标注为一系列关键字,并对关键字建立索引,这样,图像检索就转化为文本检索的问题 借用文本索引技术
这种方法很不实用,一是必须由人工完整地标注所有图像,对于小图像集合也许问题不大,但随着图像数目的增加,特别是网络上的图像是无穷无尽的,这种方法显然不可行; 第二个问题在于图像所包含的信息量庞大,不同用户对于同一张图像的看法不及相同,这就导致对图像的标注没有一个统一标准,检索出的结果不能很好符合用户的需求 相关反馈和自动标注技术
相关反馈和图像的自动标注技术是重要的突破。
相关反馈是在信息检索系统中的一种指导性学习的技术,用以提高系统的检索能力。 在基于内容的图像检索中,通常检索的结果不能令人满意,这时用户可以告诉系统哪些是符合用户需求的正反馈图片,哪些是不符合检索内容的负反馈图片,系统根据用户提交的指导信息,对内部检索参数进行调整,从而优化检索结果并提供给用户新的检索结果。 相关反馈和自动标注技术
对于图像的标注问题,可以手工标定很小一部分图,利用相关反馈的方法,将用户因为反馈而标定的信息不断加入数据库,同时对这些信息进行扩展,使具有相似内容的图像因为这些图的相似性而得到标注。
试验表明,此方法使检索精度得到了很大提高 基于内容的图像检索
基于内容的图像检索(Content-Based Image Retrieval,CBIR)是一种新的检索技术,它是指除了利用传统的数据库对图像描述的文字信息进行储存管理外,还利用图像的颜色、纹理、形状等特征进行检索。
它融合了传统的模式识别技术与多媒体良好的人机交互技术,有着广泛的发展前景。 基于内容的图像检索
基于内容的检索不需要用户的参与,而利用图像自身的特征,如颜色、纹理、形状等特征来进行检索,具有较强的客观性。
通常,可以抽取图像库中所有文件的特征,用户检索的过程一般是提供一个样例图像,系统抽取该样例图像的特征,然后同数据库中所有的特征进行比较,并将与样例特征相似的图像返回给用户,这个过程称之为基于样例的图像检索。 基于内容的图像检索
当前研究图像检索的重点和难点集中在如何在抽取的底层特征和图像内容所表示的语义特征间建立很好的联系,直到今天,这仍然是基于内容图像检索的一个没有解决的问题。 也就是说,由于我们所拥有的特征并不能很好地体现图像真正的语义信息,以至于检索的结果往往不能令人满意 CBIR的检索内容
颜色:图像颜色分布、相互关系、组成等;
纹理:图像的纹理结构、方向、组成及对称关系等; 形状:图像轮廓组成、形状、大小等;
对象:图像中子对象的关系、数量、属性、旋转等。
CBIR的检索方式
选择颜色的比例、层次以及纹理图案的图样进行查询;
用工具生成表示物体和物体间空间关系的符号图像进行查询; 用画图工具生成与希望查找的图像颜色分布相似的图像进行查询;
从当前窗口所陈列的全部图像中选择接近自己意愿的图像进行查找,重复多次直至找到为止。
上述方法与字符的关键词结合进行查找。 基于内容的视频检索
视频检索的方式目前主要有两种:
基于关键帧的检索,是对代表视频镜头的关键帧进行检索。
基于运动的检索,是基于镜头和视频图像的时间特征来检索,是视频查询的进一步要求。 基于内容的音频检索
音频信息检索分为以下几方面:
基于语音技术的检索。语音检索是以语音为中心的检索,采用语音识别等处理技术。如电台节目、电话交谈、会议录音等。
音频检索。音频检索是以波形声音为对象的检索,这里的音频可以是汽车发动机声、雨声、鸟叫声,也可以是语音和音乐等,这些音频都统一用声学特征来检索。 分布式多媒体数据库系统
分布式多媒体数据库系统的特点 分布式多媒体数据库的实现途径 特点 实时性 同步特性 服务质量 体系结构
客户/服务器结构 实现途径
远程调用范型。远程调用语句经过编译器翻译成对服务器的调用码,由通信机制传送给服务器,再由服务器端将这些调用码翻译成局部的进程调用,以完成远程服务。
中间件技术。中间件(Middleware)的作用是为了屏蔽不同操作系统接口的差异及分布性,为用户提供一个统一的应用开发接口。 结构化查询语言 SQL简介
SQL的数据类型 SQL的基本语法 SQL简介
结构化查询语言SQL(Structured Query Language)是Bovce和Chamberlin于1974年提出的,并首先在IBM的关系数据库系统System R上实现,开始称为SEQUEL (Structured English Query Language),后来简称SQL。
1986年10月,美国国家标准局(ANSI)颁布了SQL语言的美国标准,这就是SQL86。SQL86主要包括四个组成部分:
模块定义语言(DDL):用于描述关系数据库表、视图的结构和授权规则; 数据操纵语言(DML):用于数据库数据的查询和更新;
模块语言(Module Language):用于说明数据库和用宿主语言编写的应用程序之间的调用界
面;
嵌入式(Embedded)语法:在宿主语言编写的应用程序中,作为SQL语句的使用规则。 SQL的数据类型
SQL中包含5种基本数据类型:字符型,文本型,数值型,逻辑型和日期型。 除了这些基本数据类型外,不同的数据库系统还定义了自己的数据类型,而且这些基本的数据类型的关键字也会有所不同。
支持多媒体数据的数据类型
目前,对于多媒体数据的管理大都采用表+实体的方法,即多媒体数据(如图像)以文件形式存放于指定的计算机目录下,在数据库表中只反映图像数据文件的存储路径。这种管理模式,给数据的维护增加了难度,同时也给数据的安全带来一定的隐患。因此,要真正做到各类数据在数据库中安全管理,了解直接将多媒体数据存储在数据库关系表中的方法是非常必要的。
在计算机中,一个二进制长对象被称为BLOB。BLOB是一个大文件,典型的BLOB是一张图片或一个声音文件,由于它们的尺寸,必须使用特殊的方式来处理(如上传、下载或者存放到一个数据库)。
支持多媒体数据存储的相关数据类型 SQL的基本语法 创建表
表是数据库的最基本元素之一,表与表之间可以相互,也可以相互关联。创建表的基本语法如下:
CREATE TABLE table_name(
column1 DATATYPE [NOT NULL] [NOT NULL PRIMARY KEY], column2 DATATYPE [NOT NULL],
创建索引
索引用于对数据库的查询。一般数据库建有多种索引方案,每种方案都精于某一特定的查询类。索引可以加速对数据库的查询过程。创建索引的基本语法如下: CREATE INDEX index_name ON table_name (column_name) 执行查询
查询是使用最多的SQL命令。
查询数据库需要凭借结构、索引和字段类型等因素。大多数数据库含有一个优化器(optimizer),把用户的查询语句转换成可选的形式,以提高查询效率。其基本语法如下: SELECT fieldlist FROM table WHERE selectcriteria GROUP BY groupfieldlist HAVING groupcriteria
修改表中数据
在使用数据库过程中,往往要修改其表中的数据,如往表中添加新数据、删除表中原有数据,或对表中原有数据进行更改。它们的基本语法如下。 数据添加:
INSERT [into] table_name [(column(s))] VALUES (expression(s)) 数据删除:
DELETE from table_name where search_condition 数据更改:
UPDATE table_name set column1=expression1, column2=expression2,„
WHERE search_condition
多媒体数据挖掘
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 从商业角度讲,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。 本质上讲,数据挖掘其实是一类深层次的数据分析方法。其主要任务是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。 Web挖掘
Web挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域,是一项综合技术。
Web挖掘的目的是通过对Web内容的分析,获取竞争对手和客户信息、发现用户访问模式等。
从建立电子商务网站的角度看,网站的内容和层次、用词、标题、奖励方案、服务等任何一个地方都有可能成为吸引客户的因素,而如何通过对在线交易生成的记录文件和登记表中的数据进行分析和挖掘,充分了解客户的喜好、购买模式,设计出满足于不同客户群体需要的个性化网站,对于吸引客户,增加网站的竞争力是非常必要的。 多媒体数据挖掘
多媒体数据挖掘相对于传统的数据挖掘至少有两个需要解决的问题。 首先,多媒体数据为非结构化、异构数据。要在这些非结构化的数据上进行挖掘以获取知识,必须将这些非结构化数据转化为结构数据,在此基础上通过特征提取,用特征向量作为元数据建立元数据库。 其次,多媒体数据的特征向量通常是数十维甚至数百维,如何对高维矢量进行数据挖掘是要考虑的一个重要问题。
多媒体计算机技术 鲁宏伟
luhw@hust.edu.cn
第九讲 多媒体计算机网络 计算机网络概述
三大定律及互联网的特性 网络接入技术
分布式多媒体计算机系统 P2P网络
无线多媒体传感器网络 物联网 流媒体技术 计算机网络概述
多媒体计算机通信网络与人的交互界面主要是文字、图像、图形、声音等人性化信息,它主要体现了我们人类自然信息器官对多媒体信息的自然需求。 多媒体计算机通信网络除了通过人性化多媒体信息与人交互外,还可以通过各种属性信息直接与外界交互。
如何把文字、图形、图像、话音及各种属性信息转换为计算机通信网络能够进行处理、存储和传输的数字编码信息以及进行反变换,多媒体网络技术中的一个重要问题。 第九讲 多媒体计算机网络 计算机网络概述
三大定律及互联网的特性 网络接入技术
分布式多媒体计算机系统 P2P网络
无线多媒体传感器网络 物联网 流媒体技术 三大定律 摩尔定律 吉尔德定律 麦特卡尔夫定律
第九讲 多媒体计算机网络 计算机网络概述
三大定律及互联网的特性 网络接入技术
分布式多媒体计算机系统 P2P网络
无线多媒体传感器网络 物联网 流媒体技术 网络接入技术
非对称数字用户线路 电缆调制解调器 电力线接入方案 GPRS与WAP CDMA
第三代移动通信 蓝牙技术
IEEE802.11协议与WiFi WiMax
非对称数字用户线路
DSL(数字用户线,Digital Subscriber Line)是以铜质电话线为传输介质的传输技术组合,它包括HDSL、SDSL、VDSL、ADSL和RADSL等,一般称之为xDSL。它们主要的区别体现在信号传输速度和距离的不同以及上行速率和下行速率对称性的不同两个方面。其中ADSL(非对
称数字用户环路)是最具前景及竞争力的一种,预测它将在未来十几年甚至几十年内占主导地位。 ADSL
电话铜线理论上可以有2M的带宽,ADSL利用了26KHZ以后的高频段能够提供比较高的速度。
ADSL在调制方式上采用离散多音复用技术(DMT),在DMT技术中,一对铜线上0~4Khz用来传输电话音频,用26Khz~1.1Mhz频段传数据,并把它以4Khz的宽度划分为25个上行子通道和249个下行子通道,输入的数据经过TCM编码及QAM调制后,送往子信道,所以理论上上行速率可达1.5Mbps, 下行速率可达14.9Mbps
考虑到干扰等情况,实际上传输速率一般为上行0Kbps,下行8Mbps. Cable Modem电缆调制解调器
电缆调制解调器又名线缆调制解调器,英文名称Cable Modem,它是近几年随着网络应用的扩大而发展起来的,主要用于有线电视网进行数据传输。
是通过有线电视CATV的某个传输频带进行调制解调的。Cable Modem属于共享介质系统,其它空闲频段仍然可用于有线电视信号的传输。
Cable Modem彻底解决了由于声音图像的传输而引起的阻塞,其速率已达10Mbps以上,下行速率更高。 电力线接入方案
电力线接入是把户外通信设备插入到变压器用户侧的输出电力线上,该通信设备可以通过光纤与主干网相连,向用户提供数据、语音和多媒体等业务。
在通信设备内部,高频网络信号与50/60Hz低频电信号一起,耦合到用户端电力线上,由此可把通信网、电力输送网和用户驻地网连接起来。 GPRS与WAP
GPRS(General Packet Radio Service)是一种用于GSM的标准化分组交换数据业务,它使移动通信与数据通信相结合,将基于Internet 协议的业务引入移动通信市场,使得互联网手机成为可能。
利用TCP/IP和X.25等接口,GPRS将支持从低速短消息到高速企业局域网通信的广泛应用。 GPRS可提供高达115kbps的传输速率(最高为171.2kbps)。这意味着通过便携式电脑, GPRS用户能以与ISDN用户一样快的速度上网浏览。 GPRS与WAP
1999年7月1日,爱立信、摩托罗拉、诺基亚、AT&T、西门子、英国电信、法国电信、贝尔大西洋、贝尔南方等电信巨头聚集在美国的旧金山,一同发布了一项新技术。这是一项能使手机、呼机和其它无线设备显示因特网的内容,这项技术被称作无线应用协议,也就是WAP(Wireless Application Protocol)。
WAP是由WAP编程模型、XML标准的无线标记语言(WML)、无线终端的微浏览器规范、轻量级协议栈以及无线电话应用框架等协议组成。
CDMA
CDMA是码分多址的英文缩写(Code Division Multiple Access)。
CDMA基于扩频技术,可将需传送的、具有一定信号带宽的信息数据用一个带宽远大于信号带宽的高速伪随机码进行调制,从而使原数据信号的带宽被扩展,再经载波调制并发送出去。接收端使用完全相同的伪随机码与接收的带宽信号作相关处理,以把宽带信号换成原信息数据的窄带信号(即解扩),从而实现信息通信。 第三代移动通信
第三代移动通信系统是1985年由国际电信联盟(ITU)提出的,当时模拟移动通信系统刚刚建立,它被称为未来公众陆地移动通信系统1999年ITU正式将其更名为全球移动通信系统 IMT2000,俗称3G,即工作在2000MHz频段。
3G标准是由3GPP和3GPP2制定,国际上最具代表性的第三代移动通信技术标准有三种,分别是CDMA2000,WCDMA和TD-SCDMA。 蓝牙技术
蓝牙计划是由Ericsson、IBM、Intel、Nokia和Toshiba等公司联合主推的一项最新的无线网络技术。
“蓝牙(Bluetooth)”是一种短距离无线通信标准,其技术界面是专用半导体集成电路芯片,用于“嵌入”电子器件内。
蓝牙计划主要面向网络中各类数据及语音设备,如PC、拨号网络、笔记本电脑、打印机、传真机、数码相机、移动电话、高品质耳机等,使用无线的方式将它们连成一个小网(Piconet),多个Piconet之间也可以互连形成Scatternet,从而方便快速地实现各类设备之间的通信。 IEEE 802.11协议与WIFI
IEEE 802.11是IEEE(电气和电子工程师协会)1997年6月正式颁布实施的第一个无线局域网标准,主要用于解决办公室局域网和校园网中的用户与用户终端之间的无线接入。
IEEE 802.11标准的网络以1Mbps或2Mbps的速率传输数据,传输距离能够达到100m。但是,IEEE 802.11标准的WLAN的弱点在于传输速率最高只能达到2Mbps,与广泛使用的10Mbps甚至100Mbps速率的有线网络相比,速度太慢,无法满足人们的实际应用,特别是那些需要较高带宽的多媒体应用的需要。所以,IEEE随后又推出了802.11a和802.11b两个新标准。
IEEE 802.11协议与WIFI
IEEE 802.11b(WiFi)使用开放的2.4GHz直接序列扩频,最大数据传输速率为11Mbps,不需直线传播;使用动态速率转换,当射频情况变差时,可将数据传输速率降低为5.5Mbps、2Mbps和1Mbps;且当工作在2Mbps和1Mbps速率时,可向下兼容IEEE 802.11。
IEEE 802.11b的使用范围在室外为300 m,在办公环境中则最远为100 m,使用与以太网类似的连接协议和数据包确认,来提供可靠的数据传送和网络带宽的有效使用。 WiMax
WiMAX 的全名是微波存取全球互通(Worldwide Interoperability for Microwave Access),又称IEEE 802.16标准,或广带无线接入(Broadband Wireless Access,BWA)标准。
它是一项无线城域网(WMAN)技术,是针对微波和毫米波频段提出的一种新的空中接口标准。它用于将802.11a无线接入热点连接到互联网,也可连接公司与家庭等环境至有线骨干线路。它可作为线缆和DSL的无线扩展技术,从而实现无线宽带接入。
第九讲 多媒体计算机网络 计算机网络概述
三大定律及互联网的特性 网络接入技术
分布式多媒体计算机系统 P2P网络
无线多媒体传感器网络 物联网 流媒体技术
分布式多媒体计算机系统
基本特征 服务模型 层次结构 网格 云计算 基本特征 多媒体综合性 资源分散性 运行实时性 操作交互性 系统透明性 服务模型
分布式多媒体计算机系统从总体上来看,采用客户端服务器模型即C/S模型,即把一个复杂的多媒体任务分成两个部分去完成,运行在一个完整的分布式环境中。
也就是说,在前端客户机上运行应用程序,而在后端服务器上提供各种各样的特定的服务,如多媒体通信服务、多媒体数据压缩编码和解码、多媒体文件服务和多媒体数据库等。 层次结构 网格
网格是把整个Internet整合成一台巨大的超级计算机,实现计算资源、存储资源、数据资源、信息资源、知识资源、专家资源的全面共享。当然,网格并不一定非要这么大。它也可以是地区性的网格、企事业内部网格、局域网网格、家庭网格和个人网格。网格的根本特征并不一定是它的规模,而是资源共享,消除了资源孤岛。 网格的定义
网格就是构筑在互联网上的一组新兴技术。它将高速互联网、高性能计算机、大型数据库、传感器、远程设备等融为一体,为科技人员和普通百姓提供更多的资源、功能和交互性。 互联网主要为人们提供电子函件、网页测览等通信功能,而网格的功能则更多更强,它能让人们透明地使用计算、存储等其他资源。 网格的构成
一个完整的网格系统包括多种软件、硬件和网络设备,目前网格项目实施中所用到的网络、存储等硬件设备大多是现有技术提供的,真正让一个系统变成一个网格的是网格中的软件实现部分。
与一台计算机的组成相对应,网格由虚拟引擎、虚拟操作系统、虚拟中间件、应用软件四个层次构成。 网格的分类
根据网格所管理的资源类型,网格通常可以分为计算网格、数据网格、设备网格与应用网格。其中,应用网格从实现技术上来说需要借助于计算网格、数据网格等 在这4类网格中,可根据实际应用更有针对性地将网格应用分为分布式高性能计算、海量信息处理与服务、分布式交互协同、信息获取与融合、Peer-to-Peer应用、商业应用网格等 网格的应用
利用网格,芯片设计厂可以将他们在数星期内方可完成的设计任务在数小时内就可顺利完成,从而大大缩短了产品面市的时间;
汽车制造厂商可以利用网格进行模型的模拟测试,从而取代原来的电路测试和风洞试验,降低了汽车的成本;
在金融行业,网格在风险抵抗等方面有很好的作用;
在基因工程领域,网格将大显身手,如药物分子模拟、药物研究、基因测序等都离不开网格。 云计算
云计算是个2007年第4季度才兴起的新名词。
云计算(Cloud Computing)是一种新兴的商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务。 这种资源池称为“云”。 云计算
“云”是一些可以自我维护和管理的虚拟计算资源,通常为一些大型服务器集群,包括计算服务器、存储服务器、宽带资源等等。
云计算将所有的计算资源集中起来,并由软件实现自动管理,无需人为参与。这使得应用提供者无需为繁琐的细节而烦恼,能够更加专注于自己的业务,有利于创新和降低成本。 云计算
云计算是并行计算(Parallel Computing)、分布式计算(Distributed Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现。 云计算是虚拟化(Virtualization)、效用计算(Utility Computing)、IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等概念混合演进并跃升的结果。 云计算的特点 超大规模。“云”具有相当的规模,Google云计算已经拥有100多万台服务器 虚拟化。云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的有形的实体 高可靠性。“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机可靠
通用性。云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行 云计算的特点 高可扩展性。“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。 按需服务。“云”是一个庞大的资源池,你按需购买;云可以象自来水,电,煤气那样计费。 极其廉价。由于“云”的特殊容错措施可以采用极其廉价的节点来构成云,“云”的自动化集中式管理使大量企业无需负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,经常只要花费几百美元、几天时间就能完成以前需要数万美元、数月时间才能完成的任务。 云计算与网格计算
网格是所谓的“虚拟超级计算机”,以松耦合的方式将大量的计算资源连接在一起提供单个计算资源所无法完成的超级计算能力,这也是狭义上的网格计算跟云计算概念上最大的差别 云计算与网格计算 目标不同
网格的目标,是想要尽可能地利用各种资源。它通过特定的网格软件,将一个庞大的项目分解为无数个相互的、不太相关的子任务,然后交由各个计算节点进行计算。 尽管云计算也像网格计算一样将所有的资源构筑成一个庞大的资源池,但是云计算向外提供的某个资源,是为了完成某个特定的任务。比如说某个用户可能需要从资源池中申请一定量的资源来部署其应用,而不会将自己的任务提交给整个网格来完成 云计算与网格计算 分配资源方式的不同
虽然网格能够实现跨物理机进行并行作业处理,但是需要用户先将并行算法写好,并且通过
调度系统将作业分解到各个不同的物理节点进行,这个过程相对比较复杂,这也是很多网格计算被建设用来完成特定需求的原因
云计算是通过虚拟化将物理机的资源进行切割,从这个角度来实现资源的随需分配和自动增长,并且其资源的自动分配和增减不能超越物理节点本身的物理上限。尽管从控制端来看,云计算也将所有的IT资源看成是一个资源池,但是不同芯片的物理机会被归类到不同的资源池中。
第九讲 多媒体计算机网络 计算机网络概述
三大定律及互联网的特性 网络接入技术
分布式多媒体计算机系统 P2P网络
无线多媒体传感器网络 物联网 流媒体技术 P2P网络
P2P(Peer to Peer)技术称为对等网络技术,是一种用于不同计算机客户之间,不经过中间设备直接交换信息的技术,实质上是一种网络结构思想。
P2P技术的目的就是希望能够充分利用Internet中所蕴含的潜在的计算资源,通过系统中各个节点之间直接的数据通信引导网络计算从中心走向边缘,充分利用终端设备的处理能力,每个节点主动地加入网络享资源。 P2P网络的特点 分散化 可扩展性 鲁棒性 高性能
P2P技术体系结构与分类
P2P技术存在三种结构模式的体系结构 控制网络体系结构—集中目录式结构 分散分布网络体系结构—纯P2P网络结构 混合网络体系结构—混合式网络结构 P2P:集中目录
当一个计算机上线时,它将下面的信息通知到服务器: IP地址
所拥有的资源
2) 目录服务器建立集中动态数据库,提供对象名称到IP地址集合的映射。 3) 对等方及时通知目录服务器自己的更新。
4) 目录服务器周期性的向对等方发送报文来判断其是否在线。 P2P:集中目录存在的问题 单点故障
如果目录服务器崩溃,整个P2P应用跟着崩溃。即使服务器场还有多余的服务器还可以使用,因特网与服务器场的连接可能失效,从而导致整个应用崩溃。 性能瓶颈
对于庞大的数据库的维护,每秒种对数千次查询的响应,使得服务器承受巨大的通
信量。
知识产权的侵犯 版权保护的问题。 洪泛查询:Gnutella 全分布式的 没有服务器 公共域协议规范
不同的Gnutella客户机对于协议可能有不同的实现方法
Gnutella:协议
Gnutella:对等方的加入
欲加入的对等方X首先必须通过对等方列表发现已经在覆盖网络中的其他的对等方。 X将试图与列表中的对等方建立TCP连接,直到与某个对等方Y成功建立建立这样一条连接 连接建立成功之后X会向Y发送一个Gnutella的Ping消息,Y收到这个消息之后会向他的所有邻居转发这个Gnutella的Ping消息
任何一个对等方收到这个消息之后,会通过覆盖网络向X发送Gnutella的Pong消息
当X收到这些Pong消息之后,它不仅知道了Y,而且知道了该覆盖网络中的所有其他的对等方的IP地址,这样X就能同其他的对等方建立TCP连接 KaZaA:综合两种不同的优势 与Gnutella的区别:
每一个对等方是不平等的,既可以是“组长”,也可以是组成员 每一个对等方都和它的“组长”之间建立TCP连接. 两个“组长”之间也建立TCP连接.
每一个“组长”负责维护它的所有的组员的资源信息 新一代P2P
动态口选择之一。目前的P2P应用一般使用固定的端口,但是一些公司已经开始引入协议可以动态选择传输口,端口的数目一般为1024~4000,甚至P2P流可以用原来用于HTTP的口80来传输以便隐藏。
双向下载。该项技术可以多路并行下载和上载一个文件和/或多路并行下载一个文件的一部分
智能结点弹性重叠网络。该技术在路由器网络层上设置智能结点用各种链路对等连接,构成网络应用层的弹性重叠网。 P2P技术的应用
实时通讯(RTC)、无服务器型即时通信 实时比赛和游戏 协同工作 文件共享 共享体验 内容分发 音频和视频
分发产品升级补丁 分布式计算 整合计算资源
第九讲 多媒体计算机网络 计算机网络概述
三大定律及互联网的特性 网络接入技术
分布式多媒体计算机系统 P2P网络
无线多媒体传感器网络 物联网 流媒体技术
无线多媒体传感器网络
无线传感器网络(Wireless Sensor Network,简称WSN)是一种全新的信息获取和处理技术,它综合了传感器技术、微电系统、分布式信息处理技术和无线通信技术,能够协作地实时监测、感知和采集各种环境或监测对象的信息并对其进行处理,并将信息传送到用户。 其主要组成部分是集成有传感器、数据处理单元和通信模块的节点,各节点通过协议自组成一个分布式网络,再将采集来的数据通过优化后经无线电波传输给信息处理中心
无线传感器网络的特点 节点的数量巨大
网络拓扑的动态变化性 传输能力的有限性 能量的 安全性
无线传感器网络的结构 无线传感器网络的设计
无线传感器网络与一般的网络不同,其中很重要的一点,是由于无线传感器节点本身特点和应用环境的,使得电池无法进行充电,因此在使用时要受到严格的资源,电量耗完意味着该传感器节点实效。
对传感器网络结点进行分簇是目前研究的传感器网络主要设计方案之一。基于分簇的传感器网络,通常情况下是把传感器网络节点分成邻接的簇,每个簇包含一个簇首节点和多个成员节点。簇首负责收集来自成员节点的数据,进行处理、压缩,并把数据中继至基站。 无线多媒体传感器网络
无线多媒体传感器网络(Wireless Multimedia Sensor Network,简称WMSN)是由一组具有计算、存储和通信能力的多媒体传感器节点组成的分布式感知网络。
它借助于节点上多媒体传感器感知所在周边环境的多种媒体信息(音频、视频、图像、数值等),通过多跳中继方式将数据传到信息汇聚中心,汇聚中心对监测数据进行分析,实现全面而有效的环境监测。
第九讲 多媒体计算机网络 计算机网络概述
三大定律及互联网的特性 网络接入技术
分布式多媒体计算机系统 P2P网络
无线多媒体传感器网络
物联网 流媒体技术 物联网
物联网是在互联网概念的基础上提出的,是将其用户端延伸和扩展到任何物品与物品之间,进行信息交换和通信的一种网络概念。
物联网的定义
物联网是指在物理世界的实体中部署具有一定感知能力、计算能力和执行能力的各种信息传感设备,通过网络设施实现信息传输、协同和处理,从而实现广域或大范围的人与物、物与物之间信息交换需求的互联。
物联网依托多种信息获取技术,包括传感器、RFID、二维码、多媒体采集技术等。 物联网的几个关键环节可以归纳为“感知、传输、处理”。 物联网网络架构
从技术架构上来看,物联网可分为三层:感知层、网络层和应用层。 RFID
射频识别技术(Radio Frequency Identification,简称 RFID)是20世纪90年始兴起的一种自动识别技术,是目前比较先进的一种非接触识别技术。它通过射频信号自动识别目标对象并获取相关数据,识别工作无须人工干预,可工作于各种恶劣环境。RFID技术可识别高速运动物体并可同时识别多个标签,操作快捷方便。
RFID是一种简单的无线系统,只有两个基本器件,该系统用于控制、检测和跟踪物体。系统由一个询问器(或阅读器)和很多应答器(或标签)组成。 第九讲 多媒体计算机网络 计算机网络概述
三大定律及互联网的特性 网络接入技术
分布式多媒体计算机系统 P2P网络
无线多媒体传感器网络 物联网 流媒体技术 流媒体技术 流媒体技术(或称为流式媒体技术)就是把连续的影像和声音信息经过压缩处理后放到网络服务器上,让浏览者一边下载一边观看、收听,而不需要等到整个多媒体文件下载完成就可以即时观看的技术。
流媒体技术并不是单一的技术,它是融合很多网络技术之后所产生的技术。它涉及到流媒体数据的采集、压缩、存储、传输以及网络通信等多项技术。 流式传输
流式传输定义很广泛,现在主要指通过网络传送媒体(如视频、音频)的技术总称。其特定含义为通过Internet 将影视节目传送到客户机。 实现流式传输有两种方法:实时流式传输(Realtime streaming)和顺序流式传输(Progressive streaming)。 实时流式传输
实时流式传输指保证媒体信号带宽与网络连接配匹,使媒体可被实时观看到。实时流与HTTP流式传输不同,它需要专用的流媒体服务器与传输协议
实时流式传输总是实时传送,特别适合现场事件,也支持随机访问,用户可快进或后退以观看前面或后面的内容。 实时流式传输
实时流式传输必须配匹连接带宽,这意味着在以调制解调器速度连接时图像质量较差。而且,由于出错丢失的信息被忽略掉,网络拥塞或出现问题时,视频质量很差 实时流式传输需要特定服务器 实时流式传输还需要特殊网络协,这些协议在有防火墙时有时会出现问题,导致用户不能看到一些地点的实时内容 顺序流式传输
顺序流式传输是顺序下载,在下载文件的同时用户可观看在线媒体,在给定时刻,用户只能观看已下载的那部分,而不能跳到还未下载的前头部分
顺序流式传输不象实时流式传输在传输期间根据用户连接的速度做调整。
顺序流式传输比较适合高质量的短片段,如片头、片尾和广告,由于该文件在播放前观看的部分是无损下载的,这种方法保证电影播放的最终质量。 流媒体传输基本原理 流媒体播放方式 单播 组播
点播与广播
支持流媒体传输的网络协议 实时传输协议RTP与RTCP 实时流协议RTSP
资源预留协议RSVP协议 实时传输协议RTP与RTCP RTP(Real-time Transport Protocol)是用于Internet上针对多媒体数据流的一种传输协议。RTP被定义为在一对一或一对多的传输情况下工作,其目的是提供时间信息和实现流同步。 RTP通常使用UDP来传送数据,但RTP也可以在TCP或ATM等其他协议之上工作。 实时流协议RTSP
实时流协议RTSP(Real-time Streaming Protocol)是由Real Networks和Netscape共同提出的。 该协议定义了一对多应用程序如何有效地通过IP网络传送多媒体数据。
RTSP在体系结构上位于RTP和RTCP之上,它使用TCP或RTP完成数据传输。 使用RTSP时,客户机和服务器都可以发出请求,即RTSP可以是双向的。 资源预留协议RSVP协议
RSVP(Resource Reserve Protocol)是正在开发的Internet上的资源预订协议,使用RSVP预留一部分网络资源(即带宽),能在一定程度上为流媒体的传输提供QoS(Quality of Service)。 在某些试验性的系统如网络视频会议工具中就集成了RSVP。 流媒体文件格式
将压缩媒体文件编码成流式文件,必须加入一些附加信息,如计时、压缩和版权信息。 到目前为止,Internet上使用较多的流媒体格式主要有RealNetworks公司的RealMedia、Apple公司的QuickTime、Microsoft公司的Windows Media和Macromedia的Flash Video格式 完了
多媒体计算机技术 鲁宏伟
luhw@hust.edu.cn
第十讲 多媒体应用系统 应用系统的分类
H.323视频会议系统 IP电话
即时通信系统 Web浏览器 IPTV
多媒体消息业务 应用系统的分类 人对人的应用系统 人对机器的应用系统
第十讲 多媒体应用系统 应用系统的分类 H.323视频会议系统 IP电话
即时通信系统 Web浏览器 IPTV
多媒体消息业务 H.323视频会议系统 H.323协议概述 H.323终端 H.323网关
H.323多点控制单元 H.323网守 H.323产品 H.323协议概述
H.323协议体系是基于分组网的多媒体通信系统,它定义了分组网上提供多媒体通信服务的终端与设备的功能部件、通信过程和在分组网上提供声音、图像和数据通信所需的协议。 H.323协议中定义的设备包括了终端、网关(gateway)、网口管理器(gatekeeper)、多点控制器(MC)和多点控制单元(MCU)等设备,H.323使用了一些具体的协议来实现它们的具体功能
H.323协议栈结构 H.323协议的特点
H.323提供了多种媒体编解码方式
H.323协议体系的另一个特点是支持分组网上的视频会议,网口管理器gatekeeper(又称为网守)、多点控制器(MC)和多点控制单元(MCU)等是视频会议系统的主要控制和转发设备。 H.323会议系统采用了两种基本的呼叫方式,一种是直接呼叫信令模式,在两个终端之间直接传输信令;第二种是利用gatekeeper做信令中继器,转发终端之间的信令。 H.323终端
H.323终端是通过H.323/T.120协议定义的多媒体终端,它提供实时的音频和视频双向通信
H.323终端包含了H.323协议栈中所有的协议的一个子集,例如用于IP电话的H.323终端可以不包含视频和数据传输部分。 H.323终端的结构 H.323网关
H.323标准定义了H.323终端与其它终端,例如基于PSTN的H.324终端和基于ISDN的H.320终端等之间的互通。互通功能的实现主要是通过H.323网关实现的。
H.323的网关负责在不同的ITU标准之间的翻译、系统控制和传输控制。其中最主要的任务是在H.323会议终端与其他类型的终端之间传输的数字信号进行转换,包括传输格式之间的转换
H.323拓扑结构 H.323多点控制单元
在H.323标准中,一个MCU单元由多点控制器MC(Multipoint Controller)和若干个多点处理器MP(Multipoint Processors)组成。
按照H.323标准,可以召开各种形式的多点视频会议: 由A、B和C终端参加的分散式视频会议 由D、E和F终端参加的集中式视频会议 混合式多点视频会议 分散和集中式会议
在分散式视频会议中,与会终端以多播(Multicast)方式其它与会终端广播声音和视频图像。 在集中式视频会议中,所有终端都要以点对点的方式向MCU发送声音、视频图像、数据和控制流。 H.323网守
网守是H.323中最重要的部件,是它管辖区域里的所有呼叫的中心控制点,并且为注册的端点提供呼叫控制服务。
在H.323协议中,网守的主要功能是通过RAS规范实现的,它包含内容,一个是定义在RAS规范中的地址转换,即从终端别名和网关的LAN别名转换成IP或者网际信息包交换协议(IPX)地址;另一个也是在RAS规范中定义的网络管理功能。
在H.323系统中,网守不是必须的。但如果有网守存在时,终端必须要使用网守提供的服务功能。这些功能就是地址转换、准入控制、带宽管理和区域管理。 H.323产品
第十讲 多媒体应用系统 应用系统的分类
H.323视频会议系统 IP电话
即时通信系统 Web浏览器 IPTV
多媒体消息业务 IP电话
IP电话的概念
IP电话与PSTN电话的技术差别 IP电话的三种类型 IP电话标准
IP电话的概念
IP电话(IP Telephony)、因特网电话(Internet telephony)和VoIP(Voice over IP)都是在IP网络即信息包交换网络上进行的呼叫和通话,而不是在传统的公众交换电话网络上进行的呼叫和通话。
IP电话允许在使用TCP/IP协议的因特网、内联网或者专用LAN和WAN上进行电话交谈。 在信息包交换网络上传输声音的研究始于20世纪70年代末和80年代初1998年出现具有电话会议服务功能的会务器,1999年是开始应用IP电话之年。 IP电话与PSTN电话的技术差别
IP电话和PSTN电话之间在技术上的主要差别是它们的交换结构。因特网使用的是动态路由技术,而PSTN使用的是静态交换技术。
PSTN电话是在线路交换网络上进行,对每对通话都分配一个固定的带宽
IP电话网关把声音数据装配成IP信息包,然后按照TCP/IP网络上查找到的路径把IP信息包发送出去。
传送声音的基本过程 IP电话的三种类型 第一类:PC到PC 第二类:PC到电话 第三类:电话到电话 PC到PC
通话双方同时利用计算机和Modem拨号上Internet,然后利用电脑中多媒体技术,实现通话的声音传送。 PC到电话
通话时一方利用PC连上因特网,然后通过商业公司提供的IP电话服务器(网关)将电话拨叫到对方普通电话机上。 电话到电话
这种类型又分为三种不同的应用形式: 通话双方都由PC与电话直接连接
通话双方都不须要使用计算机,只须各自配备上网账号和专用的IP电话设备 IP电话服务器支持下的“电话到电话”方式,由服务提供商提供全套服务 IP电话标准
ITU的H.323系列标准
IETF的入会协议(Session Initiation Protocol,SIP)。SIP是由IETF的MMUSIC(Multiparty Multimedia Session Control)工作组正在开发的协议,它是在HTML语言基础上开发的、并且比H.323简便的一种协议。
H.323和SIP这两种协议代表解决相同问题(多媒体会议的信号传输和控制)的两种不同的解决方法。
第十讲 多媒体应用系统 应用系统的分类
H.323视频会议系统 IP电话 即时通信系统 Web浏览器 IPTV
多媒体消息业务
即时通信系统
即时通信系统是指使用因特网技术,允许人们实时地传送文本、语音、视频和数据文件等信息软硬件系统。
其特点是能让用户可以选择性地接受或拒绝某人的信息,也可以同一时间与多人进行交流。 即时通信系统的设计要求 数据通信完整与可靠性 通信安全性
通信效率和公平性 系统可控性 系统稳定性能 即时通信的标准
目前IM有4种协议:
即时信息和出席协议IMPP(Instant Messaging and Presence Protocol) 出席和即时信息协议PRIM(Presence and Instant Messaging Protocol)
针对即时消息和出席平衡扩展的会话初始化协议SIP/SIMPLE(SIP for Instant Messaging and Presence Leveraging Protocol)
扩展的消息和出席协议XMPP(Extensible Messaging and Presence Protocol)。 即时通信系统的结构
即时通信系统主要分为三大部分:服务器端、客户端端和注册数据库
软件主要包括节点命名和信息资源命名模块、节点的定位模块、通信模块,以及其他具体的功能服务模块等部分 即时通信系统的结构 Windows Live Messenger
Windows Live Messenger是微软公司推出的即时通信系统,目前有非常广大的用户群。 早期的Messenger中视频编码采用了Microsoft与Logitech公司合作开发的视频编码标准(标记为ML20)以及微软自己开发的WMV编码格式 。但从9.0版本开始视频通讯采用的是私有协议
音频编码采用比较多的则是PCM A律和律、GSM以及G.723.1等 Windows Live Messenger
支持的音频格式:114(x-msrta/16000) 111(SIREN/16000) 112(G7221/16000) 115(x-mstra/8000) 116 (AAL2-G726-32/8000)4(G723/8000) 8(PCMA/8000) 0(PCMU/8000) 97(RED/8000) 13(CN/8000) 118(CN/16000) 101(telephone-event/8000)。其中x-mstra是微软自有的音频编码协议,RED为采用冗余编码,CN为Comfort Noise编码方式,编码方法后的数字为采样率。
支持的视频格式:121(x-rtvc1/90000) 34(H263/90000)。其中x-rtvc1为微软自有的视频编码协议。
Windows Live Messenger
x-rtvc1协议是在VC-1基础上基于RTP协议的一种编码,但又不同于VC-1。
VC-1源于WMV。WMV最初是为低速率流媒体应用作为专有编解码开发出来的,但是2003年微软公司基于Windows Media Video 第 9 版编解码起草了视频编解码规范并且提交给SMPTE申请作为标准。这个标准在2006年3月作为SMPTE 421M(即VC-1)被正式批准,这样Windows Media Video 9 编解码就不再是一个专有的技术。早期的编解码版本(7和8)仍然被认为是专有技术,因为它们不在SMPTE 421M标准的涵盖范围内。 但根据RFC4425中关于VC-1数据包结构,可以判断视频数据包采用的不是标准的VC-1编码。
实际上,x-rtvc1是微软公司对VC1的一种扩展,它增加cached帧和SP-帧。 第十讲 多媒体应用系统 H.323视频会议系统 IP电话
即时通信系统
Windows Live Messenger Skype Skype
Skype是基于P2P的语音通话软件
其主要技术特点就是客户端只需要在登录阶段与服务端链接进行身份认证,客户端的连接通信主要利用超级节点。 SC: Skype Client
ON: Ordinary Node,普通节点,相当于SC SN: Super Node:,超级节点 Skype客户端登录
登录阶段,ON基于用户名和密码向服务器进行认证,并通告其他对等端(Peers)或好友上线、确定其所在的网络的NAT或防火墙的类型、发现在线的具有公共IP的Skype超级节点(SN)、检查最新版本 ON的登录过程 ON的登录过程
每一个ON必须首先向注册服务器获取一个用户名和密码;
一个ON运行时,会选择一个父节点SN,并保持与此SN的一个TCP连接; 然后通过该父节点获取登录服务器的IP地址,并向登录服务器进行认证;
认证成功后,ON向Web服务器发送HTTP1.1 GET命令是否有新版本发布,至此登录过程完毕;
此时,ON可以呼叫或者被呼叫,并与其他ON进行通信。 UDP探测阶段
登陆过程中一个很重要的步骤是一个ON必须要保持与一个父节点SN的TCP连接。ON是通过探测获取该父节点的。
Skype客户端维护了一个XML文件“C:\\Documents and Settings\\Administrator \\Application Data\\Skype\\shared.xml” 。这样在Skype启动时,通过读取该文件获取缓存的SN节点信息,并尝试向这些节点发送UDP探测数据包。 UDP探测阶段
客户端会基于统一端口尝试向不同的地址建立UDP探测,目的地址会新型回复 客户端根据探测过程获取的SN节点与之建立TCP连接,并根据获取的认证服务器IP与认证服务器建立TCP连接,进入TCP认证阶段 通话呼叫与通信阶段
查询DNS域名i.im.tom.com,DNS服务器回复
客户端选择其中之一采用SIP协议进行呼叫(UDP协议) Skype支持的音频协议 PC2Phone
a=rtpmap:18 G729/8000 a=fmtp:18 annexb=no a=rtpmap:0 PCMU/8000
a=rtpmap:8 PCMA/8000 a=rtpmap:9 G722/8000 PC2PC iSAC iSAC
Global IP Sound公司宣布推出其iSAC编/解码器 (codec) 的2.0版本。iSAC 2.0是市场领先的自适应codec,专为开发互联网语音 (VoIP) 通信应用而设。
采用这种解决方案,IP电话、网关及芯片组生产商便能够开发出优良的产品,提供高质量的语音体验,完全满足以PC机采用互联网通话服务的用户之期望 第十讲 多媒体应用系统 应用系统的分类
H.323视频会议系统 IP电话
即时通信系统 Web浏览器 IPTV
多媒体消息业务 Web浏览器
Web浏览器是指可以显示网页服务器或者文件系统的HTML文件内容,并让用户与这些文件交互的一种软件。Web浏览器主要通过HTTP协议与网页服务器交互并获取网页,这些网页由URL指定,文件格式通常为HTML。一个网页中可以包括多个文档,每个文档都是分别从服务器获取的。通过浏览器来显示在万维网中的文字、图像、音频和视频及其他信息,这些文字或音频视频等,可以是连接其他网址的超链接。
一个简单浏览器的系统结构 主流浏览器内核
现代浏览器不仅仅是一个浏览器,它更像一个多任务的操作系统,它还要具备以下特色功能: 对web标准的支持、多标签浏览、隐私浏览、广告弹窗拦截、内置下载工具、智能地址栏、搜索栏、插件和扩展程序等。
浏览器最核心的部分是渲染引擎(Rendering Engine),一般习惯称之为“浏览器内核”,其负责解析网页语法(如HTML、JavaScript)并渲染、展示网页。不同的浏览器内核对网页编写语法的解析也有所不同,因此同一网页在不同的内核浏览器里的渲染、展示效果也可能不同
Google Chrome浏览器简介
Chrome浏览器是Google公司于2008年9月3日推出的自有品牌的浏览器。这是一个基于BSD许可证的开放源代码项目。
其主要基于另外2个开放源代码项目:Webkit网页渲染系统和V8 JavaScript引擎。相对于其它浏览器,Chrome的主要特点是高安全性的沙盒技术、多进程技术、隐身模式和快速高效的浏览体验。
双核浏览器
通常情况下,一种浏览器使用的内核一般都是单一的内核引擎,比如IE浏览器使用Trident内核引擎,谷歌Chrome浏览器使用WebKit内核引擎。
由于IE浏览器在国内的普及率非常高,所以造成了很多网上银行和支付系统只支持IE的Trident内核,使得基于其他非Trident内核的浏览器无法进行正常支付和转账等业务。 而WebKit内核的非IE浏览器以更高的性能和更好的用户体验拥有了越来越多的用户。 双核浏览器
同时支持两种内核的浏览器
在不用网上交易的一般网站,使用速度快的WebKit内核访问,这就是所谓的“高速模式”; 在访问支付宝或者网上银行的时候,使用Trident内核的“兼容模式”来进行业务。
双核浏览器面临两个内核切换、数据共享、功能公用等技术难题。一些双核浏览器在切换内核时很可能会出现登录信息丢失的问题,在两个内核中软件功能也无法通用。
第十讲 多媒体应用系统 应用系统的分类
H.323视频会议系统 IP电话
即时通信系统 Web浏览器 IPTV
多媒体消息业务 IPTV系统
IPTV即交互式网络电视,是一种利用宽带有线电视网,集互联网、多媒体、通信等多种技术于一体,向家庭用户提供包括数字电视在内的多种交互式服务的技术。
狭义的IPTV,传统的广播电视行业通常将其理解为“IPTV=IP+TV”模式,即在这种实现方式中,IP业务和TV业务在CABLE中是完全并行的。
广义的IPTV所涵盖的业务包括VOD、Interac-tive TV(交互式电视)、Mobile Video(手机视频)、Mobisodes(手机电视剧)、视频游戏、电视上网、收发邮件、电视商务等 第十讲 多媒体应用系统 应用系统的分类
H.323视频会议系统 IP电话
即时通信系统 Web浏览器 IPTV
多媒体消息业务 多媒体消息业务
MMS(Multimedia Message Service,多媒体消息业务)通常又称为彩信。 它最大的特色就是支持多媒体功能,能够在支持彩信功能的手机之间或手机与计算机之间传递功能全面的内容和信息,这些信息包括文字、图像、声音、数据等各种多媒体格式的信息。其短消息容量平均为3万字节,最高可达10万字节。 完了
多媒体计算机技术 鲁宏伟
luhw@hust.edu.cn
第五章 光盘存储原理及相关标准 光盘的发展的历史 光盘的特点 CD盘片结构
CD-ROM盘制作过程 CD-ROM驱动器 光盘的规范及格式 CD-RW
DVD及DVD播放机 DVCD光盘技术 光驱应用技术 光盘的发展的历史
1972年9月荷兰Philips向全世界展示了长时间播放电视节目的光盘系统,在光盘上记录的是模拟信号。
大约从1978年开始,人们开始把声音信号变成用“1”和“0”表示的二进制数字,然后记录到以塑料为基片的金属圆盘上
Philips公司和Sony公司终于在1982年成功地把这种记录有数字声音的盘推向了市场。为了便于光盘的生产、使用和推广,几个主要光盘制造公司和国际标准化组织还为这种盘制定了标准,这就是世界闻名的“红皮书(Red Book)标准”。符合这种标准的盘又称为数字激光唱盘(Compact Disc-Digital Audio,CD-DA)盘。 光盘的发展的历史
从CD-DA过渡到CD-ROM有两个重要问题需要解决:
计算机如何寻找盘上的数据,也就是如何划分盘上的地址问题 CD盘作为计算机的存储器使用时,要求它的错误率(10-12)远远小于声音数据的错误率(10-9) 在此基础上推出了“黄皮书(Yellow)标准” 主要历史事件
1980年,Sony和Philips定义了CD-DA标准;
1982年,Sony推出了世界上第一台CD播放机CDP-101,并生产了第一张CD; 1984年,Sony推出了世界上第一台汽车CD和便携式CD播放机; 1985年,Sony和Philips定义了CD-ROM标准; 19年,Sony和Philips定义了交互式CD-I标准;
1990年,Sony和Philips将CD-ROM标准扩展为CD-ROM XA和CD-R标准; 1994年,随着多媒体热潮的掀起,CD-ROM成为家用计算机的标准配置; 1995年,提出了新的可擦除CD和CD+(增强的音乐CD)标准。
1995年9月,Sony和其它8家公司建立了DVD格式的统一标准。 CD系列产品 蓝光光盘
蓝光光盘(Blu-ray Disc)的光盘直径12厘米,和普通光盘(CD)和数码光盘(DVD)的体积一样。一张单面的光盘可以收录27G字节的数据,是比目前数码光盘的5倍。普通的数码光盘只可以刻录4.7G字节的数据。 但是,不同的是,“蓝光光盘“将利用蓝色的激光束来刻录数据。目前的光盘均使用红色的激光束来进行刻录工作。
这种新的光盘采用新的格式记录数据,可以记录超过两个小时的数码高解析度录像,或者13个小时的普通电视节目。
参与这项技术开发的还有韩国的三星电子公司、法国的汤姆森多媒体公司、美国的先锋公司、日本的日立公司、松下电器产业公司、夏普公司、荷兰的飞利浦电子设备公司和韩国的LG电子电器有限公司。
不同格式光盘之间的差别
CD-DA 存放数字化的音乐节目
CD-G(Graphics) 存放静止图像和音乐节目 CD-V 存放模拟的电视图像和数字化的声音 CD-ROM 存放数字化的文、图、声、象等
CD-I(Interactive) 存放数字化的文、图、声、象(静止的)、动画等 CD-I FMV(Full Motion Video) 存放数字化的电影、电视等节目 卡拉OK CD 存放数字化的卡拉OK节目
Video CD 存放数字化的电影、电视等节目 光盘的特点
光盘具有数据存储密度高,单片信息容量大,数据存储寿命 长(常温下可以保存几十年),使用及存储环境要求低(不需特殊的温度、湿度、净化处理),批量复制工艺简单,单位信息存储成本极低,便于携带,易于交换等突出优点
CD盘片结构
磁盘与CD盘的光道
磁盘存放数据的磁道是同心环,如图(a)所示,磁盘片转动的角速度是恒定的,用CAV(constant angular velocity)表示
CD盘采用螺旋型光道,如图(b)所示,CD盘转动的线速度是恒定的,光盘的光学读出头相对于盘片运动的线速度是恒定的,通常用CLV(constant linear velocity)表示 CD-ROM盘制作过程
CD盘是利用在盘上压制凹坑的机械办法,利用凹坑的边缘来记录“1”,而凹坑和非凹坑的平坦部分记录“0”,使用激光来读出。
CD-ROM光盘制作过程 CD-ROM驱动器
CD-ROM驱动器的基础知识 CD-ROM驱动器的工作原理 CD-ROM驱动器的基础知识
CD-ROM驱动器就是通常所说的光驱,它是用来读取光盘盘片数据的一种设备
CD-ROM盘片是采用一个连续的旋转形的轨道来存储数据的,这些轨道被分成相同尺寸,相同密度的区域
光驱的传输速度是影响其性能的一个重要因素。单倍速光驱的传输率是150KB/s
光驱的传输模式对传输速度也有影响。目前的主要模式有PIO(并行I/O)和Ultra DMA/33 (UDMA33)两种
光驱的寻道时间以及缓冲区也影响着光驱的性能 CD-ROM驱动器的工作原理
一台光驱的正面常见的部件有光盘托盘、托盘开关、耳机孔和音量控制扭等 CD驱动器的构成
CD驱动器由光学读出头、光学读出头驱动机构、CD盘驱动机构、控制线路以及处理光学读
出头读出信号的电子线路等组成。
激光头是光驱的心脏,也是最精密的部分,它主要负责数据的读取工作。激光头主要包括:激光发生器(又称激光二极管),半反光棱镜,物镜,透镜以及光电二极管几部分(如图所示)。 光盘的读出原理
光盘上压制了许多凹坑,激光束在凹坑部分反射的光的强度,要比从非凹坑部分反射的光的强度弱,光盘就是利用这个极其简单的原理来区分“1”和“0”的。 凹坑的边缘代表“1”,凹坑和非凹坑的平坦部分代表“0”,凹坑的长度和非凹坑的长度都代表有多少个“0”。 光盘的规范及格式 CD-DA规范及格式 CD-ROM标准 CD-ROM文件标准 CD-I标准 CD-R盘标准 Video CD标准 CD-DA规范及格式
该标准又称为红皮书(Red Book)。它是整个CD工业最基本的标准,所有其它的CD标准都是在这个标准的基础上制定的。
其螺旋线光道上等长分段,每段称为一个扇区。每个扇区都存放一定数量的数据块,并以一个特定的地址标记,其单位为“分”、“秒”和“扇区(section)”。每个扇区的音频数据又分为许多称为帧(frame)的单元 CD-DA帧与扇区格式
在CD-DA中,立体声有两个通道,每次采样有2个16位的样本,左右通道的每个16位数据分别组成2个8位字节,6次采样共24字节组成一帧。一帧中有8个校验字节和一个“控制与显示(C&D)”字节。 CD-ROM标准
CD-ROM(Compact Disc-Read Only Memory)标准是1985年Philips和Sony公司定义的,又称为黄皮书(Yellow Book)。
CD-ROM Mode1和Mode2的不同之处 用户数据大小不同 存储数据的类型不同 校验码长度不同 CD-ROM文件标准
CD-ROM标准没有制定文件标准,计算机工业界的代表起草了一个CD-ROM文件结构的提案,这个提案提交给ISO,ISO作了少量修改后命名为ISO 9660标准。
计算机要能够读ISO 9660文件结构的盘,它的操作系统就必需要有支持软件 Microsoft公司为读CD-ROM盘上的ISO 9660文件而开发的程序叫做MSCDEX,其主要功能是把ISO 9660文件结构转变成MS-DOS能识别的文件结构。 CD-I标准
CD-I(CD Interactive)标准是从CD-DA和CD-ROM标准发展而来的,又称为绿皮书。
CD-I盘包含有三个区:导入区、节目区和导出区。导入区是由若干个空扇区组成的,其目的是使得识别节目区变得容易;导出区或者是空扇区(最后一条光道是CD-I光道时)或者是无声的帧(最后一条光道是CD-DA光道)。
和CD-DA光盘一样,可以有多到99条光道,编号为1-99。
CD-I光盘的节目区 CD-R盘标准
CD-R盘标准又称为橙皮书标准,是另一种CD光盘的标准 可录CD盘分为以下两类
CD-MO 盘,这是一种采用磁记录原理利用激光读写资料的盘,称为磁光盘。 CD-WO盘,这种盘又写成CD-R盘 Orange Book标准分成两个部分:Orange Book Part 1和Orange Book Part 2。Part1 描述CD-MO,Part 2描述CD-WO。 CD-R盘标准
目前市面上的CD-R空白光盘主要有绿盘、金盘和蓝盘三种类型。这三种光盘的主要区别在于,它们分别使用了花青(Cyanine)、酞花青(Phthalocyanine)和金属化偶氮(AZO)化合物三种不同颜色的有机染料,从而使CD-R光盘呈现出绿、金、蓝三种不同的颜色。
从数据记录和读取的原理来看,不同颜色的CD-R光盘都具有相同的功能,即利用大功率激光束的热效应使激光焦点照射的染料微区产生不可逆的物理化学变化,形成具有与CD-ROM光盘凹坑相同光学反射特性的信息凹坑。 绿盘
绿盘是最早开发生产出的CD-R光盘,绿盘采用了日本太阳邮电公司发明的花菁染料Cyanine。由于花菁染料的颜色为青蓝色,因此与24K金反射层的金色混合之后,就会使CD-R光盘的记录面呈现绿色。
由于CD-R标准(橙皮书)是基于花菁染料的记录灵敏度、记录阈值和反射率等记录特性制定出的,而且所有的CD-R或CD-RW刻录机均按照橙皮书规格进行设计生产,因此绿盘对各种品牌和型号的CD-R或CD-RW刻录机的兼容性较强。
绿盘使用的花菁染料记录灵敏度很高,各种CD-R和CD-RW刻录机都能在绿盘记录层快速形成可靠的信息凹坑。但是随之而来的问题就是绿盘对强光过于敏感,例如在夏日中午阳光的暴晒下,绿盘中的花菁染料会发生物理化学变化而使光盘报废。为了降低绿盘对强光的敏感性,一些CD-R绿盘生产厂家在花菁染料中加入了不易感光的材料,结果使花菁染料的颜色变淡,从而使这种绿盘的颜色与金盘接近,因此这种CD-R光盘也被称为金绿盘。 金盘/白金盘
针对花菁染料对强光敏感的缺点,三井公司又开发出了基于Phthalocyanine的酞菁染料。酞菁染料本身呈淡黄色,与反射层的金色混合后,使CD-R光盘的记录面呈黄金色,因此使用金反射层的酞菁染料CD-R光盘被称为金盘。为了降低金盘的生产成本,目前许多CD-R盘生产厂使用银反射层,使酞菁染料的淡黄色与反射层的银色混合后,使记录面呈白金色,因此这种CD-R盘被称为白金盘。
金盘对CD-R或CD-RW刻录机的写入激光功率要求较高,酞菁染料通常推荐的写入激光功率为6.5(±0.5)mW,而绿盘对写入激光功率的要求较低,花菁染料的写入激光功率为5.5(±1.0)mW。因此绿盘较低的写入功率和较宽的功率范围可降低对CD-R或CD-RW刻录机写入激光功率的要求,大大提高了绿盘与CD-R或CD-RW刻录机的兼容性。 蓝盘
为了降低CD-R绿盘和金盘的成本,三菱化学公司开发生产出了一种金属化的AZO有机染料,并使用成本较低的银作反射层材料。AZO本身为深蓝色,因此与反射层的银白色混合后,使CD-R光盘的记录面呈蓝色,因此使用AZO染料的CD-R光盘就被称为蓝盘。CD-R蓝盘除了价格便宜之外,也具有可长期保存数据的优点。Verbatim公司的实验结果表明,蓝盘也具有100年以上的使用寿命。 Video CD标准
Video CD标准(又称为,White Book)描述的是一个使用CD格式和MPEG标准的数字电视播放系统。
Video CD标准有完整的文件系统,其结构遵照CD-Bridge的规格和ISO 9660的文件结构,这样就使Video CD节目能够在CD-I、CD-ROM/XA和Video CD播放机上播放。
Video CD定义了MPEG光道的结构,它由MPEG-Video扇区和MPEG-Audio扇区组成。 MPEG-Video、Audio扇区的一般结构 CD-RW
CD-RW光盘结构 刻录方式和存储格式 速度和质量 接口和规格
CD-RW光盘结构
CD-RW的结构原理与CD-ROM基本相同,只是在盘片中增加了可改写的染色层。 读写资料是采用相变(Phase Change)技术
—在光盘内部镀上一层厚度为400埃的薄膜,数字0和1的信息,是通过激光照射使这层材料在“晶态”与“非晶态”两种状态间转换而得到的。 刻录方式和存储格式
在CD-RW刻录机上可以使用CD-R和CD-RW两种盘片,其写入的方式是不同的。 刻录是刻录机的主要功能,主要有整盘刻写、轨道刻写和多段刻写三种刻录方式。 速度和质量
CD-RW刻录机有三个速度指标:刻录速度、写入速度和读取速度。
为保证刻录质量,高速刻录除了要求优质盘片外,刻录缓存的速度和容量也十分重要。 一些新型刻录技术为刻录质量提供了保障。 接口和规格
CD-RW刻录机与计算机的接口分为三种:EIDE接口、SCSI接口、并行接口和USB接口 CD-RW刻录机有内置式和外置式两种类型。内置的刻录机包括EIDE接口和SCSI接口的,比外置式便宜,且节省空间。外置式的刻录机插装方便,适宜共享使用,密封性和散热性较好,缺点是占地较大、不易携带。外置式刻录机包括SCSI接口、并行接口以及USB接口。 DVD及DVD播放机 概述
DVD的物理特性 DVD播放机 DVD盘片的生产 独特的技术 区码问题 概述
DVD是Digital Video Disc的缩写,意思是“数字电视光盘(系统)”,这是为了与Video CD相区别。实际上DVD的应用不仅仅是用来存放视频资料,它同样可以用来存储其它类型的资料,因此又把Digital Video Disc更改为Digital Versatile Disc,缩写仍然是DVD。Versatile的意思是多才多艺的意思。现在,当我们谈到DVD时,通常是指Digital Video Disc。 DVD的容量 DVD的物理特性
DVD采用8到16位(EFM+)的调制方式和RS-PC纠错系统;
DVD的盘片可做到双面双层,存储容量最高可达到17GB。
DVD播放机
每一台机器的面板都是大同小异的,通常都包括进碟仓、播放键、暂停键、停止键、液晶显示屏、快速换曲与搜寻键、电源开关等,有些机器还带有麦克风音量与混响的音量旋钮等等。 DVD机内部主要有五大部分:托盘、电源电路板、影音译码板、功能控制电路板、影像音频转换输出板。
DVD/CD信号拾取系统方案有四种 DVD信号拾取系统方案
单激光头双聚焦镜方案,这套方案俗称东芝方案
单激光头单聚焦镜双聚焦点方案,这套方案松下用得最多 双激光头双聚焦镜方案,这是索尼用得最多的方案
单激光头双波长激光束方案。这是先锋在目前使用较多的方案 DVD播放机框图 DVD盘片的生产 独特的技术
不少厂商为了突出自己的产品,设计了不少独特的技术嵌入到DVD-ROM当中,起到调速、提高读盘能力、延长寿命、降噪、降温、减震等作用 延长寿命技术 减震技术 降噪技术
提高读盘能力技术 降温技术
延长寿命技术
不少DVD-ROM采用全钢机芯或者抗老化液压轴承。它们具有耐热,不容易变形等特点,使光驱的寿命大幅延长,并且增加了自重,避免了因自重不足而产生共振现象
减震技术
减震技术利用动态阻尼器和抗震装置吸收光驱主轴电机在高速旋转时所产生的震动,使内部作用力相互抵消以避免精密的光头组件因震动过大而损坏和读取数据时定位的不准确,同时也可以有效地抑制那些密度不均匀或扭曲变形的光盘带来的震动,使得光驱能在一个稳定的状态下工作,获得更好的读盘效果和更长的使用寿命 降噪技术
因流场产生的噪音是气流在高速流动过程中受到阻碍、产生压力而急遽变化所产生的,光驱倍速越高,噪音问题越难解决。降噪技术来源于将托盘面设计成平顺曲面, 避免有突出物和狭缝干扰流场;另一方面由于托盘上四根卡勾的下方一定要有破孔,在破孔下方设计出四面墙,让气流在初流此处时堆积下来,接下来的气流由于受限于前方气流的堆积,因而无法窜至托盘下面,只能顺着切线方向前进,达到良好的减噪效果 提高读盘能力技术
智能调速技术是目前改善光驱纠错性的一个折中解决办法,它以牺牲一些光驱传输速度来换取光驱纠错性能的提高。以前很多光驱都采用降速功能键,当光驱读盘纠错能力不高时,通过手动调节转速来控制噪音和提高读盘能力。它的工作原理是把盘片反射光的讯号经过人工智能芯片判断,再经伺服系统来调节速度以及激光头聚焦方式,保证了光驱的寿命和读盘的
稳定性 降温技术
有些DVD-ROM内部部分采用超导体散热材料SMT(Superconductive Microtherm Technology),通过高效率的热传导功能有效降低碟片高速旋转产生的高热量,始终保持光碟机内部及碟片处于低温状态 区码问题
为了保护电影、软件等具有知识版权的产品,在96年2月由美国电子产品制造商和美国电影协会向日本DVD硬件制造商提出了强硬要求,要求在DVD的硬件和软件中加入“DVD防止拷贝管理系统”和“DVD区域代码”。
“防止拷贝管理系统”即所有DVD光驱和影碟机均必须加装防止拷贝电路,以免侵犯知识产权;而“DVD区域代码”则是在DVD光驱,影碟机和其碟片上编入6个不同的区域代码,使它们之间不能相互读取 区域码的地区范围 第一区 加拿大、美国
第二区 日本、欧洲、中东、埃及、南非
第三区 东南亚、东亚(、、韩国、泰国、印尼)
第四区 澳大利亚、新西兰、南太平洋群岛、中美洲、墨西哥、南美洲 第五区 非洲、印度、中亚、蒙古、俄罗斯、朝鲜 第六区 中国
区域码的地区范围 区位码控制系统
所有的DVD播放器都有区域码控制系统,它分为两种类型: RPC Phase I(RPC I):RPC I类型的DVD驱动器没有支持区域码设定的内置硬件设备,所以需要由播放器的解码器来设定。通常我们见到采用这类型控制系统的DVD-ROM都是全区码的DVD-ROM。
RPC Phase II(RPC II):RPC II的DVD驱动器具有支持区域码设定的内置硬件设备,一般来说,用户可以通过DVD播放器的解码器来更改5次(包含第1次)的设定 DVCD光盘技术
DVCD光盘和普通VCD一样,可以在任何播放机上播放。但DVCD光盘比普通VCD光盘容量增加了将近50%
CD光盘内只要求轨道的距离是一致的,但两轨道之间距离范围允许为1.30微米至1.38微米,通过专有技术尽量压缩两轨道之间的距离,可使光盘录制音像的时间增加到90分钟至118分钟,这便是DVCD的技术奥秘 HD DVD
HD DVD是东芝公司和NEC联合开发的光盘标准。东芝原本已经加入蓝光阵营,然而利益的分配以及相关技术特性诱使东芝断然退出该组织,转而联合NEC开发AOD(Advanced Optical Disk),并且得到DVD-Forum的鼎力支持,改名为HD DVD。
HD DVD与DVD的盘片外形尺寸一样,直径都是12cm,与现有的CD、DVD相同。尽管它们采用不同的技术,但实际属于同一范畴,它们最大的区别之一是其盘片的物理结构不同,即刻录的信息层在盘片上所处位置不同,这就造成了两者格式上的差异。 EVD
EVD的主要创新包括:① 音频/视频的滤波变换、编码/解码的优化方法,作用是改善音响画面素质,及增加数据压缩比率;② 承袭自SVCD的“数字视频上动态叠加字幕”方法,可令字幕以256色显示。
EVD系统在原有DVD技术的基础上使码流提速近1倍,图像分辨率达到DVD的5倍,支持800线以上的所有电视,实现更震撼的声音、更漂亮的字幕和更灵活的选择。 EVD技术特点
视频方面:系统不仅实现了标准清晰度,还实现了自VCD质量到高清晰度8种不同的视频质量,高分辨率可达19201080,全面支持包括高清晰度数字电视在内的各种使用需求和使用环境,可以直接作为高清晰度数字电视生产中的测试设备和家庭娱乐设备使用。
音频方面:系统采用拥有自主知识产权的EAC音频压缩技术,不仅全面支持单声道、双声道和5.1声道,在音频质量上也优于目前的DVD机中通常被采用并收取高额许可费的Dolby AC-3。
字幕方面:系统继承和发展了超级VCD的研究成果,实现了256色可浮动字幕,并支持透明色,字幕的显示质量和灵活性远远优于DVD字幕。 FVD
FVD是2004年4月由前瞻光储存研发联盟AOSRA(Advanced Optical Storage Research Alliance)的29家公司或单位共同合作开发的新型红光高画质激光视盘HD-FVD。
为了增加光盘容量,FVD第一代采用了0.m轨距,比DVD之0.74m更窄,容量可直接增加13%,达到5.4GB,并加入AES(Advanced Encryption Standard)Copy protection之功能,所储存之影像分辨率为1280720。
第二代FVD除了延续第一代之改变外,其主要物理规格调变码(modulation code)有重大改变,改采用8/15码法,同时错误校正码也重新设计,所得到的有效记录容量由5.4GB提升至6.0GB。 NVD
NVD是继EVD、FVD之后由武汉光谷牵头发起的,武汉光电国家实验室、中科院上海光机所、光盘及其应用国家工程研究中心、清华大学光盘国家工程研究中心、武汉高科国有投资公司、爱多集团等国内顶尖光存储技术研发机构和企业共同实施研制的项目。NVD采用了一种新的用于高密度光盘的数据格式及纠错编码,具有比DVD高的编码效率,单面双层容量可以达到12GB,能够满足高清视频节目播放的要求,并且具有自主知识产权、性价比高。 NVD
相对于普通的DVD播放机,NVD播放机能够播放高清视频,最高分辨率可达到19201080,同时支持MPEG-1、MPEG-2、MPEG-4以及WMV格式编码;支持的音/视频格式有MP3、WAV、AAC、AC3、MP4、ASF、AVI、WMV,也支持JPG格式的图片
除了播放光盘上的音视频资源外,还能够播放网络上的媒体资源,也能够通过USB接口播放移动存储设备上的音视频资源。同时,NVD还具有加密防盗技术,能向下兼容DVD、VCD、CD。
光驱应用技术
思考题
1 简述CD的发展历史。
2 简要介绍CD盘的结构并比较它与硬盘的异同。 3 简述DVD播放机的结构。
4 与VCD光盘相比,DVCD是如何提高其存储容量的?
5 为了解决高度光盘驱动器的稳定性和数据可靠性,通常采用了哪些技术?
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- dcrkj.com 版权所有 赣ICP备2024042791号-2
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务