基于文本的多媒体检索与基于内容的多媒体检索的比较
【摘要】:随着多媒体信息的不断增长,基于内容的多媒体信息检索技术成为信息检索领域的一个热点。在对基于文本的多媒体信息检索和基于内容的多媒体信息检索详细比较分析的基础上,探讨了多媒体信息检索的发展趋势。
【关键词】:多媒体检索;基于文本;基于内容
随着计算机技术、多媒体技术的飞速发展和信息需求的不断增长,计算机所能处理的信息媒体范围迅速扩大,不仅要求能对图像、视频和声音等媒体进行简单的基于文本的检索,而且要对多媒体数据的内容进行语义分析,以达到更深的检索层次,满足不同层次的检索需求。传统的基于文本的多媒体信息检索已经不能完全满足用户的要求,基于内容的多媒体检索技术成为当前多媒体信息检索的研究热点。因此,对这两种多媒体检索技术进行比较分析,为确定未来多媒体信息检索发展方向提供一定的借鉴。
1.传统基于文本的多媒体检索
1.1基于文本的多媒体检索的原理
由于早期信息检索处理的对象只有文本,所以基于文本的多媒体信息检索技术便应运而生,并且仍然是当前最基本、最常用的一种多媒体信息检索方式。这种基于文本的信息检索技术首先对多媒体进行人工分析,并抽取反映该多媒体物理特性(拍摄方式、载体规格和文件大小等)和内容特性(责任者、代表多媒体内容的关键词或主题词等)的文本信息,然后对这些文本信息按照学科领域进行分类,或提取关键字进行文字著录或标引,建立类似于文本文献的标引著录数据库,从而将对多媒体信息的检索转变成对文本信息的检索。在这种检索方式中,通过数据库中的关键字段与多媒体建立链接,从而通过检索数据库中的关键文本字段来获取多媒体信息。这种方式的检索具体可以采用四种途径进行检索:
a)利用文件扩展名和超文本标识。如图像文件的”.bmp” 、”.gif”、”.tif” 、”.jpg”、视频文件的”.avi”、”.mov” 、”.mpeg”、声音文件的”.wav”、”.mp3” 、”.mid”等。用这种方法只能保证检索到的结果是含有该格式的文件,而检索结果的内容则可能由于文件名的不同而由差别。
b)将多媒体文件名和文字解说中带有的媒体信息作为关键词。
c)多媒体所在网页的标题或多媒体数据附近的文本。标题往往能反映网页的内容,通过这些关键词也能得到检索结果。
d)人工选择或指定的某些多媒体信息内容的关键词。由人工搜集、分类和标引有关多媒体资料,检索时按照既定的类别和关键词搜索所需多媒体信息。这
种检索质量和效率都比较高,但费用也较高。
1.2 基于文本的多媒体检索的局限性
基于文本的多媒体信息的检索纯粹是以多媒体信息的外部特征作为检索入口,无法表达和揭示多媒体信息的实质内容和语义信息。归纳起来,基于文本的多媒体信息检索有以下不足:
a)在使用全文检索技术对多媒体信息进行检索之前,先要对搜集到的所有媒体信息进行人工关键字标引,人工注释要求大量的人力,尤其是大型多媒体信息库;
b)多媒体信息数据量大,人工注释难以涵盖蕴藏在多媒体数据中所有的内容信息;
c)多媒体信息制作者的文化背景不同、专业知识迥异,这样使得取自其标题的文本信息与多媒体信息的真实内容不符;
d)人工注释难以避免对多媒体信息内容描述的主观性;
e)对于视频和音频等时基媒体的处理,手工处理是完全不可行的,必须用计算机进行实时的内容分析。
2.基于内容的多媒体检索的原理与特点
2.1 基于内容的多媒体检索的原理
基于内容的多媒体信息检索是根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据库中进行检索,主要是利用多媒体对象的语义、视觉和听觉特征来进行检索,如图像中的颜色、纹理、形状,视频中的镜头、场景、运动,声音中的音调、响度、音色等。基于内容的检索是多媒体研究中的新兴热点,它突破了传统的基于文本检索技术的局限。在组织多媒体信息时,组织者根据媒体的内容特征进行分析,建立基于内容的特征库,并与实际多媒体数据联系起来,这个过程是由系统事先完成的,即在交给用户使用之前,系统已经建立了媒体库和特征库。当用户检索时,系统一方面接受用户规定的图像、视频和音频等内容特征信息(即用户的检索提问),另一方面接受特征信息索引库中的特征信息,然后进行两者之间的匹配,以找出符合用户需求的多媒体信息。
以上检索过程是完全以计算机为中心,因此使得一些检索结果不能完全满足用户的要求,即检索结果中有一些计算机认为是相似的,而人却认为是不相似的,因为计算机视觉技术、智能化水平与人比起来,还相差很远。多媒体信息检索技术的最终用户是人,为了解决这些问题,应该允许用户从检索结果中挑选出一些自己比较满意或不满意的媒体信息,或选择其它特征提取方法和匹配方法进行再次检索,也可以在检索结果中选择某个最相似结果作为进一步检索的示例,
因为该结果可能更能表达用户的想法。
2.2 基于内容的多媒体检索的特点
2.2.1 直接从多媒体内容中提取信息线索
基于内容的多媒体信息检索不受传统的基于文本检索的限制,可直接对图像、视频、音频进行分析,从中提取内容特征,然后利用这些特征建立索引并进行检索,使得检索更加接近媒体对象。多媒体信息的语义描述的特征提取是由计算机自动实现,融合了图像理解、模式识别、计算机视觉、认知科学、人工智能等技术,不需要过多的人工干预,节省了人力。而且利用多媒体自身的特征(如颜色、纹理、音色、音质等)进行检索,具有较强的客观性。
2.2.2 基于内容的检索是一种相似性检索
与常规数据库检索中的精确匹配方法不同,基于内容的检索得到的结果通常是不确定的。基于内容的检索采用近似匹配或局部匹配的方法和技术,逐步求精以获得查询和检索结果。在检索过程中,每次得到的结果是一个集合区域,不断缩小这个区域的范围,直到确定目标。这样,避免了因采用传统检索方法所带来的不确定性。
2.2.3 采用示例查询的提问方式
对一些很难描述其特征的多媒体信息进行查询时,用户可以通过浏览的方式,选择系统提供的实例作为查询条件,然后再通过不断修改实例最终找到匹配目标。
2.2.4 能满足多层次的检索要求
基于内容的多媒体信息检索系统通常由媒体库、特征库和知识库组成。媒体库包含多媒体数据,如文本、图像、视频、音频等;特征库包含用户输入的客观特征和预处理自动提取的内容特征;知识库包含专门和综合性知识,其中的知识表达可以更新和替换,目的是为了将检索限定在一定的领域范围内,这样有利于优化查询和快速匹配。利用这些库可以满足多层次的检索要求。
3.基于内容的多媒体检索与基于文本的多媒体检索的区别
基于内容的多媒体检索区别于传统的基于文本检索,就是直接对多媒体图像、音频、视频内容进行分析,抽取多媒体内容的特征和语义建立索引、进行检索,即利用媒体对象的语义、视觉特征、听觉特征和文本信息来进行检索。这种检索摈弃了传统数据库检索中的精确匹配方法,通过采用相似性匹配的方法获得检索结果。它通过多个属性来逐级描述结果的范围,以不断缩小查询,利用相似性匹配的方式达到逐步求精。同时它还要求对检索结果进行集合限制,如果不给出限制则难以达到快速检索和实用的目的,可能出现”似是而非”的结果。检索结
果按照相似性从大到小顺序通过查询接口返回给用户。
因篇幅问题不能全部显示,请点此查看更多更全内容