武汉大学计算机学院在国际权威多媒体分析检索大赛中取得八项第一
- 发布日期:2015-11-04 09:14:16
- 阅读次数:[9996]次
- 作者:
在刚刚结束的国际视频分析与检索技术评测TRECVID2015中,由武汉大学计算机学院院长胡瑞敏教授所领衔的国家多媒体软件工程技术研究中心(NERCMS)团队在实例检索任务(Instance Search Task)中取得佳绩,在30个官方规定的检索目标中有8个目标的检索准确率位居第一名。
随着计算机技术的普及和互联网应用的飞速发展,用户可以访问到的音频,图像和视频等多媒体信息不断增加。如何有效地从多媒体大数据中快速、准确地检索出人们真正需要的信息,已经成为影响人们日常生活、工作和学习的一个瓶颈问题。但是,由于多媒体信息(尤其是音频、图像和视频等)自身所固有的非结构化特点,传统的文本搜索方式已经难以满足人们对多媒体信息检索的需要。不同于传统的文本标签技术,基于内容的多媒体检索技术为人们提供了一种新的途径,通过寻找和比对鲁棒的媒体内容特征,人们将有可能从媒体大数据中找到真正需要信息。在此背景下,美国国家标准技术研究所(NIST)与2001年开始组织实施了面向视频检索的国际性评测TRECVID,至今已经连续举办15届。历年的Trecvid评测都会向参评的世界各知名高校和科研院所发布标准测试数据,参评者用这些标准测试数据测试自己设计的算法,并在规定时间内向组委会提交自己算法的运行结果,然后由美国国家标准技术研究所对提交结果进行评价和比较。今年TRECVID2015比赛共吸引了来自世界各地共69支队伍报名参赛,包括国内的一些知名科研院校以及一些世界著名科研机构(如卡内基梅隆大学、IBM研究院等)。
武汉大学NERCMS团队所参加的是TRECVID2015中的实例检索任务(INstance Search task, INS)。该任务旨在从海量视频数据(TB级)中检索出给定的30个特定目标(topic),这些目标包括人、车、物等(见图1)。由于检索目标大小不一,种类繁多,背景干扰大,因此对检索算法的性能和效果是个极大的考验。为此,NERCMS团队基于经典的图像检索框架,提出了检索目标自适应的相似性度量方法。配合多源跨模态信息,如文本、人脸和车辆等,来综合得到初始的检索结果。在此基础上,团队进一步利用视频连续帧之间存在的时序关联特性,通过对相邻视频镜头的查询扩展来进一步优化初始检索结果,提高算法准确率。根据NIST反馈的官方报告,在所有30个检索目标中,NERCMS所提交的结果在8个目标上准确率位居世界第一,整体总分位列INS项目全球第四名,超过日本NTT、澳大利亚昆士兰大学(UQ)、德国康姆尼斯工业大学(TUC)等世界知名研究机构。
作为武汉大学唯一代表团队,今年是NERCMS团队第三次参加此项比赛。相较于大多数TRECVID参赛单位,NERCMS团队虽然起步较晚,但是进步明显。与自身相比,NERCMS团队今年在INS任务上的检索准确率为0.367,较之2013年第一次参赛时的0.0063,成绩整整提高了58倍,使武汉大学在较短的时间内就成功跻身日本国立情报学研究所(NII)、香港城大(CityU)等视频检索领域世界一流的科研梯队。相关技术已经运用在面向监控视频的特定目标检索中,并多次在实际案例中发挥了重大作用,极大地提高了视频监控中针对特定嫌疑目标的排查效率,对维护人民生命财产安全具有重大的意义。
参加本次比赛的NERCMS团队成员全部来自武汉大学计算机学院,包括五名研究生(王正,叶茫,姚磊,刘俊,黄冰月)和两名本科生(柳东静,刘涛)。团队指导老师是胡瑞敏教授、陈军教授和梁超老师。
图1:部分检索目标示例和算法结果。四个检索目标分别是“这盏灯”、“调味盒”、“这只狗”、“这辆车”。红色方框表示查询目标,绿色方框表示检索到的目标位置。