视觉Transformer模型及应用前沿进展插图

| 学术论坛-视觉Transformer模型及应用前沿进展

基本信息

论坛形式:研讨会
论坛时长:2小时
承办专委会:机器视觉专业委员会

论坛介绍

基于Transformer的视觉模型近年来受到研究者越来越多的关注。在本论坛中,五位演讲嘉宾将介绍其研究团队近年来在构建Transformer模型和理论方面的众多研究进展,即面向统一的AI模型架构和学习方法、基于Transformer的视频内容理解、基于Transformer的目标跟踪算法探索、Vision Transformer在目标重识别中的应用、视觉Transformer卷积嵌入层的演进等。本论坛将为Transformer在AI领域的发展和应用提供有益的讨论和建议。

论坛主席

视觉Transformer模型及应用前沿进展插图1

张平平
大连理工大学

个人简介:张平平,大连理工大学人工智能学院副教授,硕士生导师,研究方向包括计算机视觉与深度学习。在本领域国际顶级会议和期刊(CVPR/ICCV/ECCV/TPAMI/TIP/TOG等)发表论文20余篇,目前谷歌学术引用3000余次。主持或参与国家自然科学基金、开放课题等多项科研项目。目前为中国图象图形学学会、中国人工智能学会、中国计算机学会、中国电子学会等专委会会员,并担任多个国际顶级SCI期刊和会议审稿人。荣获2020年度中国图象图形学会优秀博士论文、辽宁省优秀博士论文。

报告嘉宾

视觉Transformer模型及应用前沿进展插图2

胡瀚
微软亚洲研究院

报告题目:面向统一的AI模型架构和学习方法

讲者简介:胡瀚,微软亚洲研究院视觉计算组首席研究员,于2004-2014年在清华大学自动化系就读,先后获得学士、硕士和博士学位,曾获2016年中国人工智能学会优秀博士论文奖。2012年10月至2013年4月在美国宾夕法尼亚大学访问学习,师从史剑波教授。曾就职于百度研究院深度学习实验室(IDL)。目前主要研究兴趣包括视觉模型架构、视觉自监督表征学习和视觉语言联合学习等,是Swin Transformer系列、关系网络系列,可变形卷积系列的作者,其中Swin Transformer获得ICCV2021马尔奖(最佳论文)。担任CVPR2021/2022的领域主席,谷歌学术引用累计11000余次。

视觉Transformer模型及应用前沿进展插图3

吴祖煊
复旦大学

报告题目:基于Transformer的视频内容理解

讲者简介:吴祖煊,复旦大学计算机科学技术学院青年副研究员。2020年在美国马里兰大学获得博士学位。主要研究方向为计算机视觉、深度学习与多媒体内容分析。曾获得2021年AI 2000最具影响力学者提名奖、2019年微软博士奖学金、2017年Snap博士奖学金。带领团队在多项国际比赛中名列前茅,如2018年阿里巴巴FashionAI全球挑战赛服饰关键点定位第四名、2017年谷歌 YouTube视频识别比赛、2014年ICME华为手机视频识别大赛等。担任国际知名期刊审稿人、国际会议程序委员会委员。谷歌学术引用累计约4300次。

视觉Transformer模型及应用前沿进展插图4

王栋
大连理工大学

报告题目:基于Transformer的目标跟踪算法探索

讲者简介:王栋,大连理工大学信息与通信工程学院教授、副院长、博士生导师,国家“优秀青年科学基金”获得者。研究方向为视觉跟踪。在本领域国际顶级会议和期刊(CVPR/ICCV/ECCV/TPAMI/TIP等)发表论文40余篇,谷歌学术引用5000余次。主持国家自然科学基金面上项目、青年项目等多项科研项目。荣获国际视觉目标跟踪竞赛VOT冠军(5次),CCF自然科学二等奖(排名第1),教育部自然科学二等奖(排名第2), CVPR2020最佳论文提名,辽宁省优秀博士论文提名奖等学术奖励。

视觉Transformer模型及应用前沿进展插图5

罗浩
阿里巴巴达摩院

报告题目:Vision Transformer在目标重识别中的应用

讲者简介:罗浩,阿里巴巴达摩院算法专家,2020年博士毕业于浙江大学控制学院,后加入阿里巴巴达摩院,主要从事目标重识别、Transformer、自监督相关方向研究。发表论文20余篇,主要成果发表于CCF-A顶会和IEEE汇刊,谷歌学术引用累计1600余次,代表作BoT-ReID开源代码Star超1800次。曾多次获得CVPR、ECCV、IJCAI等会议的目标重识别挑战赛冠军。

视觉Transformer模型及应用前沿进展插图6

郑志彤
OPPO

报告题目:视觉Transformer卷积嵌入层的演进

讲者简介:郑志彤,OPPO高级算法架构师,现任数智系统机器学习TMG主任、小布智能中心多模态学习负责人,促进小布从语音助手进化成多模态助手。2020年8月加入 OPPO,参加商业算法软件商店首页攻坚,贡献了千6AUC提升和2点多ARPU值提升;随后调入数智系统机器学习部,负责了端云协同的StarFire项目;之后又调入小布智能中心,负责多模态学习,短时间搭建了虚拟人算法团队和StarLite项目团队,启动了多模态预训练项目。在机器学习领域有十几年经验,对CV、NLP、音频、推荐系统等算法有深刻认知,对AI工程化有实操经验,十分关注通用智能的发展,多模态预训练是通用智能的关键一环。硕士毕业于清华大学,本科毕业于人民大学。

论坛日程

8月21日上午

视觉Transformer模型及应用前沿进展插图7

//