视觉Transformer模型及应用前沿进展

| 学术论坛-视觉Transformer模型及应用前沿进展

基本信息

论坛形式：研讨会
论坛时长：2小时
承办专委会：机器视觉专业委员会

论坛介绍

基于Transformer的视觉模型近年来受到研究者越来越多的关注。在本论坛中，五位演讲嘉宾将介绍其研究团队近年来在构建Transformer模型和理论方面的众多研究进展，即面向统一的AI模型架构和学习方法、基于Transformer的视频内容理解、基于Transformer的目标跟踪算法探索、Vision Transformer在目标重识别中的应用、视觉Transformer卷积嵌入层的演进等。本论坛将为Transformer在AI领域的发展和应用提供有益的讨论和建议。

论坛主席

张平平
大连理工大学

个人简介：张平平，大连理工大学人工智能学院副教授，硕士生导师，研究方向包括计算机视觉与深度学习。在本领域国际顶级会议和期刊(CVPR/ICCV/ECCV/TPAMI/TIP/TOG等)发表论文20余篇，目前谷歌学术引用3000余次。主持或参与国家自然科学基金、开放课题等多项科研项目。目前为中国图象图形学学会、中国人工智能学会、中国计算机学会、中国电子学会等专委会会员，并担任多个国际顶级SCI期刊和会议审稿人。荣获2020年度中国图象图形学会优秀博士论文、辽宁省优秀博士论文。

报告嘉宾

胡瀚
微软亚洲研究院

报告题目：面向统一的AI模型架构和学习方法

讲者简介：胡瀚，微软亚洲研究院视觉计算组首席研究员，于2004-2014年在清华大学自动化系就读，先后获得学士、硕士和博士学位，曾获2016年中国人工智能学会优秀博士论文奖。2012年10月至2013年4月在美国宾夕法尼亚大学访问学习，师从史剑波教授。曾就职于百度研究院深度学习实验室（IDL）。目前主要研究兴趣包括视觉模型架构、视觉自监督表征学习和视觉语言联合学习等，是Swin Transformer系列、关系网络系列，可变形卷积系列的作者，其中Swin Transformer获得ICCV2021马尔奖（最佳论文）。担任CVPR2021/2022的领域主席，谷歌学术引用累计11000余次。

吴祖煊
复旦大学

报告题目：基于Transformer的视频内容理解

讲者简介：吴祖煊，复旦大学计算机科学技术学院青年副研究员。2020年在美国马里兰大学获得博士学位。主要研究方向为计算机视觉、深度学习与多媒体内容分析。曾获得2021年AI 2000最具影响力学者提名奖、2019年微软博士奖学金、2017年Snap博士奖学金。带领团队在多项国际比赛中名列前茅，如2018年阿里巴巴FashionAI全球挑战赛服饰关键点定位第四名、2017年谷歌 YouTube视频识别比赛、2014年ICME华为手机视频识别大赛等。担任国际知名期刊审稿人、国际会议程序委员会委员。谷歌学术引用累计约4300次。

王栋
大连理工大学

报告题目：基于Transformer的目标跟踪算法探索

讲者简介：王栋，大连理工大学信息与通信工程学院教授、副院长、博士生导师，国家“优秀青年科学基金”获得者。研究方向为视觉跟踪。在本领域国际顶级会议和期刊(CVPR/ICCV/ECCV/TPAMI/TIP等)发表论文40余篇,谷歌学术引用5000余次。主持国家自然科学基金面上项目、青年项目等多项科研项目。荣获国际视觉目标跟踪竞赛VOT冠军(5次),CCF自然科学二等奖(排名第1),教育部自然科学二等奖(排名第2), CVPR2020最佳论文提名，辽宁省优秀博士论文提名奖等学术奖励。

罗浩
阿里巴巴达摩院

报告题目：Vision Transformer在目标重识别中的应用

讲者简介：罗浩，阿里巴巴达摩院算法专家，2020年博士毕业于浙江大学控制学院，后加入阿里巴巴达摩院，主要从事目标重识别、Transformer、自监督相关方向研究。发表论文20余篇，主要成果发表于CCF-A顶会和IEEE汇刊，谷歌学术引用累计1600余次，代表作BoT-ReID开源代码Star超1800次。曾多次获得CVPR、ECCV、IJCAI等会议的目标重识别挑战赛冠军。

郑志彤
OPPO

报告题目：视觉Transformer卷积嵌入层的演进

讲者简介：郑志彤，OPPO高级算法架构师，现任数智系统机器学习TMG主任、小布智能中心多模态学习负责人，促进小布从语音助手进化成多模态助手。2020年8月加入 OPPO，参加商业算法软件商店首页攻坚，贡献了千6AUC提升和2点多ARPU值提升；随后调入数智系统机器学习部，负责了端云协同的StarFire项目；之后又调入小布智能中心，负责多模态学习，短时间搭建了虚拟人算法团队和StarLite项目团队，启动了多模态预训练项目。在机器学习领域有十几年经验，对CV、NLP、音频、推荐系统等算法有深刻认知，对AI工程化有实操经验，十分关注通用智能的发展，多模态预训练是通用智能的关键一环。硕士毕业于清华大学，本科毕业于人民大学。

论坛日程

8月21日上午

| 学术论坛-视觉Transformer模型及应用前沿进展

联系我们

会议秘书：罗老师

电话：028-87555888

手机：13688349945

中国图象图形学学会
联系人：骆老师、王老师
电话：010-82544676
邮箱: ccig@csig.org.cn