工业和信息化部主管 中国电子报社主办
收藏本站 投稿

人工智能

上海人工智能实验室联合商汤科技与高校共同发布通用视觉技术体系“书生”

11月17日,上海人工智能实验室联合商汤科技SenseTime、香港中文大学、上海交通大学共同发布新一代通用视觉技术体系“书生”(INTERN),该体系旨在系统化解决当下人工智能视觉领域中存在的任务通用、场景泛化和数据效率等一系列瓶颈问题。目前技术报告INTERN: A New Learning Paradigm Towards General Vision已在arXiv平台发布,基于“书生”的通用视觉开源平台OpenGVLab也将在明年年初正式开源,向学术界和产业界公开预训练模型及其使用范式、数据系统和评测基准等。OpenGVLab将与上海人工智能实验室此前发布的OpenMMLabOpenDILab一道,共同构筑开源体系OpenXLab,助力通用人工智能的基础研究和生态构建。


上海人工智能实验室联合商汤科技、香港中文大学、上海交通大学共同发布新一代通用视觉技术体系“书生”(INTERN)

任务通用和数据学习效率是制约当前人工智能发展的核心瓶颈问题。根据相关技术报告,一个“书生”基模型即可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务。在ImageNet等26个最具代表性的下游场景中,书生模型广泛展现了极强的通用性,显著提升了这些视觉场景中长尾小样本设定下的性能。

相较于当前最强开源模型(OpenAI 于2021年发布的CLIP),“书生”在准确率和数据使用效率上均取得大幅提升。具体而言,基于同样的下游场景数据,“书生”在分类、目标检测、语义分割及深度估计四大任务26个数据集上的平均错误率分别降低了40.2%、47.3%、34.8%和9.4%。“书生”在数据效率方面的提升尤为令人瞩目:只需要1/10的下游数据,就能超过CLIP[5]基于完整下游数据的准确度,例如在花卉种类识别FLOWER任务上,每一类只需两个训练样本,就能实现99.7%的准确率

随着人工智能赋能产业的不断深入,人工智能系统正在从完成单一任务向复杂的多任务协同演进,其覆盖的场景也越来越多样化。在自动驾驶、智能制造、智慧城市等众多的长尾场景中,数据获取通常困难且昂贵,研发通用人工智能模型,对于降低数据依赖尤为重要。而突破“工业应用红线”的模型,需满足同时完成多任务、覆盖大量长尾场景,且基于下游小样本数据进行再训练等要求。上海人工智能实验室、商汤科技、港中文以及上海交大联合推出的“书生”通用视觉技术体系,体现了产学研合作在通用视觉领域的全新探索,为走向通用人工智能迈出坚实的一步。借助“书生”通用视觉技术体系,业界可凭借极低的下游数据采集成本,快速验证多个新场景,对于解锁实现人工智能长尾应用具有重要意义。


书生(INTERN)在分类、目标检测、语义分割、深度估计四大任务26个数据集上,基于同样下游场景数据(10%),相较于最强开源模型CLIP-R50x16,平均错误率降低了40.2%,47.3%,34.8%,9.4%。同时,书生只需要10%的下游数据,平均错误率就能全面低于完整(100%)下游数据训练的CLIP。

“当前发展通用视觉的核心,是提升模型的通用泛化能力和学习过程中的数据效率。面向未来,‘书生’通用视觉技术将实现以一个模型完成成百上千种任务,体系化解决人工智能发展中数据、泛化、认知和安全等诸多瓶颈问题。”上海人工智能实验室主任助理乔宇表示。

商汤科技研究院院长王晓刚表示,“‘书生’通用视觉技术体系是商汤在通用智能技术发展趋势下前瞻性布局的一次尝试,也是SenseCore商汤AI大装置背景下的一次新技术路径探索。‘书生’承载了让人工智能参与处理多种复杂任务、适用多种场景和模态、有效进行小数据和非监督学习并最终具备接近人的通用视觉智能的期盼。希望这套技术体系能够帮助业界更好地探索和应用通用视觉AI技术,促进AI规模化落地。”




阶梯式学习:七大模块打造全新技术路径





书生(INTERN)技术体系可以让AI模型处理多样化的视觉任务




通用视觉技术体系“书生”(INTERN)由七大模块组成,包括通用视觉数据系统、通用视觉网络结构、通用视觉评测基准三个基础设施模块,以及区分上下游的四个训练阶段模块。

书生作为中国古代读书人的经典形象,代表着一个通过不断学习、不断成长进而拥有各方面才能的人格化角色:从基础的知识技能学习开始,到对多种专业知识触类旁通,进而成长为拥有通用知识的通才。将全新的通用视觉技术体系命名为“书生”,意在体现其如同书生一般的特质,可通过持续学习,举一反三,逐步实现通用视觉领域的融会贯通,最终实现灵活高效的模型部署。

当前的AI系统开发模式下,一个AI模型往往只擅长处理一项任务,对于新场景、小数据、新任务的通用泛化能力有限,导致面对千变万化的任务需求时,须独立开发成千上万种AI模型。同时,研究人员每训练一个AI模型,都需构建标注数据集进行专项训练,并持续进行权重和参数优化。这种低效的学习训练方法,导致人力、时间和资源成本居高不下,无法实现高效的模型部署。

“书生”的推出能够让业界以更低的成本获得拥有处理多种下游任务能力的AI模型,并以其强大的泛化能力支撑智慧城市、智慧医疗、自动驾驶等场景中大量小数据、零数据等样本缺失的细分和长尾场景需求。


通用视觉技术体系“书生”(INTERN)由七大模块组成,包括3个基础设施模块、4个训练阶段模块



持续成长:“四阶段”提升通用泛化



在“书生”(INTERN)的四个训练阶段中,前三个阶段位于该技术链条的上游,在模型的表征通用性上发力;第四个阶段位于下游,可用于解决各种不同的下游任务。

第一阶段,着力于培养“基础能力”,即让其学到广泛的基础常识,为后续学习阶段打好基础;第二阶段,培养“专家能力”,即多个专家模型各自学习某一领域的专业知识,让每一个专家模型高度掌握该领域技能,成为专家;第三阶段,培养“通用能力”,随着多种能力的融会贯通,“书生”在各个技能领域都展现优异水平,并具备快速学会新技能的能力。

在循序渐进的前三个训练阶段模块,“书生”在阶梯式的学习过程中具备了高度的通用性。当进化到第四阶段时,系统将具备“迁移能力”,此时“书生”学到的通用知识可以应用在某一个特定领域的不同任务中,如智慧城市、智慧医疗、自动驾驶等,实现广泛赋能。



产学研协同:开源共创通用AI生态



作为AI技术的下一个重大里程碑,通用人工智能技术将带来颠覆性创新,实现这一目标需要学术界和产业界的紧密协作。上海人工智能实验室、商汤科技、港中文以及上海交大未来将依托通用视觉技术体系“书生”(INTERN),发挥产学研一体化优势,为学术研究提供平台支持,并全面赋能技术创新与产业应用。

明年年初,基于“书生”的通用视觉开源生态OpenGVLab将正式开源,向学术界和产业界公开预训练模型使用范式数据库等,而全新创建的通用视觉评测基准也将同步开放,推动统一标准上的公平和准确评测。OpenGVLab将与上海人工智能实验室此前发布的OpenMMLab、OpenDILab一道,共同构筑开源体系OpenXLab,持续推进通用人工智能的技术突破和生态构建。

责任编辑:徐恒


声明

1、本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2、本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3、作者投稿可能会经我们编辑修改或补充;4、如本站的文章或图片存在版权,请拨打电话010-88558835进行联系,我们将第一时间处理。

相关链接

视频

专题

2021年上半年中国家电市场报告

8月9日,中国电子信息产业发展研究院(又称赛迪研究院)发布了《2021年上半年中国家电市场报告》(以下简称《报告》)。《报告》显示,2021年上半年,我国家电市场加速回暖,零售额达4293亿元,同比增长16.3%;家电消费进一步向线上迁移,电商渠道对家电零售的贡献率达53.65%;家电产品均价普遍提升,高端家电销售热度不减,有效促进了消费升级...

新思想引领新征程·红色足迹

党的十八大以来,习近平总书记在地方考察调研时多次到访革命纪念地,强调要从中国革命历史、优良传统和精神中汲取养分。追寻红色足迹,感悟初心使命。即日起,本报推出“新思想引领新征程·红色足迹”专栏,跟随习近平总书记的红色足迹,访当事人、忆当年事,重温总书记的重要论述和重要指示精神,生动回顾红色圣地光荣的革命历史、优秀的革命传统...

聚焦2021年全国两会

3月5日,第十三届全国人民代表大会第四次会议在北京人民大会堂开幕。党和国家领导人习近平、李克强、汪洋、王沪宁、赵乐际、韩正、王岐山等出席,栗战书主持大会。初春的北京,处处生机盎然。第十三届全国人民代表大会第四次会议5日上午在人民大会堂开幕。近3000名全国人大代表肩负人民重托出席大会,认真履行宪法和法律赋予的神圣职责。

2021年全国工业和信息化工作会议

12月28-29日,全国工业和信息化工作会议在京召开。会议以习近平新时代中国特色社会主义思想为指导,全面贯彻党的十九大和十九届二中、三中、四中、五中全会精神,认真落实习近平总书记重要指示批示精神和中央经济工作会议部署,总结2020年工业和信息化工作,分析形势,部署2021年重点工作。工业和信息化部党组书记、部长肖亚庆作工作报告。

世界超高清视频(4K/8K)产业发展大会

会议

2021世界VR产业大会云峰会

10月19日—20日,由工业和信息化部和江西省人民政府共同主办的2021世界VR产业大会云峰会在南昌举办。国务委员王勇出席大会开幕式并发表讲话,江西省委书记易炼红,工业和信息化部副部长王志军,江西省委常委、南昌市委书记李红军出席开幕式并致辞。

2021世界显示产业大会

6月17日,由工业和信息化部、安徽省人民政府共同主办的2021世界显示产业大会在合肥市开幕。安徽省委书记李锦斌出席开幕式并宣布大会开幕,安徽省省长王清宪、上海合作组织秘书长弗拉基米尔·诺罗夫、工业和信息化部副部长王志军出席开幕式并先后致辞。

2021世界超高清视频(4K/8K)产业发展大会

5月8日-10日,由工业和信息化部、国家广播电视总局、中央广播电视总台、广东省人民政府共同主办的2021世界超高清视频(4K/8K)产业发展大会在广州召开。5月9日,广东省委书记李希出席开幕式,工业和信息化部部长肖亚庆、广东省省长马兴瑞、国家广播电视总局副局长孟冬、中央广播电视总台编务会议成员姜文波出席开幕式并致辞。

CITE2021第九届中国电子信息博览会开幕论坛

4月9日,第九届中国电子信息博览会(简称CITE2021)在深圳举办。深圳市人民政府市长陈如桂、广东省人民政府副秘书长陈岸明、工业和信息化部电子信息司司长乔跃山出席开幕式并先后致辞。

2020世界显示产业大会

11月20日,由工业和信息化部、安徽省人民政府共同主办的2020世界显示产业大会在合肥市举行。在开幕式上,工业和信息化部部长肖亚庆、韩国驻华大使张夏成发表视频致辞。安徽省委副书记、省长李国英,工业和信息化部副部长王志军出席开幕式并致辞。

2020世界超高清视频(4K/8K)产业发展大会

11月2日,由工业和信息化部、国家广播电视总局、中央广播电视总台、广东省人民政府共同主办的2020世界超高清视频(4K/8K)产业发展大会在广州市召开。广东省委书记李希出席开幕式,省长马兴瑞出席并致辞。国家广播电视总局局长聂辰席、工业和信息化部副部长王志军、中央广播电视总台副台长蒋希伟出席开幕式并致辞。

世界显示产业大会

本周排行