工业和信息化部主管 中国电子报社主办
收藏本站 投稿

人工智能

视觉大模型会成为下一个风口吗?

计算机视觉正在迈入“大模型时代”。前不久,来自UC伯克利计算机视觉领域的三位知名学者(Trevor Darrell、Jitendra Malik、Alexei A. Efros)联手推出了第一个无自然语言的纯视觉大模型(Large Vision Models),并第一次证明了纯视觉模型本身也是可扩展的(scalability)。随后,谷歌、微软等国际大厂公布了对视觉大模型的探索,国内百度、华为、商汤、智源、中国电信、美图等多家公司也都展示了相关布局。继自然语言大模型之后,视觉大模型会成为下一个风口吗?

视觉大模型的训练难度更高

也许很多人会疑问:在遍地都是大模型的今天,训练出一个优质的视觉大模型很难吗?随着大语言模型的爆发,不管是学术界还是业界,都开始尝试使用“文本”来扩大视觉模型的规模。以“苹果”为例,在训练时只需给模型看“苹果”的照片,并配上描述性的文字告诉模型“这是一个苹果”。然而,在面对更加复杂的图片时,就很容易忽略其中大量的信息,造成错误理解。比如,一面镜子中倒映的车辆可能会被模型误判为真实车辆。

“相比于大语言模型,视觉信息一般都是2维(图像)、3维(立体图像)或者4维(立体视频)信息,比语言信息多了1-3个维度,难度等级呈指数增长。”一位深耕AI深度学习的专家说道。

业内人士普遍认为,视觉并非自然语言,作为基本视觉单元的像素距离高层语义更远,找不到像“单词”这样离散化、符号化的基本语义单元,因此简单地借鉴预训练语言模型的实现方法恐难奏效。


图为视觉句子使我们能够将各种视觉数据格式化为图像序列的统一结构.jpg

视觉句子使我们能够将各种视觉数据格式化为图像序列的统一结构

赛迪顾问人工智能产业研究中心常务副总经理邹德宝向记者介绍说道:“视觉大模型是一种利用深度学习技术来进行图像或视频处理的算法模型。它的基本原理是基于神经网络,通过大规模的训练数据集和高性能的计算硬件,实现对图像信息的高效处理和理解。”

与语言模型相比,视觉模型的数据更难获取。对于语言模型来说,语言数据对所有数据都有一个自然的、统一的一维结构——文本流,获得大量的、多样化的大数据集相对而言是件很容易的事,所以目前市面上的语言大模型动辄就是成千上万亿的参数规模。

然而在计算机视觉领域,不同的数据源都有不同的结构,想要拥有同样规模和多样性的数据源非常困难。华为云人工智能首席科学家田奇表示,视觉模型提取特征可能是百倍、千倍的工作量,信息密度非常低。花费的成本、数据存储等开销巨大。

除了数据获取难,视觉大模型的训练框架也是一大难点。大华股份先进技术研究院院长殷俊表示,在视觉领域没有可参照的模型架构,和现在大众认知的AGI、AIGC技术方向存在差异,在CV(Computer Vision计算机视觉)领域完全靠自己搭建。

“如何处理更复杂的图像信息,获取高分辨率的图像并让机器识别图像各要素,这些技术难点不解决,很难打造出一个优质的视觉大模型。”邹德宝坦言。

或将在工业制造场景率先落地

近年来,伴随制造业加速转型升级,智能制造已经成为人工智能技术在工业领域中最典型的应用之一。据中国电子信息产业发展研究院信息化与软件产业研究所数字经济战略研究室主任高婴劢介绍,人工智能技术能够帮助机器通过图像学习、声音识别、感知监测等方式,快速、准确地检测产品,在减少人工质检成本、提升产品质量和生产效益方面的作用显著,在手机、家电、汽车等离散制造行业质检环节中的应用渐成规模。

视觉大模型或将率先落地在工业制造领域。宁德时代首席制造官倪军曾提出“极限制造”的概念。他表示,工业领域做到6σ(每百万个产品里头有一两个不良品)远远不够,而是需要做到9σ-12σ,即对不良品的要求上升到十亿级,每十亿个产品当中,只允许出现1-3个不良品,这对机器视觉厂商是个极大的挑战。而如今有了视觉大模型的助力,“极限制造”或许有机会走进现实。

图为Meta开源DINOv2视觉大模型.jpg

Meta开源DINOv2视觉大模型

事实上,很多工业制造场景都为视觉大模型提供了落地的可能。试想一下,如果给智能网联汽车配备上视觉大模型,困扰自动驾驶多年的视觉感知问题可能会迎刃而解。具备强大的图像处理和识别能力的视觉大模型,可以更为精准地识别车辆、行人、车道线等道路元素,并处理城市道路、高速公路、雨雪天气等更加复杂的场景和环境,从而提高自动驾驶车辆在各种场景下的适应性和鲁棒性。智能网联汽车将会迎来更多可能性。

如果让工业机器人搭载上视觉大模型,它可以模仿人类视觉系统的工作原理,对视觉数据进行更为精准的处理和分析,进一步破解工业机器人操作和控制“精度”的难题,还能不断进行学习成长,让工业机器人加速走向“具身智能”,也让智能制造迈上新的台阶。

再比如在工业质检领域,产品质检涉及到大量数据和复杂的图像、声音、视频等信息,要求模型能够准确地识别和分析各种缺陷和问题,甚至是微小的变化。用工业知识和工业数据训练出来的视觉大模型可以捕捉到产线上工艺流程和设备运行等细节,大幅提升工业质检的效率与水平。

不过,现阶段来看,视觉大模型在工业领域的应用仍处于早期阶段,落地还面临很多挑战。例如,视觉大模型的训练和部署需要大量的数据和计算资源,而这在某些工业环境中可能难以满足。工业数据敏感性高、特殊性强,对大量实时数据、多种类型数据、异常数据的处理和分析,是一项异常复杂的工作,同时数据安全保护也是一大难题。此外,视觉大模型的准确性、稳定性和可靠性也需要在实际应用中进行不断地验证和优化。

视觉大模型要追求“大一统”?

“在视觉模型设计领域中,追求大和统一,已经成为当下公认的重要研究方向。”旷视研究院主任研究员张祥雨表示。在他看来,构建大而通用的模型的好处在于“大反而简单”。

所谓的“大”,不仅指模型更深(越深的神经网络具有越多的参数、越强的非线性,可以建模更加复杂的任务),更加强调利用更多的数据和算力帮助人们解决通用问题,期望用统一的模型解决多个模态、多个任务。

除了“大”,“统一”也是一个研究方向。追求通用框架的意义在于可以大规模地从数据中学习知识,无需针对每个任务单独设计一套系统,避免引入大量人工,可扩展性强。从宏观的角度来说,想要解决通用人工智能问题,首先需要实现模型的规模化扩展。

“尽管‘大’是未来模型发展的趋势,但我们并不片面地追求更大的参数量和计算。同样地,我们也不应该简单追求形式上的‘统一’,更应关注统一带来的性能收益。我们希望设计出更强大的模型,以创新算法充分发挥大数据、大算力的威力,随着参数量、训练算法的提升在某个时间点上获得性能的质变,即‘涌现’。”张祥雨表示。

虽然视觉大模型能为机器学习带来更广泛的应用场景和更高的表现能力已成共识,但广东工业大学教授蔡念表示,这需要海量的数据支撑,企业如果想用好大模型,就要不断挖掘工业制造数据,为大模型提供足够的训练数据来源,此外还需要考虑参数和算力的问题。这些要求对于大企业而言问题不大,但巨大的成本是很多中小型企业难以负担的。

蔡念认为,此时不如考虑小模型和轻量化大模型。智能制造场景化、碎片化明显,这就需要专注于特定领域进行训练,进行不同场景的模型定制化,最终形成某一领域的通用模型。这意味着,机器视觉的理想未来,是在复杂的应用场景中打造标准化的应用方案。

责任编辑:宋婧


声明

1、本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2、本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3、作者投稿可能会经我们编辑修改或补充;4、如本站的文章或图片存在版权,请拨打电话010-88558835进行联系,我们将第一时间处理。

相关链接

视频

专题

2023中国电子报编辑选择奖

12月26日,“2023中国电子报编辑选择奖”获奖名单正式出炉。本次评选采用企业自荐和编辑推荐两种方式,综合考量影响力、创新性、成长性等多个维度,围绕企业、技术、产品、解决方案等赛道评出20个奖项。

2024年全国工业和信息化工作会议

12月21日,全国工业和信息化工作会议在京召开。会议坚持以习近平新时代中国特色社会主义思想为指导,全面贯彻党的二十大和二十届二中全会精神,深入学习贯彻习近平总书记关于新型工业化的重要论述,认真落实中央经济工作会议和全国新型工业化推进大会部署要求,总结2023年工作,部署2024年任务。

深入学习贯彻党的二十大精神·工信系统在行动

当前,全国工业和信息化系统正进一步深入学习党的二十大精神,将二十大精神贯彻落实到具体举措和实际行动。为深入学习宣传贯彻党的二十大精神,中国电子报推出“深入学习贯彻党的二十大精神·工信系统在行动”专栏,通过调研采访报道各地贯彻落实党的二十大精神的具体举措、典型案例,反映各地实干担当、求真务实的精神风貌。敬请关注。

学习贯彻习近平新时代中国特色社会主义思想主题教育

学习贯彻习近平新时代中国特色社会主义思想主题教育开展以来,全国工信系统牢牢把握“学思想、强党性、重实践、建新功”的总要求,多措并举扎实推进主题教育高质量开局、高标准起步。

聚焦2023年全国两会

北京3月5日电 第十四届全国人民代表大会第一次会议5日上午在北京人民大会堂开幕。近3000名新一届全国人大代表肩负人民重托出席盛会,认真履行宪法和法律赋予的神圣职责。

世界超高清视频(4K/8K)产业发展大会

会议

2023全球数字贸易创新大赛

11月22—23日,2023全球数字贸易创新大赛总决赛在杭州举行。大赛是第二届全球数字贸易博览会重要活动之一,今年为首次举办。大赛设置人工智能元宇宙和区块链Web3.0两个赛道,吸引了近200家优秀企业及项目团队参与,其中,100余家入围半决赛,24家进入总决赛。

2023世界VR产业大会

10月19日,由工业和信息化部、江西省人民政府共同主办的2023世界VR产业大会在江西南昌开幕。江西省委书记、省人大常委会主任尹弘,工业和信息化部副部长徐晓兰,江西省委常委、南昌市委书记李红军出席开幕式并致辞。开幕式由江西省委副书记、省政府省长叶建春主持。

2023世界显示产业大会

9月7日-8日,由四川省人民政府、工业和信息化部主办的2023世界显示产业大会在四川省成都市召开。四川省委副书记、省长黄强,工业和信息化部党组成员、副部长张云明,重庆市政府党组成员、副市长江敦涛,德国联邦经济发展和对外贸易协会主席米夏埃尔·舒曼出席开幕式并先后致辞。

2023世界超高清视频产业发展大会

5月8日-10日,由工业和信息化部、国家广播电视总局、中央广播电视总台、广东省人民政府共同主办的2023世界超高清视频产业发展大会在广州召开。5月9日,广州市委副书记、市长郭永航,中央广播电视总台副台长胡劲军,国家广播电视总局副局长朱咏雷,工业和信息化部总工程师赵志国,广东省委副书记、省长王伟中出席开幕式并先后致辞。

2022世界集成电路大会

11月17日,由工业和信息化部、安徽省人民政府共同主办的2022世界集成电路大会在安徽省合肥市召开。安徽省委书记、省人大常委会主任郑栅洁出席会议。安徽省委副书记、省长王清宪,工业和信息化部党组成员、副部长王江平出席开幕式并致辞。

世界显示产业大会

本周排行