2024收官大模型“大浪淘沙”-无锡职业技术学院信息化与数据服务中心

首页新闻动态

2024收官大模型“大浪淘沙”

发布时间：

2024-12-24

浏览次数：

盘点2024年的年度关键词，大模型是逃不掉的。这场科技圈的狂欢以前所未有的速度蔓延到了社会的边边角角，你以为大模型离你还远，实际上，出行交通、购物电商、亲子教育、医疗健康，人在社会的每个维度都被刻上了大模型的痕迹。大模型行业，发展到哪一步了？

停不下来的进化竞赛

相比“百模大战”时期，过去一年里，大模型公司的焦点有所偏移。一方面，大模型的想象力边界被不断扩展；另一方面，不卷参数卷应用成为业界共识。

大语言模型是当前AI生态中最引人瞩目的突破之一。但随着技术的进一步发展，大语言模型的局限性日益凸显。比如，大语言模型的智能程度高度依赖于数据和计算资源，这种依赖导致它们的智能更多是基于统计和记忆，如果训练数据存在偏差，模型生成的内容可能会带有偏见；与人类价值观对齐方面存在挑战；只能处理文本领域的任务，缺乏对物理世界的深入理解、持久记忆、推理和规划能力等。

AI教母李飞飞在演讲中指出，未来AI的关键将不再仅仅是语言理解，而是更深层次的世界理解。她表示，理解世界运作的方式是AI发展的下一步，而这需要从大语言模型向大世界模型转变。

12月3日，李飞飞创建的WorldLabs发布了一款能够从单张静态图片生成3D世界的AI产品，用户仅需上传一张图片，系统即可自动生成一个相应范围内的3D虚拟世界。该产品具有较强的交互性，用户可自由探索并控制视角，模拟景深、变焦等效果，也可改变物体颜色、调整光照等，生成的3D世界具有持久的现实感和正确的几何形状。

WorldLabs创立之初，瞄准的便是空间智能。所谓空间智能，是从物体之间的关系中获得预测和洞察力的能力，涉及的算法能合理推断出图像和文字在三维环境中的样子，并根据这些预测采取行动。李飞飞强调，空间智能是视觉与行动之间良性互动的核心，WorldLabs展示的正是具象版的空间智能。这一技术应用前景广阔，在影视娱乐、教育、医疗、工业设计等多个行业均展现出巨大潜力。

12月5日，谷歌旗下的DeepMind团队发布了最新基础世界模型———Gemini2。该产品能从单张图片生成可交互的3D游戏世界，支持第一人称和第三人称视角探索，可模拟重力、碰撞、光照等物理现象，并生成可互动的NPC。Genie2具备空间记忆能力，确保用户在不同时间返回同一地点时环境保持一致。

12 月 20 日，谷歌推出 Gemini2.0 Flash Thinking 模型

12月19日，AI初创公司Odyssey发布AI工具Explorer，该工具可将文本和图片转化为逼真的3D世界。Odyssey自定义设计的360度背包相机系统，可捕捉的真实世界风景进行训练，确保生成的3D场景既精细又逼真。生成的场景不仅具有高度的互动性，还支持导入UnrealEngine、Blender等主流创意工具进行后期编辑，极大地丰富了应用场景。

图灵奖得主、Meta首席AI科学家杨立昆指出，世界模型能够预测未来状态并据此做出合理规划与决策，类似于人类婴儿通过多看周边的事物认识世界。大模型在3D世界的探索，无疑使AI能够更准确地模拟和理解现实世界的复杂性。

ScalingLaw是大模型的规模定律，它认为随着模型参数的增加，模型的精度会在某一点上突飞猛进。传统的大模型主要依赖于预训练阶段的参数增长。今年以来，有关ScalingLaw是否已经发展到头成为业界讨论的焦点。

今年9月，OpenAI发布的新模型o1，为大模型的规模扩展提供了新的突破口。相对于预训练模型的“快思考”模式，推理模型o1引入“思考时间”概念，允许模型在给定的计算预算内进行更多的计算迭代。新模型的推理过程类似于人类的思考方式，包括打草稿、验证、纠错等步骤，这使得模型能够更深入地分析和解决问题。OpenAI称，o1模型是第一个具备真正通用推理能力的大模型。

OpenAI作为大模型领域的超级偶像，是当之无愧的业内风向标。近几个月，上海AI实验室发布了推理模型书生InternThinker，昆仑万维发布了Skyworko1系列模型，阿里发布了Marco-o1模型，由北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学组成的研究团队推出了LLaVA-o1模型等。打着“微调”“复刻”“国产”旗号的类o1模型，强调的都是思考推理能力。在OpenAI提出的五级AGI（通用人工智能）概念中，具备推理能力的大模型终于进入L2阶段。

在应用层面，智能体无疑是2024年的香饽饽。美国银行的报告指出，AI进化正处于第三波浪潮的前夜———智能代理人工智能（AgenticAI）即将来临。

智能体是对人机交互范式的革新。百度创始人李彦宏强调，智能体是AI应用的最主流形态，“智能体可能会变成AI原生时代，内容、信息和服务的新载体”。智谱CEO张鹏表示：“Agent将极大地提升使用工具的能力，同时开启对自我学习能力的探索。”DeepMind资深研究科学家NenadTomasev指出，未来将从依赖单一的模型转变为构建拥有多种能力的智能体。

今年下半年以来，AIAgent备受热捧，一众科技巨头纷纷布局该赛道。微软在“Microsoftignite2024”大会上发布10多个商用AIAgent，苹果在开发者大会上发布了AppleIntelligence，OpenAI计划发布代号为“Operator”的AIAgent产品。在国内市场，最早探索Agent的大模型企业之一的智谱，推出了AI智能体产品Aut0GLM，它能够接收简单的文字或语音指令，自动完成一系列复杂的任务流程，用户不用动手就能完成点外卖、朋友圈点赞等手机日常操作。智谱12月推出的进阶版Aut0GLM，具备能听懂超长指令、支持跨App执行任务、支持长任务的自定义短语、随便模式提供抽盲盒式体验四大升级能力。

业内预计2025年有望成为AIAgent爆发元年。银河证券在其研报中预测，预计到2028年，中国AIAgent市场规模将激增至8520亿元，年复合增长率达72.7%。“未来的AI智能体可能比人类还多，人类将生活在一个有数亿、甚至数十亿AI智能体的世界中。”MetaCEO扎克伯格表示。

视频生成赛道成大模型必争之地

视频生成赛道在大模型领域“卷”得很突出。Sora横空出世后，号称对标Sora的AI视频生成大模型层出不穷，卷demo、卷时长、卷功能，浩浩荡荡的类Sora队伍日渐壮大。

在海外，谷歌5月发布对标Sora的Veo模型，12月16日推出迭代版Veo2模型，可以创建4K分辨率、时长两分钟的视频；Luma6月推出DreamMachine模型，12月17日宣布其最新版LumaAIRay2视频模型即将发布；AI视频生成初创公司Runway6月推出Gen-3Alpha模型。在国内，互联网大厂和大模型公司均积极布局视频大模型赛道，主要玩家包括字节跳动、快手、阿里云、Minimax、生数科技、爱诗科技、智谱AI等。近日，腾讯混元大模型也宣布上线视频生成能力。

视频生成赛道人满为患，企业已经完成了“无到有”，但想“卷”出头，还得完成“有到优”。爱诗科技6月发布的“MagicBrush运动笔刷”工具，让用户可以通过笔刷涂抹区域和绘制轨迹，精准控制视频内容的运动方式，如神笔马良般实现“马斯克向你点头示意”“哈利波特挥动魔杖”等效果。MiniMax12月发布了新版的图生视频模型I2V-01-Live，大力加强二次元效果，能够更好的将静态的二次元图片转化为流畅且自然的动态视频。

参赛企业积极迭代更新，争取在这一赛道杀出一条血路。但大家的起跑线本身是不同的，拥有视频基因的企业在视频生成模型领域得天独厚，在用户基础、数据积累和内容生态等方面自带优势。

今年6月，快手发布了视频生成模型“可灵”，并已在快影App开放邀测体验。12月14日，快手宣布于近期推出全新的可灵AI1.6版本模型。最新数据显示，可灵AI发布半年来，已拥有超过600万用户，累计生成超6500万个视频和超1.75亿张图片。12月6日，中国首个AIGC导演共创计划在快手平台上线，平台联合李少红、贾樟柯、叶锦添等9位知名导演共同发起“可灵AI导演共创计划”，创造出了9部涵盖奇幻、志怪、亲情等不同题材的AI电影。

今年5月，背靠抖音的即梦AI上线。12月18日，即梦AI宣布全新图片模型2.1正式上线，用户输入简单提示词即可生成精彩的图片，还可以对现有图片进行创意改造。即梦AI作为技术支持方参与了多部影视作品的制作，如全国首部AIGC生成式连续性叙事科幻短剧集《三星堆：未来启示录》。

后来者争先恐后，视频生成领域的先驱OpenAI硬坐了10个月冷板凳才再度上线。12月10日，OpenAI宣布正式向用户开放AI视频生成模型Sora，该系统可以根据文本提示生成逼真的视频。跟上一版本相比，新版本的Sora在时长上有较大突破，用户可以通过文字、图像或其他视频素材，生成长达20秒的视频。更重要的是，此次Sora将提供“编辑”服务，通过配套一款视频编辑器，使生成视频的效果更加可控。OpenAI宣布推出Sora的新版本SoraTurbo，版本将作为独立产品提供给ChatGPTPlus和Pro用户。

没那么简单的商业化之路

相比去年，大模型企业的商业落地焦虑明显要加重。“百模大战”过后，基础大模型已“十不存一”。

国内进入决赛圈的大模型厂商们，可以分为两股势力，一是以互联网、云计算为代表的科技巨头，二是以“AI六小虎”为代表的头部创企。

但重资产的大模型行业，竞争远比一般科技行业更为残酷。体量大如OpenAI，在某段时间内堪称大模型领域的一号位，从ChatGPT到Sora更新内容动辄领先当前一个版本，它在2024年面临的竞争压力也在不断扩大。风投公司MenloVenture发布的美国AI产业报告显示，在闭源模型市场，OpenAI的先发优势有所削弱，企业市场份额从50%下降至34%。

随着人工智能技术的不断成熟和应用场景的拓展，今年以来，大模型需求在招投标市场的表现尤为活跃。

知了标讯最新数据统计显示，2024年前三季度（1月至9月），国内与大模型相关的采购项目次数累计890次，披露采购金额超过29亿元。就行业分布而言，政府及事业单位成为最主要的采购力量之一，其采购次数占比达23.22%，；紧随其后的是民营企业，占比为21.78%；国有企业则占据了17.19%的比例。在实际采购金额方面，民营企业以总计14.31亿元位列第一，其次是国有企业（11.19亿元）以及政府及事业单位（10.48亿元）。

但与此同时，投标市场也在壮大，僧多粥少的情况日益加剧。2024年前三季度，共有813家采购商发起大模型需求，而参与应标的供应商数量达到了1059家。尤其是第三季度末期，供应商队伍迅速扩大，由二季度末的335家增加到了619家。其中，科大讯飞等头部中标公司的表现尤为引人注目。

今年以来，大模型赛道狂“卷”价格。从国际厂商OpenAI，到国内厂商智谱AI、字节跳动、阿里、百度、腾讯、科大讯飞，大模型降价渐成业内共识。

大厂们豪掷“百亿补贴”跑马圈地，对资金池较浅的创业公司无疑会是一记重锤。对资金雄厚的大厂而言，“烧钱”赚用户，扩大规模再反哺，能形成一套收支平衡的组合拳。

但对资金相对匮乏的创业公司而言，价格战无疑是将他们推到了悬崖边上。据智能涌现报道，被称为“AI六小虎”的6家中国大模型独角兽中，有2家将业务重心转向AI应用。算力成本的上涨、市场竞争的加剧等问题，让真金白银搞研发的大模型厂商们“烧”不起钱了。

2024年是AIGC产品元年。根据《生成式人工智能服务已备案信息》显示，截至2024年11月，我国共有309个生成式人工智能产品完成备案。规模如此之巨，市面上不可避免存在大量功能重叠的AIGC产品。

为脱颖而出，大模型企业不得不砸下重金提升用户规模。业内透露，月之暗面的Kimi助手，2023年的平均获客成本为12~13元/人，这一数据到2024年达到了惊人的30元/人，是2023年成本的2.5倍。

但烧钱能否烧出用户增长，仍是月之暗面需要向投资人和市场回答的问题。

在即将到来的2025年，大模型作为炙手可热的科技高地，毫无疑问会继续作为国际竞争的核心战场。

Frost&Sullivan联合头豹研究院发布的《2024年中国行业大模型市场报告》指出，行业大模型的商业化路径多样，包括ToB产品化，与现有产品集成，API开放平台，私有化部署，定制化解决方案，软硬件一体化。

大模型市场依旧有可开拓的商业空间。

科技巨头们自带用户数据和渠道资源，创业型大模型厂商则要依靠新锐技术和产品解决方案在市场竞争中赢得主动。

来源 |中国信息化周报、中国网信网、沙利文报告

关于我们