Agent 炒作一年仍未落地,99% 不懂 AI 的人和剩下 1 % 产生了鸿沟

长文盘点 2024,展望 2025

2024 年,大语言模型(LLM)迎来了翻天覆地的变化。让我们一起回顾过去一年中这个领域的重大发现,梳理其中的关键主题和标志性时刻。

简要目录如下:

「壁垒」:“GPT-4 的壁垒在 2024 年被全面打破,这款模型已经跌至了大约第 70 位。排到它上面的 69 个模型涉及了 18 大机构,其中有五家中国公司。”

「智能体」:“我在推特上收集了网友对于智能体(Agent)的211 个定义。如果你告诉我你正在开发“智能体”,那这句话基本就不包含任何实质信息——人们常说的“智能体”这一概念,实际上依赖于通用人工智能(AGI)的实现。要创建一个不易被误导的模型,确实是一个非常高的标准。”

「惊喜」:“随着 Claude Artifacts 的发布,提示词(Prompt)驱动的应用生成,现已成为可以在所有主流模型中有效实现的标配。

「价值」:“过去一年里,顶级大语言模型的使用成本可以说是断崖式下跌。2024 年前后有三款 SOTA 模型供全球大部分地区的用户免费开放。不过,好日子可能很快就要到头了,而且可能是永久性的。”

「推理」:“OpenAI o1 开辟了扩展模型的新方式:模型不再仅仅通过训练时的额外计算来提升性能,现在可以通过在推理时投入更多计算来解决更难的问题。”

「方向」:“2024 年是“slop”(垃圾内容)这个词成为专业术语的一年。不过,垃圾内容并没有毁掉 AI 模型,AI 实验室越来越多地训练使用合成内容——有意创造人工数据来帮助引导他们的模型朝正确的方向发展。”

「代差」:“当前的知识分布极不平衡。如今,几乎人人都听说过 ChatGPT,但有多少人知道 Claude 呢?关注这些技术发展的群体与 99% 不关心的人群之间存在着巨大的知识鸿沟(代差)。”

以下为正文全文:

01 GPT-4 的壁垒被全面打破

回想 2023 年 12 月的时候,我曾在当时的年度总结里写道:“我们仍未掌握构建 GPT-4 的技术”。当时,OpenAI 的最强模型已经发布将近一年,却没有任何其他 AI 实验室能够打造出更优秀的产品。这不禁让人好奇:OpenAI 究竟掌握了什么独门秘籍?

令人欣慰的是,这一局面在过去的 12 个月里发生了根本性的转变。目前在 Chatbot Arena 排行榜上,已有 18 家机构的模型性能超越了 2023 年 3 月发布的原始 GPT-4(即榜单中的 GPT-4-0314)——总计多达 70 个模型跻身其上。

在这些模型中,谷歌于 2 月发布的 Gemini 1.5 Pro 是最早取得突破的。除了能够产出媲美 GPT-4 的结果,它还为大模型引入了几项全新的能力——其中最引人注目的是其 100 万(后来提升至 200 万)token 的输入上下文长度,以及处理视频的能力。

当时我写了篇文章,叫《Gemini Pro 1.5 的杀手级应用是视频》,托它的福,我最终在去年 5 月的谷歌 I/O 大会开幕主题演讲中获得了一次短暂的亮相。

Gemini 1.5 Pro 也展示了 2024 年的一个重要发展趋势:上下文长度的显著提升。2023 年的大多数模型仅支持 4,096 或 8,192 个token,值得注意的例外是 Claude 2.1,它支持 200,000 个 token。如今每个主流模型提供商都拥有支持 10 万以上 token 的模型,而谷歌的 Gemini 系列更是支持高达 200 万个 token。

更长的输入极大地扩展了 LLM 可以解决的问题范围:现在不仅可以输入整本书并提问其内容,更重要的是,你可以提供大量示例代码来帮助模型准确解决编程问题。相比于仅依赖模型权重中已有信息的短提示,涉及长输入的 LLM 应用场景对我来说更具吸引力。我的许多工具都是采用这种模式构建的。

现在再回过头来聊聊那些超越了 GPT-4 的模型:Anthropic 在去年 3 月份推出了 Claude 3 系列,其中的 Claude 3 Opus 迅速成为我日常使用的首选模型。随后他们在 6 月份推出Claude 3.5 Sonnet 时再次提升了行业标准——这款模型至今仍是我的最爱(虽然它在 10 月 22 日获得了重大升级,但仍保持着 3.5 的版本号,这让人有些困惑。Anthropic 的核心粉丝们后来开始称它为 Claude 3.6)。

此外还有很多其他模型。如果现在查看 Chatbot Arena 排行榜(直至今天,这仍是评估模型最实用的平台),你会发现 GPT-4-0314 已经跌至大约第 70 位。排到它上面的 69 个模型涉及了 18 大机构,包括:谷歌、OpenAI、阿里巴巴、Anthropic、Meta、Reka AI、01 AI、亚马逊、Cohere、DeepSeek、英伟达、Mistral、NexusFlow、智谱 AI、xAI、AI21 Labs、普林斯顿大学和腾讯。其中有五家中国公司。

在 2023 年,训练出一个超越 GPT-4 的模型是一件重大突破。而到了 2024 年,这已不是什么特别值得注意的成就了——不过,每逢有新机构加入这个行列时,我个人仍会为此感到欣喜。

02 GPT-4 级别的模型已能在本地设备上运行

我个人使用的笔记本电脑是 2023 年发售的 64GB M2 MacBook Pro。这是一台性能强劲的机器,用到今天也接近两年了——关键是,在 2023 年 3 月的时候,我用这台笔记本首次在本地成功运行了一次 LLM。我当时用它来运行 Meta 发布的 Llama-7B 模型,而当我的笔记本电脑第一次开始向我输出文字时,我真的感觉到世界即将再次改变。

一年过去后,这台在 2023 年仅能勉强运行 GPT-3 级别模型的笔记本电脑,到了 2024 年已经能运行多个 GPT-4 级别的模型了!比方说,我在 2024 年 11 月用这台电脑运行了阿里巴巴的 Qwen2.5-Coder-32B,并让它编写了一个 Python 函数,效果是使曼德布洛特分形的宽度与当前终端一样宽:

这种震撼丝毫不亚于 2023 年我首次运行模型时所感受到的悸动。我原以为要达到 GPT-4 的能力和输出质量,需要配备一台或多台价值 4 万美元以上 GPU 的数据中心级服务器。不过,这些模型会占用我这台 MacBook 64GB 内存中的大部分空间,所以我不会经常运行它们——它们不会给其他任务留下太多运行空间。

它们能够运行的事实,展现了我们在过去一年中在模型训练和推理性能方面取得的惊人进步。事实证明,在模型效率方面还有很多容易实现的改进空间。我预计未来还会有更多突破。

2024 年末发布的 Meta Llama 3.2 系列模型值得特别关注。虽然它们的性能还比不上 GPT-4,但就其 1B 和 3B 的小巧规模来说,表现已经相当惊艳。我在 iPhone 上用免费的 MLC Chat iOS 应用试用了 Llama 3.2 3B,这个仅有 2GB 大小的模型展现出的能力让人印象深刻。我随手让它创作了一个“数据记者邂逅陶艺家的圣诞浪漫喜剧”剧本,它不仅完成得不错,生成速度还达到了每秒 20 个 token:

虽然内容平淡老套,但这证明我的手机已经能够为网飞 (Netflix,国外主流流媒体平台) 策划老套的圣诞节电影了!

03 大模型价格战!

过去一年里,顶级大语言模型的使用成本可以说是断崖式下跌。

2023 年 12 月的时候,GPT-4 每百万 token 要价 30 美元,当时新推出的 GPT-4 Turbo 则是 10 美元,而“中杯” GPT-3.5 Turbo 也需要 1 美元。我保存了那会儿 OpenAI 的定价页面:

https://web.archive.org/web/20231214190432/https://openai.com/pricing

如今的行情发生了天翻地覆的变化。同样是 30 美元,现在能用上 OpenAI 的顶级产品 o1。GPT-4o 的价格更是直降到 2.50 美元(比之前便宜了整整 12 倍),至于 GPT-4o mini,每百万 token 只要 0.15 美元——比此前的 GPT-3.5 便宜将近 7 倍,性能却强了不少。

其他厂商的价格更有竞争力。Anthropic 在 2024 年 3 月推出的 Claude 3 Haiku(快一年了,这款中杯模型至今仍是他们性价比最高的选择)收费 0.25 美元。谷歌的 Gemini 1.5 Flash 要价 0.075 美元,轻量版 Gemini 1.5 Flash 8B 更是低至 0.0375 美元——这个价格比 GPT-3.5 Turbo 整整便宜了 27 倍。

这波降价潮背后有两大推手:一是市场竞争白热化,二是技术效率显著提升。其中效率的提升对于关心环保的人来说尤其重要,因为价格下降直接反映了运行模型所需能耗的减少。尽管大规模 AI 数据中心建设带来的环境影响仍然值得关注,但单次使用模型的能耗问题已经不像过去那样令人担忧了。

让我们来做个有趣的估算:如果用谷歌于 2024 年 10 月推出的性价比之王 Gemini 1.5 Flash 8B 为我的个人相册中 68,000 张照片生成简短描述,成本会是多少呢?

根据计算,每张照片需要 260 个输入 token 和大约 100 个输出 token。具体来说,

输入 token 总数:260 × 68,000 = 17,680,000;

输出 token 总数:100 × 68,000 = 6,800,000;

按照 Gemini 1.5 Flash 8B 的定价——输入 token 每百万 0.0375 美元,输出 token 每百万 0.15 美元,我们可以得出:

输入 token 费用:17,680,000 × 0.0375/百万 = 0.0375/百万 =0.66(美元)

输出 token 费用:6,800,000 × 0.15/百万 = 0.15/百万 =1.02(美元)

也就是说,处理这 68,000 张图片的总开销仅为 1.68 美元。这个价格之低,让我不得不反复核算了三次才敢相信。

那么,这些自动生成的描述质量如何呢?以加州科学院的这张蝴蝶照片为示例:

模型给出的描述是这样的:

盘子可能是用来喂养蜂鸟或蝴蝶的浅红色容器,里面放置了几片橙子。盘中有两只蝴蝶,一只深棕色/黑色带白色/奶油色斑点的蝴蝶,另一只是大型棕色蝴蝶,带有浅棕色、米色和黑色图案,尤其是那明显的眼状斑点,显得格外引人注目。较大的那只蝴蝶似乎正在享用水果。

这段描述仅用了 260 个输入 token 和 92 个输出 token,成本约为 0.0024 美元(不到一美分的四百分之一),真是难以置信的划算。

效率的提升与价格的下降无疑是 2024 年最令人振奋的发展之一。我们正逐步实现以更低能耗运行大模型的目标,而这一切正在变为现实,让每个人都能享受到这项技术带来的便利。

04 多模态视觉已成标配,音频和视频能力逐步涌现

从上述蝴蝶图片的例子中可以看出,2024 年另一个显著的趋势是多模态大模型的迅速发展。

回想一年前,最具代表性的多模态模型当属 OpenAI 在 2023 年 11 月 DevDay 大会上发布的 GPT-4 Vision(人称 GPT-4V),而谷歌也在同年 12 月 7 日推出了其 Gemini 1.0 多模态模型,勉强算作他们在 2023 年的答卷。

步入 2024 年,各大模型供应商纷纷推出自家的多模态产品。我们见证了 Anthropic 于 3 月推出的 Claude 3 系列(支持图像输入),紧接着是 4 月份谷歌的 Gemini 1.5 Pro——不仅支持图像输入,还增加了对音频和视频的支持;9 月,市场上迎来了 Qwen2-VL、Mistral 的 Pixtral 12B,以及 Meta 的 Llama 3.2 11B 和 90B 等开源视觉模型;10 月,OpenAI GPT-4o 的高级语音模式终于发布了;11 月,Hugging Face 发布了一款 SmolVLM;到了 12 月,亚马逊 Nova 突然掺一脚,发布了他们的图像和视频处理模型。

那些认为 2024 年大模型进步放缓的声音,往往忽略了这些多模态模型所带来的巨大飞跃。值得一提的是,音频和实时视频功能的出现更是将去年的 AI 用户体验提升到了一个新的层次。尽管早在 2023 年 9 月,ChatGPT 就实现了对话功能,但那时主要是利用 OpenAI 卓越的 Whisper 语音转文本模型和一个名为 tts-1 的文本转语音模型来实现的,实际上底层还是基于文本处理。

直到 5 月 13 日,GPT-4o 的发布标志着真正的变革——它引入了一种全新的语音模式,可以直接处理音频输入并生成逼真的语音输出,无需额外依赖 STT 或 TTS 模型。在最初的演示中,模型生成的声音与演员斯嘉丽·约翰逊极为相似,闹了一波纠纷,不过由于版权问题,这个被称为“Skye”的声音并未出现在最终的产品中。

虽然跳票长达三个月,但在 8 月至 9 月期间逐步推出的高级语音模式确实惊艳四座。我经常在遛狗散步的时候体验这款产品,发现语调的优化显著提升了交流的质量。我还用 OpenAI 的音频 API 做了许多有趣的尝试。更有趣的是,高级语音模式甚至可以模仿口音。例如,当我要求它以浓重的俄罗斯口音扮演一只加州褐鹈鹕,并且只用西班牙语交谈时,便得到了一段充满趣味的对话:

除了 OpenAI,其他公司也在音频领域取得了进展。谷歌的 Gemini 同样开始接受音频输入,其应用软件现在也能像 ChatGPT 一样进行语音对话。亚马逊则预告了 Amazon Nova 的语音模式,预计将在 2025 年第一季度推出。此外,谷歌 9 月发布的 NotebookLM 进一步提升了音频输出的效果,能够根据用户提供的内容生成宛如播客主持人的对话。之后,他们还加入了自定义指令的功能,比如我可以轻松地让虚拟主持人变成一只鹈鹕:

而最引人注目的突破发生在 12 月——实时视频功能的推出。ChatGPT 高级语音模式现在提供了与模型共享摄像头画面的选项,可以实时讨论 AI 看到的内容。谷歌 Gemini 当时也发布了相同的功能,而且他们设法比 ChatGPT 提前一天发布。

这些功能才问世几周,我认为它们的影响力还远未显现。如果你还没有尝试过,真的应该亲身体验一下。

Gemini 和 OpenAI 都提供了这些功能的 API 访问。OpenAI 最初使用的是相对难用的 WebSocket API,但在 12 月他们宣布了一个更容易上手的新 WebRTC API。现在构建一个用户可以通过语音交谈的网页应用已经变得相当简单!

05 提示词(Prompt)驱动的应用生成

这种能力在 2023 年就已通过 GPT-4 实现,但直到 2024 年其价值才真正凸显。我们早已知道大模型在编写代码方面有着惊人的能力。如果给出恰当的提示词,它们可以使用 HTML、CSS 和 JavaScript(如果配置了额外的构建机制,还能使用 React 等工具)为你构建一个完整的交互式应用程序——通常只需一个提示即可。

Anthropic 在这一领域的突破性进展是发布了Claude Artifacts功能,这项创新最初在他们发布出色的 Claude 3.5 Sonnet 时被略微忽视,因为它只是公告中的一部分内容。

* 对此欢迎回顾《OpenAI 封了中国 API 后,国外开发者却先转向了 Claude》一文

通过 Artifacts,Claude 可以为你编写一个按需交互式应用程序,并让你直接在 Claude 界面中使用它。

这是我的网址提取应用程序,完全由 Claude 生成:

此后,许多其他团队也构建了类似的系统。GitHub 在去年 10 月发布了GitHub Spark。Mistral Chat 在 11 月添加了一个名为Canvas的类似功能。来自 Val Town 的 Steve Krouse 基于 Cerebras 构建了一个版本,展示了一个每秒处理 2,000 个 token 的 LLM 如何能在不到一秒的时间内迭代更新应用程序。

随后在 12 月,Chatbot Arena 团队推出了关于这个功能的全新排行榜,让用户用两个不同的模型构建相同的交互式应用程序并对结果进行投票。很难找到比这更有说服力的证据来证明这个功能现在已经成为可以在所有主流模型中有效实现的标配了:

我自己也在为 Datasette 项目开发类似的功能,目标是让用户能够使用提示来针对自己的数据构建和迭代自定义小部件和数据可视化。我还借助 uv 找到了一种编写一次性 Python 程序的类似模式。

这种由提示词驱动的自定义界面功能非常强大,而且在掌握了浏览器沙箱的复杂细节后很容易构建,我预计它将在 2025 年作为底层功能出现在各种产品中。

06 免费的才是最香的……

2024 年前后有三款 SOTA(最顶级的模型):GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro——都曾对全球大部分地区的用户免费开放。

2024 年 5 月,OpenAI 为所有用户免费开放了 GPT-4o,而 Claude 3.5 Sonnet 从 6 月发布起就是免费的(这两款模型都是每天可以免费使用一定限额,付费解锁更多限额)。

这是一个具有重大意义的转变,因为在 2023,免费用户主要只能使用 GPT-3.5 级别的模型,这导致新用户对大模型的实际能力形成了很不准确的认知——平时你用着 GPT-4 赞不绝口,然后推荐朋友来用 ChatGPT,结果他一上手免费的 GPT-3.5 感觉就是个玩具——在 2024,再也不会出现这样的问题,因为顶级模型都是免费可用的。

不过,好日子可能很快就要到头了,而且可能是永久性的。去年年末,OpenAI 推出了 ChatGPT Pro。这项每月 200 美元的订阅服务是访问他们最强大模型 o1 Pro 的唯一途径。由于 o1 系列(以及将被它启发的那些未来的推理模型)背后的技巧是通过投入更多计算时间来获得更好的结果,因此这类模型不太可能像 GPT-4o 和 Claude 3.5 Sonnet 一样,免费供大家使用。

07 智能体仍未真正实现

“智能体”(Agents)这个术语让我感到极其困扰。它缺乏一个单一、清晰且被广泛认可的定义——而使用这个术语的人似乎从不承认这一点。如果你告诉我你正在开发“智能体”,那这句话基本就不包含任何实质信息。不深入了解,我就无法判断一个人开发的“智能体”指的是几十种可能定义中的哪一个。

我观察到的两个主要类别是:一类人认为 AI 智能体显然是能代表你行事的系统——类似于旅行社模式;另一类人则认为是已经获得工具访问权限的大模型,这些工具可以在解决问题的过程中循环运行。“自主性”(Agentic)这个词也经常被提及,同样没有明确的定义。

几个月前,我在推特(X)上收集了网友对于智能体的 211 个定义,可谓是众说纷纭:详情可以看 https://til.simonwillison.net/twitter/collecting-replies 这篇文章。

撇开术语不谈,智能体这个概念仍然给人一种永远“即将到来”的感觉。基于对轻信性挑战的认识,我仍然对它们的实用性持怀疑态度。大模型会相信你告诉它们的任何事情。任何试图代表你做出有意义决定的系统都会遇到同样的障碍:如果一个 AI 助手甚至研究工具无法区分真相和虚构的事实,它能有多大用处?

就在这篇文章发布的前几天,谷歌搜索被发现提供了一个完全虚构的不存在的电影《魔法满屋 2》的描述。结果发现这是在总结一个同人小说维基上虚构的电影列表——这牵扯到了“大模型的提示注入攻击”,自 2022 年 9 月以来,AI 圈一直在讨论这个问题,但在 2024 年我几乎没有看到解决这个问题的进展。

我逐渐意识到,人们常说的“智能体”这一概念,实际上依赖于通用人工智能(AGI)的实现。要创建一个不易被误导的模型,确实是一个非常高的标准。

08 评估真的很重要

Anthropic 的 Amanda Askell(他的工作内容是负责 Claude 的性格塑造)曾说过:

好的系统提示(System Prompt)背后无聊但关键的秘密是测试驱动开发。你不是写下一个系统提示然后找方法测试它。你是写下测试,然后找到一个能通过这些测试的系统提示。

在 2024 年的发展过程中,越来越明显的是,为基于大模型的系统编写好的自动化评估是构建这些模型上有用应用程序最需要的技能。如果你有一个强大的评估套件,你就能比竞争对手更快地采用新模型、更好地迭代,并构建更可靠和有用的产品功能。

Vercel 的首席技术官(CTO)Malte Ubl 曾说过:

当 @v0 首次推出时,我们还在偏执地使用各种预处理和后处理的复杂操作来保护提示。后来我们完全改变了策略,让它自由运行。如果一个提示没有评估、模型和用户体验的支持,就像得到一台没有使用手册的损坏的 ASML 机器一样。

如今,我仍在努力找出自己工作中最佳的评估模式。大家都知道评估很重要,但对于如何最好地实施评估仍然缺乏很好的指导。

09 苹果的 2024

2024 年,苹果智能(Apple Intelligence)表现欠佳,但 MLX 库表现出色。

作为一名 Mac 用户,今年我对自己的平台选择感觉好多了。 去年,没有配备 NVIDIA GPU 的 Linux/Windows 机器让我在尝试新模型方面感觉处于很大劣势。

理论上,一台 64GB 的 Mac 应该是运行模型的绝佳选择,因为 CPU 和 GPU 可以共享同一块内存。但实际上,许多模型发布时都是以模型权重和库的形式出现,这些更倾向于支持 NVIDIA 的 CUDA 而非其他平台。

llama.cpp 生态系统在这方面提供了很大帮助,但真正的突破是苹果发布的 MLX 库,这个“面向 Apple Silicon 的数组框架”确实很出色。 苹果的 mlx-lm Python 支持在我的 Mac 上运行各种 MLX 兼容的模型,性能相当出色。Hugging Face 上的 mlx-community 提供了超过 1,000 个已转换为必要格式的模型。

* 苹果机器学习框架 MLX:https://github.com/ml-explore/mlx

Prince Canuma 开发的 mlx-vlm 项目也将视觉大模型带到了 Apple Silicon 平台。这个项目优秀且发展迅速,我最近用它运行了阿里 Qwen 的 QvQ 视觉模型。

虽然 MLX 是一个改变游戏规则的产品,但苹果智能却令人失望。

6 月份的时候我还很乐观,认为苹果严格关注了那些能保护用户隐私并最大限度减少用户被混淆功能误导的大模型应用子集。

正式推出后的苹果智能,却相当薄弱。本就是大模型深度用户的我相当清楚这些模型的能力,而苹果的大模型仅仅是对前沿模型能力的拙劣模仿。现在,iPhone 上收到的通知摘要往往会曲解新闻标题,而写作辅助工具则完全没有用处。不过 Genmoji 倒是挺有趣的。

10 推理模型的兴起

去年年末最有趣的发展是一种新型大模型的出现,以OpenAI o1模型为代表——最初这款模型的代号是“草莓”,并于 9 月 12 日以 o1-preview 和 o1-mini 的形式正式亮相。

推理模型其实可以视为思维链提示技巧的扩展,这个技巧最早见于 2022 年 5 月 Jason Wei 领衔发布的经典论文Large Language Models are Zero-Shot Reasoners

通俗解释思维链,就是当你让模型大声说出它正在解决的问题时,往往能得到模型本来难以达到的结果的技巧。

o1 将思维链进一步融入到模型本身。具体细节有些模糊:o1 模型会花费用户看不到的“推理 token”来思考问题(ChatGPT 界面会显示一个推理摘要),然后输出最终结果。

其中最大的创新是o1 开辟了扩展模型的新方式:模型不再仅仅通过训练时的额外计算来提升性能,现在可以通过在推理时投入更多计算来解决更难的问题。

o1 的继任者 o3(OpenAI 后来因为欧洲商标原因跳过了“o2”这个名字)于去年 12 月 20 日发布,这款模型在 ARC-AGI 基准测试中取得了令人印象深刻的结果,但却有可能花费了超过 100 万美元的计算成本!

o3 预计将在 1 月份正式推出。我怀疑很少有人会需要如此巨大的计算开销去解决实际问题(至少我没有),但它似乎确实代表了大模型架构在解决更难问题方面的真正进步。

OpenAI 并非这个领域的唯一玩家。谷歌于 12 月 19 日发布了他们的第一个推理模型gemini-2.0-flash-thinking-exp。阿里巴巴的 Qwen 团队于 11 月 28 日发布了QwQ模型——这款模型采用 Apache 2.0 许可证,所以我实际上能在自己的机器上运行它。他们在 12 月 24 日又推出了一个视觉推理模型QvQ,前文已经提到,我使用苹果的 MLX 框架在本地运行了它。此外,DeepSeek 于 11 月 20 日在官网提供了 DeepSeek-R1-Lite-Preview 模型的试用。

Anthropic 和 Meta 目前还没有相关动作,如果他们实际上不准备开发自己的推理模型,那肯定会超乎我的意料。Meta 在 12 月倒是发表了一篇相关论文Training Large Language Models to Reason in a Continuous Latent Space

11 DeepSeek v3

2024 年底的重大新闻是 DeepSeek v3 的发布——这款模型在圣诞节当天被上传到 Hugging Face,连 README 文件都没有,然后在第二天才跟上文档和论文。

DeepSeek v3 是一个巨大的 685B 参数模型——是目前可用的开源许可模型中最大的之一,明显大于 Meta 的 Llama 系列中最大的 Llama 3.1 405B。

基准测试显示,它的表现可以与 Claude 3.5 Sonnet 比肩。在体验基准测试(其实就是 Chatbot Arena)中目前排名第七,仅次于 Gemini 2.0 和 OpenAI 的 4o/o1 模型。这是迄今为止排名最高的开源许可模型。

DeepSeek v3 最令人印象深刻的是其训练成本。具体来说,DeepSeek v3 是在 2,788,000 个 H800 GPU 小时上进行训练的,估计成本为 5,576,000 美元。相比之下,Llama 3.1 405B 模型则需要 30,840,000 个 GPU 小时来完成训练,这几乎是 DeepSeek v3 所需时间的 11 倍,但最终得到的模型在性能基准测试中表现却略逊一筹。

基于这件事,接下来可以谈一谈 2024 年环境影响的改善:模型效率的提升——无论是托管模型还是本地运行的模型——带来了一个可喜的结果:过去几年中运行一个提示的能源使用和环境影响大幅降低。

OpenAI 自己现在的收费比 GPT-3 时代低了 100 倍。据可靠消息,谷歌 Gemini 和亚马逊 Nova(两个收费最低的模型提供商)运行提示并不会亏损。

我认为这意味着,作为个人用户,我们完全不必为绝大多数提示消耗的能源感到愧疚。其影响可能与开车上街相比都微不足道,甚至可能比在 YouTube 上看视频的影响还小。

训练方面也是如此。DeepSeek v3 的训练成本不到 600 万美元,这是一个很好的信号,表明训练成本可以而且应该继续下降。

对于效率较低的模型,我发现将它们的能源使用与商业航班进行比较很有帮助。最大的 Llama 3 模型的成本相当于从纽约到伦敦的几架满载客机。这当然不是小数目,但一旦训练完成,这个模型就可以被数百万人使用,而不需要额外的训练成本。

然后,环境影响的恶化主要源于为满足这些模型未来需求而进行的大规模竞争性基础设施建设。

谷歌、Meta、微软和亚马逊等公司都在投入数十亿美元建设新的数据中心,这对电网和环境产生了实质性的影响。甚至有人在讨论启动新的核电站,但这可能需要数十年时间。

这些基础设施真的必要吗?DeepSeek v3 的 600 万美元训练成本和 LLM 价格的持续下跌可能暗示并非如此。但如果你是大科技公司的高管,你会选择不建设这些基础设施,然后几年后被证明是错误的吗?

这里一个有趣的对比是19 世纪铁路在世界各地的铺设方式。建设这些需要巨额投资,对环境产生了巨大影响,而且许多建设的线路后来被证明是不必要的——有时甚至多个公司的线路服务完全相同的路线! 由此产生的泡沫导致了多次和铁路有关的金融危机,比如 1873 年恐慌、1893 年恐慌、1901 年恐慌和英国的铁路狂热。它们给我们留下了 许多有用的基础设施,同时也带来了大量破产和环境破坏。

12 垃圾内容之年

2024 年是“slop”(垃圾内容)这个词成为专业术语的一年(slop 这个词就是本文作者 Simon Willison 在外网带火的)。5 月份,@deepfates 的一条推文表示我们需要一个词来对应电子邮件时代的“垃圾邮件”这个词:

我正在实时观察“slop”如何成为专业术语。就像“spam”成为垃圾邮件的代名词一样,“slop”未来将被收录进词典,作为不受欢迎的 AI 生成内容的专用词。

我基于他的推文,稍微扩展了 slop 的定义:

slop 描述的是既未经请求也未经审查的 AI 生成内容

2024 年 5 月左右,卫报和纽约时报引用了我的帖子,并开始谈论 slop 这个词。以下是纽约时报引述自我帖内的原话:

社会需要简洁的方式来讨论现代 AI——包括积极和消极的方面。“忽略那封邮件,那是垃圾邮件”和“忽略那篇文章,那是垃圾内容”都是有用的经验。

我喜欢“slop”这个术语,因为它如此简洁地概括了我们不应该使用生成式 AI 的方式之一!slop 甚至进入了 2024 年牛津年度词汇的候选名单,可惜最后还是输给了 brain rot(字面意思是“大脑腐蚀”,但现在的新意思是指因过度浏览网上低质量内容而导致的精神负面影响)。

谈及 slop,便不得不谈“模型崩塌”这个概念。它最早出现在 2023 年 5 月的论文The Curse of Recursion: Training on Generated Data Makes Models Forget中,并在 2024 年 7 月以更引人注目的标题AI models collapse when trained on recursively generated data在 Nature(《自然》)杂志上再次出现。

这个概念很好解释:随着互联网被 AI 生成的垃圾内容充斥,模型本身将会退化,吞噬自己的输出,最终不可避免地走向消亡!不过,这种场景并没有发生。相反,我们看到 AI 实验室越来越多地训练使用合成内容——有意创造人工数据来帮助引导他们的模型朝正确的方向发展。

我看到的最好的描述之一来自 Phi-4 技术报告,其中提到:

使用合成数据作为预训练的重要组成部分正变得越来越普遍,Phi 系列模型一直强调合成数据的重要性。合成数据并非有机数据的廉价替代品,反而具有几个直接优势。结构化和渐进学习。在有机数据集中,token 之间的关系往往复杂且间接。可能需要许多推理步骤才能将当前 token 与下一个 token连接起来,这使得模型难以通过下一个 token 预测有效学习。相比之下,语言模型生成的每个 token 在定义上都是由前面的 token 预测的,这使得模型更容易遵循由此产生的推理模式。

另一个常见的技巧是使用更大的模型来帮助为它们的小型、更经济的替代品合成训练数据——这已经是当今的普遍做法。DeepSeek v3 使用了 DeepSeek-R1 合成的“推理”数据。Meta 的 Llama 3.3 70B 微调使用了超过 2500 万个合成生成的示例。

仔细设计输入大模型的训练数据似乎已成为创建这些模型的关键所在。那种简单地抓取整个网络并不加区分地将其倾倒进训练中的时代已经一去不复返了。

13 代差

我一直强调:大模型是专为高级用户设计的工具。

它们就像是披着厨房刀具外衣的电锯——表面上看,使用起来似乎很简单,“与聊天机器人对话能有多复杂?”然而,要真正发挥大模型的潜力并避免各种陷阱,深厚的理解和经验必不可少。

过去一年的变化显示,这一问题在 2024 年变得更加显著了。

我们已经开发出了能够用人类语言交流的计算机系统,它们不仅能回答你的问题,而且大多数时候还能给出正确的答案!这取决于问题的性质、提问的方式以及这些问题是否准确地反映在未公开且保密的训练数据中。

可用系统的数量正在迅速增长。每个系统都配备了不同的工具来帮助解决问题——比如 Python 和 JavaScript 编程语言、网络搜索功能、图像生成能力,甚至可能包括数据库查询。

因此,了解这些工具的功能及其应用范围,并判断大模型是否有效利用了这些工具,变得尤为重要。

比方说,你知道现在 ChatGPT 支持两种不同的方式来运行 Python 代码吗?

以及,想要创建一个能够与外部 API 交互的 Claude Artifact?那你首先需要理解 CSP(内容安全策略)和 CORS(跨域资源共享)HTTP 头部信息。

尽管模型的能力不断增强,但许多限制依然存在。例如,OpenAI o1 模型终于能在多数情况下正确计算出单词“strawberry”中字母“r”的数量,但这仍然受限于其作为大模型的本质及运行环境的约束。

o1 无法执行网络搜索或使用代码解释器,而 GPT-4o 则具备这样的能力。两者虽然都在同一个 ChatGPT 界面下工作,但如果要求 o1 执行超出其能力范围的任务,它会表现出一种“幻觉”,即假装自己可以完成联网任务。这种现象自 2023 年初就已出现,至今仍未消失。

面对这些“幻觉”,我们的应对方法却十分有限。默认的大模型聊天界面就像把新手直接丢进 Linux 终端,期望他们自行摸索出路。如果将 ChatGPT 比作游泳池,那么大多数初学者都被直接扔进了“深水区”。

与此同时,普通用户对于这些工具的工作原理和能力的认知往往存在偏差。我见过许多人试图通过展示 ChatGPT 的截图来赢得争论——考虑到这些模型本身存在的不确定性,加上只要给予适当的提示就能让它们说出任何话,这样做显然是不合理的。

这也反映出另一个问题:一些见识广博的人因为这些工具的缺陷而完全放弃使用它们。充分利用大模型的关键在于学会如何驾驭这个既不可靠又极其强大的工具。掌握这项技能并非易事,这里有很大的教育空间,但我们不能仅仅依赖那些在 Twitter 上发布夸张帖子的 AI 营销人员。

此外,当前的知识分布极不平衡。如今,几乎人人都听说过 ChatGPT,但有多少人知道 Claude 呢?关注这些技术发展的群体与 99% 不关心的人群之间存在着巨大的知识鸿沟(代差)。

快速变化的技术也加剧了这一问题。仅在过去一个月,我们就见证了实时互动界面的出现,你可以用手机摄像头对准某个物体并通过语音与其交流……甚至可以选择让它扮演圣诞老人。即便是一些自认为是科技达人的人都尚未尝试过这些新功能。

鉴于这项技术对社会的持续影响,我认为这种知识差距是不健康的。我希望看到更多努力去缩小这一差距。

在我经常浏览的一些社交平台(如 Mastodon、Bluesky、Lobste.rs,有时甚至是 Hacker News),提出“大模型是有用的”这样的观点就足以引发一场激烈的辩论。

我能理解这一点。这项技术确实有很多让人不满的地方——对环境的影响、训练数据伦理缺失、可靠性不足、负面应用风险以及对就业市场的潜在冲击。

大模型的确值得批评。我们需要讨论这些问题,找到缓解的方法,并帮助人们学习如何负责任地使用这些工具,确保积极影响超过负面影响。

我喜欢那些持怀疑态度的人。在过去的两年多时间里,炒作声不断,伴随着大量的误导信息。很多糟糕的决策都是基于这些炒作做出的。保持批判的态度是一种美德。

如果我们希望有决策权的人能对如何合理应用这些工具做出明智的选择,首先必须承认它们确实有价值,然后帮助解释如何实现这些价值,同时规避非直观的风险。(如果你仍然认为目前没有任何好的应用场景,那我不确定你为何会读到这里。)

断言所有的 AI 都是破坏环境的抄袭机器,并不断编造事实,这对公众来说是一种伤害,即使这种说法有一定真实性,但 AI 确实存在真正的价值,只是获取这些价值并不直观,需要指导。我们这些了解这些技术的人,肩负着帮助他人理解的责任。

如果你需要付费使用ChatGPT等AI工具,可选择开通国际虚拟信用卡进行付款。虚拟卡Virtual Card,跨境必备工具推荐;4399Pay是一家专门提供国际虚拟信用卡的平台,无限开卡且免KYC;有兴趣的朋友可以添加客服TG(@dabai717)进行了解。

原文请参考:

https://simonwillison.net/2024/Dec/31/llms-in-2024