【杜兰说AI】大模型的“大”到底是啥？-杜兰说AI-现代电视_FinTV

【杜兰说AI】大模型的“大”到底是啥？

2025年05月09日 10:10

大模型的“大”到底是啥？
一共四个维度，
第一，
参数规模，
就像是你吃火锅时锅的大小，
也是一切的基础，
ChatGPT就是一口1750亿参数的巨型火锅，
因为够大，
所以能涮的食材也多。

这又涉及到了咱们的第二个维度，
训练数据的规模，
就是咱们涮火锅的食材种类，
食材越多越丰富，
涮锅的味道就越香，
这也就是为啥说
“训练数据决定了模型的知识广度和深度”。

第三是计算量，
也叫训练模型的能源消耗，
计算量大不大，
就是在问你这锅的火力大不大？
一般肯定是火力越强熟得越快，
但也有像DeepSeek这样，
着名的550万美元能耗的火锅，
主打一个“智能控温”，
能耗小，
汤也能熟。

最後一个叫上下文窗口，
它决定的是模型能同时处理的信息量，
这回咱得支个桌了，
上下文窗口越大，
就相当於你放火锅的餐桌越大，
那能放的菜品肯定也越多，
模型一次能处理的信息也就越多。

总结起来就是，
大模型就是一锅容量大、食材多、火力强、桌面宽的火锅。
好了，
吃个火锅奖励一下自己吧。

【杜兰说AI】大模型的“大”到底是啥？

相关新闻