【杜兰说AI】大模型的“大”到底是啥?
2025年05月09日 10:10
大模型的“大”到底是啥?
一共四个维度,
第一,
参数规模,
就像是你吃火锅时锅的大小,
也是一切的基础,
ChatGPT就是一口1750亿参数的巨型火锅,
因为够大,
所以能涮的食材也多。
这又涉及到了咱们的第二个维度,
训练数据的规模,
就是咱们涮火锅的食材种类,
食材越多越丰富,
涮锅的味道就越香,
这也就是为啥说
“训练数据决定了模型的知识广度和深度”。
第三是计算量,
也叫训练模型的能源消耗,
计算量大不大,
就是在问你这锅的火力大不大?
一般肯定是火力越强熟得越快,
但也有像DeepSeek这样,
着名的550万美元能耗的火锅,
主打一个“智能控温”,
能耗小,
汤也能熟。
最後一个叫上下文窗口,
它决定的是模型能同时处理的信息量,
这回咱得支个桌了,
上下文窗口越大,
就相当於你放火锅的餐桌越大,
那能放的菜品肯定也越多,
模型一次能处理的信息也就越多。
总结起来就是,
大模型就是一锅容量大、食材多、火力强、桌面宽的火锅。
好了,
吃个火锅奖励一下自己吧。
一共四个维度,
第一,
参数规模,
就像是你吃火锅时锅的大小,
也是一切的基础,
ChatGPT就是一口1750亿参数的巨型火锅,
因为够大,
所以能涮的食材也多。
这又涉及到了咱们的第二个维度,
训练数据的规模,
就是咱们涮火锅的食材种类,
食材越多越丰富,
涮锅的味道就越香,
这也就是为啥说
“训练数据决定了模型的知识广度和深度”。
第三是计算量,
也叫训练模型的能源消耗,
计算量大不大,
就是在问你这锅的火力大不大?
一般肯定是火力越强熟得越快,
但也有像DeepSeek这样,
着名的550万美元能耗的火锅,
主打一个“智能控温”,
能耗小,
汤也能熟。
最後一个叫上下文窗口,
它决定的是模型能同时处理的信息量,
这回咱得支个桌了,
上下文窗口越大,
就相当於你放火锅的餐桌越大,
那能放的菜品肯定也越多,
模型一次能处理的信息也就越多。
总结起来就是,
大模型就是一锅容量大、食材多、火力强、桌面宽的火锅。
好了,
吃个火锅奖励一下自己吧。