热门话题:

【杜兰说AI】17岁高中生动了AI的根基

2026年04月09日 18:26

最近AI圈,有件事真的值得所有人留意。
不是哪家公司拿到巨额投资,也不是又推出了什麽参数惊人的模型,而是一篇《Attention Residuals(注意力残差)》论文,直接指向了 Transformer 架构沿用十几年的底层框架。连马斯克都公开说:Kimi 的这项工作,令人印象深刻。
而且,这篇改写大模型核心逻辑的重磅论文,共同一作里面居然有一位17 岁的高中生。
那这篇论文到底干了啥呢?说起来其实很简单,但它确实动了AI圈十几年没人敢碰的根基。

大模型处理信息,是按一层一层的顺序推进的。传统模式里,每一层都会把上一层的全部信息,直接叠加进来继续运算。信息只会越积越多,没用的内容也一直带着,越往後运算越慢,算力消耗和成本就会疯狂上涨。
Kimi 团队的新方法就是:每一层只保留有用的信息,自动过滤无效内容,并且给关键信息分配更多算力,不重要的信息少分配资源,不再做无意义的信息叠加。
结果很明显:480亿参数模型,训练计算量直接减少了20%,推理延迟只增加了不到2%,算力消耗大幅下降。

而做出这个突破的,除了顶尖团队,还有 17 岁的陈广宇。
别人高三在刷卷子、愁志愿,他在死磕 AI 最底层的运行逻辑;别人按部就班长大,他已经和行业大牛并肩,成了重磅论文的一作。
这个圈子没有年龄门槛,没有资历偏见。谁能解决真问题,谁就有话语权。创新不分年纪,只看你敢不敢往问题根上问。

可能你会说,这只是个例,但其实不是。

我之前去过深圳的零一学院,那里的核心使命,就是发掘和培养能解决全球重大挑战的X-人才——不看年龄、不唯学历,只看是否有敢啃硬骨头的勇气和从0到1的创新定力。他们打破了传统教育的壁垒,让学生能与和顶尖大牛并肩探索底层难题,像陈广宇那样的突破,在那里并不是偶然。

你想想,去年DeepSeek,也走出了一模一样的路。
以前总有人说,中国科技只会 “从 1 到 100”,别人搭好底座,我们再优化落地。现在,一切都变了。DeepSeek不跟风堆参数、拼算力,而是从底层架构上改变,自己搞核心机制,把千亿参数模型的推理成本,压到传统模型的十分之一,用最本质的逻辑打破算力垄断,重新定义行业效率。
Kimi这次的出圈,还有去年DeepSeek的突围,说白了就是一件事:中国新生代,不管是人还是企业,已经不想等别人铺好路再走,不满足在巨人肩膀上修修补补,而是敢於从第一性原理出发,去拆地基,建立自己的新规则。

可能还有人说,这是算力不够逼出来的无奈。
我倒觉得,还有可能是中国的创新环境,真的变了。
不再只看学历、资历、出身,有想法、有能力、敢啃硬骨头,就有舞台;不再追空洞的概念,只看重真技术、真突破;不再怕试错,而是鼓励往最底层、最难的地方研究。
算力不够只是表面原因,真正推着这群人往前走的,是敢创新、能创新、愿意为创新买单的土壤。一个时代愿意给年轻人机会,愿意尊重底层创新,奇迹就会接连发生。
所以不要再用老眼光看中国年轻人。我们不是只会跟风、只会模仿,我们也有质疑权威的胆子,有扎进底层的定力,有从零到一的创造力。中国创新,已经不只是追赶者,而是正在成为新规则的制定者。
未来的世界,从来不属於守旧的人,只属於敢破局、敢创新、敢从根上重新开始的人。

相关新闻