闲聊AI大模型开发之竞争

喜欢逍遥自在的码字,兴趣广泛,常常有感而发,并不拘泥于什么主题。
打印 被阅读次数

近年来,人工智能(artificial intelligent, AI)领域最引人瞩目的进展莫过于大型语言模型(Large Language Models, LLMs)的崛起。说起人工智能, 世界上最有名的AI应该是OpenAI公司的ChatGPT。它自从2022年末诞生至今一直就是AI领域的领头羊。后来也出来了很多优秀的AI应用,比如说,谷歌的Gemini,微软的Copilot,Anthropic公司的Claude,脸书的Llama,以及马斯克xAI的Grok-3。这些语言大模型AI各有特点,都展现了前所未有的人类语言理解和生成能力,甚至在某些方面超越了人类水平。本猫都有试过,都非常的好,但是无一能够撼动ChatGPT的一哥位置。ChatGPT之所以厉害,是因为它有世界上最好的AI大模型。OpenAI通过GPT系列模型建立了强大的先发优势,并围绕其模型构建了庞大的开发者生态。这不仅仅意味着商业利益,更关乎技术标准的制定、行业规则的塑造以及未来AI发展方向的主导权。

要开发出一个聪明的AI大模型,需要几样基本的东西。一是算力,二是高质量的数据,三是算法。这和培养一个孩是很像的。要培养出一个优秀的孩子,首先就是需要这孩子他本身智商就高,这就是AI的算法的部分。然后是他要能够学习到非常精良的知识,这就是高质量的数据。但是开发AI大模型和培养人有一个地方不一样,就是这个算力的部分。因为人类大脑结构是固定的,它已经不能改变了。理论上来说,一个大脑的神经元越多,编织的神经元网络越复杂,这个大脑就会越聪明,所以人类却无法提升自己大脑的算力。但对于AI开发来说就不一样了,AI的算力部分是可以靠堆芯片来提升的。也就是可以用不断更新的高级芯片来增加它的神经元和复杂它的神经网络,从而让它变得更聪明。由此可知,在理论上,AI的智商是一定会超过人类的,因为它可以无限地聪明下去。而人类的大脑结构决定了我们的智商是有上限的。而这个“堆芯片”就是AI的算力部分。也就是说,AI的智商其实是用算力和算法共同作用的结果。

从开发AI大模型角度来看,在算法和数据的部分,世界顶尖的几家AI公司之间都是差不多的。一是因为构建AI大模型的算法部分都是基于公开发表的论文,所以各自AI大模型的底层逻辑都是差不多的。二是训练AI大模型的数据也都是来自互联网的公开数据,所以数据这部分也没有什么太多竞争的余地。而大家可以竞争的就是算力部分了。也就是说,谁能往AI系统里堆更多的计算芯片让它的神经元更多,神经网络更复杂,谁的AI大模型就更聪明。

英伟达(NVIDIA)是目前最受瞩目的计算芯片公司,在芯片市场长期占据垄断地位,凭借其CUDA架构和其高性能图形处理器(GPU)产品,在AI计算领域占据了主导地位。最新的Hopper架构GPU也为大模型训练提供了强大的算力支持。然而,随着AI应用的不断发展,GPU的局限性也日益显现,例如,通用性强但能效比不高,价格昂贵等。英伟达最先进的芯片型号是B200,一张卡的价格在4万美金左右,相当于一辆高级家用车。而且这个芯片的产量是有限的。据说OpenAI就一直在囤积英伟达的卡,基本上就是有多少就要多少。就目前来说,ChatGPT-4模型是用了5万张H100的卡,还不是现在最先进的(是上一代最先进的),而很快它们需求就要达到100万张左右了,需求量就是这么大!

芯片一直是美国的强项。美国之所以能够在科技领域一直领先,也是因为它在芯片领域是全球最顶尖的,处于霸权的地位。也就可以保证像OpenAI,谷歌这一众美国的AI公司的算力一直就是世界最顶尖的,也就保证了美国在AI领域的领先。

然而,最近美国公司在AI领域中领先的情况突然间发生了变化。有一家中国杭州的公司DeepSeek悄无声息的撼动了ChatGPT在AI领域的地位。在2025年1月27号这一天,多年霸榜手机应用榜首的ChatGPT变成了第二名。第一名出现了一个新的名字DeepSeek。为什么说是悄无声息,一是因为DeepSeek从来没有宣传过它这个产品,二是DeepSeek这个公司在AI领域不是很有名的。它的手机应用1月15号才刚刚上架,仅仅过了两周就超过了ChatGPT。

之前不论AI怎么争,都是美国的公司之间在争。美国也一直深信,他们就是AI界的老大,霸权的地位是不可能被动摇的。结果没想到一个没听说过的中国公司一下子就要改变了这个局势。这一下子,使整个美国所有搞AI的人都紧张了起来。

ChatGPT现在有两个主力模型一个叫4o,一个叫o1。这两个模型是两个不一样的的大脑,其中4o是处理日常业务的,它很聪明,反应也很快。而o1是深度思考模型,它反应慢点,但是思索更深。所以4o相当于你的一个私人助理,而o1是一个顾问。实际生活中,也不是所有事情都要问顾问的,有些简单事情4o就解决了。而DeepSeek也出了两个模型,叫V3和R1,其中V3对标4o,R1对标o1。性能几乎是一样的,能打个平手。

除了手机应用之外,ChatGPT还有一个挣钱的地方,就是应用程序编程接口(API)调用。当企业在使用ChatGPT的API调用时要另付费。比如说客服。以前客服是有人在接电话,或者在网上回答你的问题,但是现在就渐渐变成AI客服了,要比人工客服是便宜很多。所以现在很多企业都使用ChatGPT的调用服务。不仅是AI客服,还可以用AI来导航,带有AI的游戏,或者AI的股票分析系统,都是同样原理。ChatGPT不仅通过这个来挣钱,还可以通过这个方式来锁定客户。一旦企业把你的所有的客服都给辞掉了,用了ChatGPT服务以后,你就停不下来了。DeepSeek也提供类似的API调用服务。

引发大冲击的主要原因,是DeepSeek把它这个大模型给开源了。人人都可以下载到这个大模型,然后在你自己本地的电脑上运行。这开源对全世界的企业和个人来说吸引力就太大了。而对像OpenAI这样的闭源的AI公司就是一个极大的打击。因为你把人家吃饭的碗给砸了。OpenAI赚钱靠什么,就是靠锁住他的大脑,没有人能够看到他的大脑是怎么思考的。你只能问,他只会给你答案,所以靠这一问一答来赚钱的嘛。

所以DeepSeek一出来,美国金融市场的反应就炸锅了。DeepSeek登顶当天(2025年1月27日),美国所有和AI相关的股票全面大跌。跌得最严重的就是英伟达,股价一天就跌了17%,市值蒸发6000亿美元,创下美国股市历史最大单日跌幅。为什么英伟达会跌那么多?原因就是DeepSeek的开发成本也超级低。DeepSeek之所以能开源,很大的一个原因就是它开发AI大模型没花几个钱。

OpenAI做这两个顶级AI大脑4o和o1,据说花了数十亿美金。主要钱都花在买英伟达的芯片上。而DeepSeek的这两个同等级别的AI大脑v3和R1,据说做出来只花了560万美元,保守估计是OpenAI的1%。而且它不是用最高端的芯片做出来这个大脑,它之所以没有用最高端的芯片,是因为美国是有芯片禁令的。也就是说DeepSeek用很少的钱,用比较低端的工具,就把美国投入了几十亿美元,甚至上百亿美元的事情给办了。所以市场普遍认为,当初对英伟达芯片的估值过高,于是就纷纷抛售英伟达的股票。很多美国AI公司和技术专家对DeepSeek为何能用如此低的成本和如此短的时间开发训练造出如此好的模型表示不可思议。

也有人怀疑DeepSeek是不是有使用不正当的手段弯道抄车。比如说DeepSeek有抄袭ChatGPT之类的说法。但是这个明显是不可能的,因为ChatGPT是闭源的,而DeepSeek是开源的。闭源的系统显然是无法抄袭。就像现在市面上的苹果操作系统和微软操作系统,之所以不能被抄袭就因为它们都是闭源的。如果DeepSeek真的有抄袭ChatGPT的话,那在它开源的一瞬间,OpenAI就会发现。

事实上,DeepSeek开源之后,全世界最顶尖的学者和技术大神们就开始研究DeepSeek的文档和代码。结果发现一个令人惊奇的事情,就是他们发现DeepSeek使用了一个完全创新的技术训练大模型,才能够使得大模型在短短两个月的时间之内完成训练。这个全新的技术就是绕过了英伟达计算芯片上面特有的CUDA计算平台,利用英伟达的底层技术直接调用芯片的算力。DeepSeek使用了NVIDIA的低级编程语言PTX(Parallel Thread Execution)来增加芯片的算力。这种方法允许他们实现更精细的优化,从而显著提高了AI模型的效率。DeepSeek的这种创新方法使他们的AI训练效率提高了10倍,比传统方法更高效。所以发现了这个事情当天,1月29号那天英伟达和微软的股价再次大幅下跌。而第二天英伟达,微软,亚马逊都表示他们的计算平台可以使用DeepSeek。

面对质疑,DeepSeek也从来没解释过什么。其实也根本不需要解释,开源的东西都摆在这 你想看就看嘛。对于此事,美国川普总统在1月27号也发表了回应,他说DeepSeek的出现,是对美国科技主导地位的挑战,应该成为美国AI行业的警钟。特朗普还称赞了DeepSeek的低成本模式,认为这会对AI领域带来了积极影响,可能会减少巨额支出并取得相同成果。说的很诚恳。

事实上,AI大模型开发的竞争是一场关乎未来科技格局和产业变革的战略性竞争。AI技术突破与生态建设将成为两大核心驱动力,共同推动着AI大模型技术的进步。可以预言,AI大模型的竞争将更加激烈,技术创新将更加活跃,应用场景将更加广泛。但是值得注意的是,如果在AI大模型开发过程中没有任何人性伦理和社会责任的考量,人类被AI全面“碾压”的时代也许会很快到来。

ahhhh 发表评论于
In AI world, open source really does not mean much? 为啥META 要开源LLAMA?不就是去打chatgpt?
价格低不好?Google Gemini 不就是打低价?
大号蚂蚁 发表评论于
还是数据挖掘水平
硅谷工匠 发表评论于
Interesting to learn about the lower level coding. Interesting. In AI world, open source really does not mean much. The parameter library is not open or portable. Deep Seek's API per token charge is only 1/100 of Optn AI, the "China price". The Open Source is like a great hotel that allows anyone to stay and visit, but you can not take anything with you. The lower level foundation model is unsupervised learning based on the corpus of training. But Deep Seek distilled the Open AI API and got rid of a lot of garbage.
登录后才可评论.