DeepSeek V4发布碰到了什么问题?国产大模型都在搞什么?
DeepSeek关注度很高,多次市场传言有大版本更新,最近在传4月末更新V4。比较真的消息是,DeepSeek在以100亿美元寻求融资3亿美元。
融资这个事,应该不是DeepSeek缺钱。由于股民的贡献,幻方量化从A股搞钱效率很高,700亿规模的私募,2025年收益率56.6%,百亿私募中排名第二。我初步理解了量方的投资原理,股民真的搞不过,游资都不行,前一段时间纷纷公开认输。私募赚的钱主要是客户的,但量化经营方也有1%管理费和20%业绩提成,如果拿这钱支持DeepSeek,钱是够的。
但最近一些DeepSeek研发核心被挖走了,甚至有传1亿挖人的(已辟谣)。显然,DeepSeek给的百万级别年薪已经不够留人,需要用股权来激励。因此融资3亿美元,以后再融可能估值增长,研发人员就能算出自己手头的股权、期权价值多少,别家再要挖就不容易了。
从技术角度来说,其实DeepSeek现在跑的版本,已经落后业界很多了。排行榜上早没影了,闭源、开源版上性能都落后了。现在中国打榜的是另外几家,一个是Kimi K2.5(刚发布K2.6),有一些新闻,如Cursor套壳Kimi K2.5被抓包,不得不承认。还有两个港股上市的,智谱GLM 5.1,以及Minimax M2.7。这三家积极融资,有明确估值的,升得很快。智谱市值4400亿港元,Minimax也有2800亿港元。Kimi融资估值3个月翻4倍,已经180亿美元了,也有IPO传言。
另外阿里的Qwen是国产大模型全球打榜主力,但是碰到了“不知道用来干什么业务”的麻烦。
为什么说DeepSeek落后了?从几项大模型的能力能看出来。一个是我认为非常重要的“原生多模态”架构(Native Multimodal),这个Kimi 2.5已经有了,图像和视频生成token和文字token一起训练。国产主力大模型一般不是,是用一个专门的图像视频大模型,将图像视频转成文字,再输入文字大模型。例如GLM 5.1是文本大模型,但有一个GLM-5V-Turbo模型,把图像视频处理成文字,再转给GLM 5.1,显得也能识别图像,但这就不是Native原生的。MiniMax主打的是最新的M2.7,也是文本大模型,处理视频的是Hailuo 2.3,音乐、语音都有专门的模型处理。GLM和MiniMax下面都要出原生多模态的大版本。
Qwen有Qwen2.5-VL,这是原生多模态大模型。Qwen3.6 是最新的,也是原生多模态的,这个走闭源了。要注意中国头部公司也逐渐选择闭源了,GLM-5V-Turbo也闭源了,MiniMax的视频、语音、音乐模型都闭源。可以看出,多模态是价值更高的技术,要闭源赚钱。
所以,DeepSeek V4如果要发布了,肯定要有原生多模态能力,不然没意义了。这方面非常重要,没有的话,技术落后太多了。DeepSeek-OCR、DeepSeek-VL是有做视觉的,但不能只是单独做个视觉工具,需要原生融合进V4里。
还有另外一个很重要的能力,就是Agent,这方面是编程方向的,搞得很吓人了。Anthropic靠这个能力在赶超OpenAI,几家国产大模型都拿这个当主力方向,甚至比多模态还重要。而DeepSeek没有发布任何这个方向的专门更新,选择让第三方来做Agent。这方面也是要补的,V4发布Agent会是最值得关注的能力。这也是国产大模型与美国差距最大的方向,赚钱能力差了100倍。
除了这些国产大模型,还有字节的豆包大模型路线不一样,也不开源。豆包技术上这些都有,但有庞大的内部业务,所以内部应用非常活跃,特别是视频业务,每日token数远远超过其它国产大模型之和,在和谷歌争全球第一。
另外,还有全国产化路线,就是迅飞星火大模型代表的,训练平台和硬件全国产。这方面暂时不追求性能,但要求完全自主可控,一些核心部门部署的会要求全国产。传DeepSeek V4用昇腾来跑,放弃英伟达。如果这样,那也是在往全国产化方向走。
总体来说,个人认为DeepSeek V4不太可能做到性能领先全球,不会造成去年初那样大的冲击。预期是,能补上原生多模态、Agent的短板就不错了。如果是基于昇腾的,那在技术平台上就有很大贡献。当然现在有实力的国产大模型也多了,不需要再靠DeepSeek了,历史贡献已经足够优秀了。