DeepSeek V4发布碰到了什么问题？国产大模型都在搞什么？

DeepSeek关注度很高，多次市场传言有大版本更新，最近在传4月末更新V4。比较真的消息是，DeepSeek在以100亿美元寻求融资3亿美元。

融资这个事，应该不是DeepSeek缺钱。由于股民的贡献，幻方量化从A股搞钱效率很高，700亿规模的私募，2025年收益率56.6%，百亿私募中排名第二。我初步理解了量方的投资原理，股民真的搞不过，游资都不行，前一段时间纷纷公开认输。私募赚的钱主要是客户的，但量化经营方也有1%管理费和20%业绩提成，如果拿这钱支持DeepSeek，钱是够的。

但最近一些DeepSeek研发核心被挖走了，甚至有传1亿挖人的（已辟谣）。显然，DeepSeek给的百万级别年薪已经不够留人，需要用股权来激励。因此融资3亿美元，以后再融可能估值增长，研发人员就能算出自己手头的股权、期权价值多少，别家再要挖就不容易了。

从技术角度来说，其实DeepSeek现在跑的版本，已经落后业界很多了。排行榜上早没影了，闭源、开源版上性能都落后了。现在中国打榜的是另外几家，一个是Kimi K2.5（刚发布K2.6），有一些新闻，如Cursor套壳Kimi K2.5被抓包，不得不承认。还有两个港股上市的，智谱GLM 5.1，以及Minimax M2.7。这三家积极融资，有明确估值的，升得很快。智谱市值4400亿港元，Minimax也有2800亿港元。Kimi融资估值3个月翻4倍，已经180亿美元了，也有IPO传言。

另外阿里的Qwen是国产大模型全球打榜主力，但是碰到了“不知道用来干什么业务”的麻烦。

为什么说DeepSeek落后了？从几项大模型的能力能看出来。一个是我认为非常重要的“原生多模态”架构（Native Multimodal），这个Kimi 2.5已经有了，图像和视频生成token和文字token一起训练。国产主力大模型一般不是，是用一个专门的图像视频大模型，将图像视频转成文字，再输入文字大模型。例如GLM 5.1是文本大模型，但有一个GLM-5V-Turbo模型，把图像视频处理成文字，再转给GLM 5.1，显得也能识别图像，但这就不是Native原生的。MiniMax主打的是最新的M2.7，也是文本大模型，处理视频的是Hailuo 2.3，音乐、语音都有专门的模型处理。GLM和MiniMax下面都要出原生多模态的大版本。

Qwen有Qwen2.5-VL，这是原生多模态大模型。Qwen3.6 是最新的，也是原生多模态的，这个走闭源了。要注意中国头部公司也逐渐选择闭源了，GLM-5V-Turbo也闭源了，MiniMax的视频、语音、音乐模型都闭源。可以看出，多模态是价值更高的技术，要闭源赚钱。

所以，DeepSeek V4如果要发布了，肯定要有原生多模态能力，不然没意义了。这方面非常重要，没有的话，技术落后太多了。DeepSeek-OCR、DeepSeek-VL是有做视觉的，但不能只是单独做个视觉工具，需要原生融合进V4里。

还有另外一个很重要的能力，就是Agent，这方面是编程方向的，搞得很吓人了。Anthropic靠这个能力在赶超OpenAI，几家国产大模型都拿这个当主力方向，甚至比多模态还重要。而DeepSeek没有发布任何这个方向的专门更新，选择让第三方来做Agent。这方面也是要补的，V4发布Agent会是最值得关注的能力。这也是国产大模型与美国差距最大的方向，赚钱能力差了100倍。

除了这些国产大模型，还有字节的豆包大模型路线不一样，也不开源。豆包技术上这些都有，但有庞大的内部业务，所以内部应用非常活跃，特别是视频业务，每日token数远远超过其它国产大模型之和，在和谷歌争全球第一。

另外，还有全国产化路线，就是迅飞星火大模型代表的，训练平台和硬件全国产。这方面暂时不追求性能，但要求完全自主可控，一些核心部门部署的会要求全国产。传DeepSeek V4用昇腾来跑，放弃英伟达。如果这样，那也是在往全国产化方向走。

总体来说，个人认为DeepSeek V4不太可能做到性能领先全球，不会造成去年初那样大的冲击。预期是，能补上原生多模态、Agent的短板就不错了。如果是基于昇腾的，那在技术平台上就有很大贡献。当然现在有实力的国产大模型也多了，不需要再靠DeepSeek了，历史贡献已经足够优秀了。