海量财经|“AI界拼多多”推全新大模型 曾误称自己是ChatGpt
2025-01-03 16:08 海报新闻
海报新闻记者 赵恩 上海报道
近日,有着“AI界的拼多多”之称的深度求索发文称,旗下全新系列模型DeepSeek-V3首个版本上线并同步开源。
深度求索表示,DeepSeek-V3为自研MoE模型,671B参数,激活37B,在14.8T token上进行了预训练。DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
来源:深度求索公众号
推文称,DeepSeek-V3在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代DeepSeek-V2.5显著提升,接近当前表现最好的模型Claude-3.5-Sonnet-1022。在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型。在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3大幅超过了所有开源和闭源模型。
此前有媒体报道,在DeepSeek-V3提问“你是什么模型”时,其回复称“我是一个名为ChatGPT的AI语言模型,由OpenAl开发”,并称该模型是“基于GPT-4架构”。该回复引发质疑,有人认为DeepSeek-V3可能是在ChatGPT的数据基础上训练的。
1月2日,海报新闻记者向深度求索发出采访请求,公司表示暂不接受采访。