Deepseek v3.1
DeepSeek-V3.1 是在 DeepSeek-V3.1-Base 的基础上进行后训练的,而 DeepSeek-V3.1-Base 则基于原始 V3 基础检查点,采用两阶段长上下文扩展方法构建而成,遵循原始 DeepSeek-V3 报告中概述的方法。我们通过收集更多长文档并大幅扩展两个训练阶段来扩充数据集。32K 扩展阶段的数据量增加了 10 倍,达到 6300 亿个 token;128K 扩展阶段的数据量增加了 3.3 倍,达到 2090 亿个 token。此外,DeepSeek-V3.1 使用 UE8M0 FP8 数据格式进行训练,以确保与微扩展数据格式的兼容性。
最大输出
128K
上下文
164K
输入
2.4元/百万Token
输出
8元/百万Token