终于有人把我说了无数次的比喻形象用图表达出来了，今天网上到处都是这个图。

2025-01-30 04:46:13

数据训练是构建高效准确的AI模型的核心过程，也是最耗时间，耗算力过程。

当初得瑟问咋做到的时候，我去读了DS的论文，DS论文也明确说是基于开源的meta模型Llama。

当时没想去想在meta模型基础上数据训练的数据是那里来的，现在答案或许已呼之欲出。

DeepSeek依靠 “蒸馏”OpenAI 模型的数据来帮助开发自家技术，这个当然低成本啊。

DS低成本和快速突破根植于高质量数据投喂，60万条核心推理数据/20万条监督微调数据/300-500万的RLHF人工偏好数据集，如此规模的优质合成数据，究竟从何而来？答案或许已呼之欲出。

DS=?meta开源模型 + OpenAI高质量数据 + 自己的工艺。

这样，的确是快速而低成本。

登录后才可评论.

终于有人把我说了无数次的比喻形象用图表达出来了，今天网上到处都是这个图。

今日热点

一周热点