Экспертное признание
Старший научный руководитель NVIDIA Джим Фан недавно поделился своей глубокой оценкой DeepSeek R1 в социальных сетях. Как соучредитель GEAR Lab, руководитель проекта GR00T, доктор философии Стэнфорда и первый стажер OpenAI, взгляды Фана имеют значительный вес в отрасли. Он особенно подчеркнул выдающийся вклад DeepSeek в развитие открытого ИИ как не-американской компании.
Наследник духа открытого исходного кода
В своем комментарии Фан отметил: "Мы живем в эпоху, когда не-американская компания сохраняет оригинальную миссию OpenAI - действительно открытые, передовые исследования, которые дают возможности всем. Это кажется нелогичным. Самый интересный результат - самый вероятный." Он особенно оценил то, что DeepSeek не только открывает исходный код множества моделей, но и раскрывает все секреты обучения.
Глубокий анализ технических инноваций
После тщательного изучения технической статьи DeepSeek R1, Фан выделил несколько ключевых технических прорывов:
-
Подход чистого обучения с подкреплением:
- Использует метод "холодного старта", полностью управляемый RL, без SFT вообще
- Напоминает прорыв AlphaZero в освоении Go, Сёги и Шахмат с нуля
- Считается самым значительным выводом из статьи
-
Инновационный механизм вознаграждения:
- Использует истинные вознаграждения, вычисляемые по жестко закодированным правилам
- Избегает обученных моделей вознаграждения, которые RL может легко обойти
-
Эволюция времени размышления:
- Время размышления модели стабильно увеличивается по мере обучения
- Это возникающее свойство, не запрограммированное заранее
-
Инновация алгоритма GRPO:
- Удаляет сеть критика из PPO
- Вместо этого использует среднее вознаграждение нескольких образцов
- Простой метод для уменьшения использования памяти
- Примечательно, что GRPO был изобретен DeepSeek в феврале 2024 года
Новая парадигма технического влияния
Фан особенно отметил, что влияние в ИИ может достигаться разными способами: "Влияние может быть достигнуто через 'ASI достигнут внутренне' или мифические названия вроде 'Проект Клубника'. Влияние также может быть достигнуто простым раскрытием сырых алгоритмов и графиков обучения matplotlib." Эта перспектива подчеркивает важность открытости и прозрачности.
Пример устойчивых инноваций
По мнению Фана, DeepSeek, возможно, является первым проектом с открытым исходным кодом, который показывает значительный, устойчивый рост маховика RL. Этот непрерывный технический прогресс и открытый подход устанавливают важный ориентир для всего AI-сообщества.
Заключение
Оценка Джима Фана не только подтверждает технические достижения DeepSeek R1, но и подчеркивает его значительный вклад в демократизацию ИИ и дух открытого исходного кода. Как авторитет в отрасли, его признание дополнительно подтверждает важную позицию DeepSeek в глобальном ландшафте ИИ.
Чтобы изучить инновации DeepSeek R1 самостоятельно, посетите DeepSeek R1 Chat.