Старший научный руководитель NVIDIA Джим Фан высоко оценивает DeepSeek R1: Истинное воплощение миссии открытого ИИ

Экспертное признание

Старший научный руководитель NVIDIA Джим Фан недавно поделился своей глубокой оценкой DeepSeek R1 в социальных сетях. Как соучредитель GEAR Lab, руководитель проекта GR00T, доктор философии Стэнфорда и первый стажер OpenAI, взгляды Фана имеют значительный вес в отрасли. Он особенно подчеркнул выдающийся вклад DeepSeek в развитие открытого ИИ как не-американской компании.

Наследник духа открытого исходного кода

В своем комментарии Фан отметил: "Мы живем в эпоху, когда не-американская компания сохраняет оригинальную миссию OpenAI - действительно открытые, передовые исследования, которые дают возможности всем. Это кажется нелогичным. Самый интересный результат - самый вероятный." Он особенно оценил то, что DeepSeek не только открывает исходный код множества моделей, но и раскрывает все секреты обучения.

Глубокий анализ технических инноваций

После тщательного изучения технической статьи DeepSeek R1, Фан выделил несколько ключевых технических прорывов:

  1. Подход чистого обучения с подкреплением:

    • Использует метод "холодного старта", полностью управляемый RL, без SFT вообще
    • Напоминает прорыв AlphaZero в освоении Go, Сёги и Шахмат с нуля
    • Считается самым значительным выводом из статьи
  2. Инновационный механизм вознаграждения:

    • Использует истинные вознаграждения, вычисляемые по жестко закодированным правилам
    • Избегает обученных моделей вознаграждения, которые RL может легко обойти
  3. Эволюция времени размышления:

    • Время размышления модели стабильно увеличивается по мере обучения
    • Это возникающее свойство, не запрограммированное заранее
  4. Инновация алгоритма GRPO:

    • Удаляет сеть критика из PPO
    • Вместо этого использует среднее вознаграждение нескольких образцов
    • Простой метод для уменьшения использования памяти
    • Примечательно, что GRPO был изобретен DeepSeek в феврале 2024 года

Новая парадигма технического влияния

Фан особенно отметил, что влияние в ИИ может достигаться разными способами: "Влияние может быть достигнуто через 'ASI достигнут внутренне' или мифические названия вроде 'Проект Клубника'. Влияние также может быть достигнуто простым раскрытием сырых алгоритмов и графиков обучения matplotlib." Эта перспектива подчеркивает важность открытости и прозрачности.

Пример устойчивых инноваций

По мнению Фана, DeepSeek, возможно, является первым проектом с открытым исходным кодом, который показывает значительный, устойчивый рост маховика RL. Этот непрерывный технический прогресс и открытый подход устанавливают важный ориентир для всего AI-сообщества.

Заключение

Оценка Джима Фана не только подтверждает технические достижения DeepSeek R1, но и подчеркивает его значительный вклад в демократизацию ИИ и дух открытого исходного кода. Как авторитет в отрасли, его признание дополнительно подтверждает важную позицию DeepSeek в глобальном ландшафте ИИ.

Чтобы изучить инновации DeepSeek R1 самостоятельно, посетите DeepSeek R1 Chat.