Tworzenie bloków Gutenberg z użyciem ChatGPT.

Zobacz kurs

Podstawy AWS.

Automatyzacja procesów z Make.com

Nowy plugin Secure Custom Fields i konflikt na horyzoncie

Nowy plugin Secure Custom Fields i konflikt na horyzoncie

Przyszłość projektowania w WordPressie: Blokowe rewolucje i wizje Franka Kleina

Przyszłość projektowania w WordPressie: Blokowe rewolucje i wizje Franka Kleina

Optymalizacja obrazów w WordPress: jak przyspieszyć witrynę i poprawić jakość?

Optymalizacja obrazów w WordPress: jak przyspieszyć witrynę i poprawić jakość?

Najlepsze wtyczki do sprzedaży biletów na WordPressie

Najlepsze wtyczki do sprzedaży biletów na WordPressie

Odkryj Interactivity API w WordPressie

Odkryj Interactivity API w WordPressie

Zobacz więcej
Deepseek R1 – Fakty i mity. Recenzja i analiza chińskiego modelu.

Deepseek R1 – Fakty i mity. Recenzja i analiza chińskiego modelu.

DeepSeek-R1 – Komentarz techniczny

DeepSeek-R1 – Komentarz techniczny

Anatomia Agenta AI – Kompletny przewodnik techniczny

Anatomia Agenta AI – Kompletny przewodnik techniczny

Agent AI – Kompleksowy przewodnik

Agent AI – Kompleksowy przewodnik

Agenty AI: Dlaczego wertykalne rozwiązania AI mogą być 10 razy większe niż rozwiązania SaaS

Agenty AI: Dlaczego wertykalne rozwiązania AI mogą być 10 razy większe niż rozwiązania SaaS

Zobacz więcej

DeepSeek-R1 – Komentarz techniczny

Przeskocz do treści

Awatar Mike Tomala

TL;DR:

  • DeepSeek wypuścił nowe modele AI: R1 i R1.0, wraz z 6 mniejszymi modelami destylowanymi
  • Główne modele (R1 i R1.0) mają 685 miliardów parametrów i wymagają minimum klastra 8 GPU H100
  • DeepSeek R1.0 został wytrenowany bezpośrednio na modelu bazowym przy użyciu tylko Reinforcement Learning (RL), bez etapu Supervised Fine Tuning (SFT)
  • DeepSeek R1 przeszedł 4-stopniowy proces treningu, który poprawił problemy R1.0 (mieszanie języków, czytelność)
  • Wprowadzono nową metodę uczenia – Grouped Relative Policy Optimization (GRPO), która nie wymaga zewnętrznego modelu nagradzającego (reward model)
  • Modele osiągają wyniki zbliżone lub lepsze od OpenAI O1 Mini w wielu benchmarkach
  • Mniejsze modele destylowane (np. 14B) potrafią przewyższać wydajnością większe modele (np. 32B)
  • Obecnie modele obsługują tylko język angielski i chiński
  • Główne ograniczenia: słaba obsługa function calling, czatów wieloturowych i generowania JSON; duża wrażliwość na sposób promptowania
  • Modele są open source i dostępne do pobrania
  • Model wykazuje zdolność do samoewolucji podczas treningu, samodzielnie ucząc się i optymalizując sposoby rozwiązywania problemów bez zewnętrznego zasilania wiedzą.

20 stycznia 2025 roku firma DeepSeek zaprezentowała nową serię modeli językowych. Główne modele R1 i R1.0, wraz z sześcioma mniejszymi modelami destylowanymi, wprowadzają nowe podejście do procesu uczenia maszynowego.

Specyfikacja techniczna i wymagania sprzętowe

Modele DeepSeek R1 i R1.0 to konstrukcje typu MOE (Mixture of Experts) zawierające 685 miliardów parametrów. Do ich uruchomienia wymagany jest minimum klaster składający się z 8 GPU typu H100. W przyszłości planowane jest wydanie wersji kwantyzowanych (4-bit i 8-bit), co powinno zmniejszyć wymagania sprzętowe.

Innowacyjne podejście do treningu

DeepSeek zastosował dwa różne podejścia do treningu:

  1. DeepSeek R1.0:
    • Wykorzystuje wyłącznie Reinforcement Learning (RL) na modelu bazowym DeepSeek v3
    • Pomija etap Supervised Fine Tuning (SFT)
    • Wprowadza metodę Grouped Relative Policy Optimization (GRPO)
  2. DeepSeek R1:
    • Wykorzystuje 4-stopniowy proces treningu
    • Adresuje problemy R1.0 związane z mieszaniem języków
    • Poprawia czytelność generowanych odpowiedzi

Metoda GRPO nie wymaga zewnętrznego modelu nagradzającego (reward model). Zamiast tego, model generuje grupę odpowiedzi, które są oceniane pod kątem dokładności i zgodności z formatem myślenia.

Samoewolucja podczas treningu

Szczególnie interesującą cechą jest zdolność modelu do samoewolucji podczas treningu. Model, bez zewnętrznego zasilania wiedzą, samodzielnie:

  • Generuje odpowiedzi
  • Ocenia ich jakość
  • Optymalizuje sposób rozwiązywania zadań
  • Wydłuża ciąg rozumowania w kolejnych krokach uczenia

Wydajność i proces destylacji

W testach benchmarkowych modele DeepSeek osiągają wyniki zbliżone lub lepsze od Claude, Sonnet i GPT-4. W niektórych przypadkach przegrywają z modelem O1, ale generalnie utrzymują wysoką pozycję w rankingach.

Mniejsze modele destylowane, bazujące na procesie uczenia się od większych modeli, również wykazują wysoką skuteczność. Model 14-miliardowy potrafi przewyższać wydajnością modele 32-miliardowe.

Obecne ograniczenia

Aktualne ograniczenia modeli DeepSeek obejmują:

  • Obsługę tylko języka angielskiego i chińskiego
  • Nieoptymalne działanie Function Calling (czym jest function calling wyjaśniam w filmie na temat Agentów AI)
  • Ograniczenia w obsłudze czatów wieloturowych i odgrywaniu ról
  • Problemy z generowaniem wyjścia w formacie JSON
  • Wysoką wrażliwość na sposób promptowania

Dostępność i przyszły rozwój

Modele są dostępne w formie open source na platformie Hugging Face i profilu Deepseek. Zespół DeepSeek zapowiada:

  • Rozszerzenie obsługi języków poza angielski i chiński
  • Pracę nad odpornością na różne style promptowania
  • Poprawę całego pipeline’u treningowego
  • Usprawnienie obsługi function calling, czatów wieloturowych i generowania JSON

Podsumowanie

DeepSeek R1 i R1.0 prezentują nowe podejście do trenowania modeli językowych, szczególnie w obszarze uczenia ze wzmocnieniem i samoewolucji modelu. Otwarte udostępnienie kodu źródłowego umożliwia społeczności dostęp do tych rozwiązań.