Tworzenie bloków Gutenberg z użyciem ChatGPT.

Zobacz kurs

Podstawy AWS.

Automatyzacja procesów z Make.com

WordPress z AI i Model Context Protocol

WordPress z AI i Model Context Protocol

Nowy plugin Secure Custom Fields i konflikt na horyzoncie

Nowy plugin Secure Custom Fields i konflikt na horyzoncie

Przyszłość projektowania w WordPressie: Blokowe rewolucje i wizje Franka Kleina

Przyszłość projektowania w WordPressie: Blokowe rewolucje i wizje Franka Kleina

Optymalizacja obrazów w WordPress: jak przyspieszyć witrynę i poprawić jakość?

Optymalizacja obrazów w WordPress: jak przyspieszyć witrynę i poprawić jakość?

Najlepsze wtyczki do sprzedaży biletów na WordPressie

Najlepsze wtyczki do sprzedaży biletów na WordPressie

Zobacz więcej
Szybki kurs Cursor AI + Vibe Coding: fullstack’owa aplikacja w 4 krokach!

Szybki kurs Cursor AI + Vibe Coding: fullstack’owa aplikacja w 4 krokach!

Jakie pytania zadają benchmarki AI?

Jakie pytania zadają benchmarki AI?

Jak działa RAG? Proste wytłumaczenie systemu niezbędnego we współczesnej firmie

Jak działa RAG? Proste wytłumaczenie systemu niezbędnego we współczesnej firmie

Bielik – Polski Model AI: Wszystko, Co Musisz Wiedzieć

Bielik – Polski Model AI: Wszystko, Co Musisz Wiedzieć

Deepseek R1 – Fakty i mity. Recenzja i analiza chińskiego modelu.

Deepseek R1 – Fakty i mity. Recenzja i analiza chińskiego modelu.

Zobacz więcej

DeepSeek-R1 – Komentarz techniczny

Przeskocz do treści

Awatar Mike Tomala

TL;DR:

  • DeepSeek wypuścił nowe modele AI: R1 i R1.0, wraz z 6 mniejszymi modelami destylowanymi
  • Główne modele (R1 i R1.0) mają 685 miliardów parametrów i wymagają minimum klastra 8 GPU H100
  • DeepSeek R1.0 został wytrenowany bezpośrednio na modelu bazowym przy użyciu tylko Reinforcement Learning (RL), bez etapu Supervised Fine Tuning (SFT)
  • DeepSeek R1 przeszedł 4-stopniowy proces treningu, który poprawił problemy R1.0 (mieszanie języków, czytelność)
  • Wprowadzono nową metodę uczenia – Grouped Relative Policy Optimization (GRPO), która nie wymaga zewnętrznego modelu nagradzającego (reward model)
  • Modele osiągają wyniki zbliżone lub lepsze od OpenAI O1 Mini w wielu benchmarkach
  • Mniejsze modele destylowane (np. 14B) potrafią przewyższać wydajnością większe modele (np. 32B)
  • Obecnie modele obsługują tylko język angielski i chiński
  • Główne ograniczenia: słaba obsługa function calling, czatów wieloturowych i generowania JSON; duża wrażliwość na sposób promptowania
  • Modele są open source i dostępne do pobrania
  • Model wykazuje zdolność do samoewolucji podczas treningu, samodzielnie ucząc się i optymalizując sposoby rozwiązywania problemów bez zewnętrznego zasilania wiedzą.

20 stycznia 2025 roku firma DeepSeek zaprezentowała nową serię modeli językowych. Główne modele R1 i R1.0, wraz z sześcioma mniejszymi modelami destylowanymi, wprowadzają nowe podejście do procesu uczenia maszynowego.

Specyfikacja techniczna i wymagania sprzętowe

Modele DeepSeek R1 i R1.0 to konstrukcje typu MOE (Mixture of Experts) zawierające 685 miliardów parametrów. Do ich uruchomienia wymagany jest minimum klaster składający się z 8 GPU typu H100. W przyszłości planowane jest wydanie wersji kwantyzowanych (4-bit i 8-bit), co powinno zmniejszyć wymagania sprzętowe.

Innowacyjne podejście do treningu

DeepSeek zastosował dwa różne podejścia do treningu:

  1. DeepSeek R1.0:
    • Wykorzystuje wyłącznie Reinforcement Learning (RL) na modelu bazowym DeepSeek v3
    • Pomija etap Supervised Fine Tuning (SFT)
    • Wprowadza metodę Grouped Relative Policy Optimization (GRPO)
  2. DeepSeek R1:
    • Wykorzystuje 4-stopniowy proces treningu
    • Adresuje problemy R1.0 związane z mieszaniem języków
    • Poprawia czytelność generowanych odpowiedzi

Metoda GRPO nie wymaga zewnętrznego modelu nagradzającego (reward model). Zamiast tego, model generuje grupę odpowiedzi, które są oceniane pod kątem dokładności i zgodności z formatem myślenia.

Samoewolucja podczas treningu

Szczególnie interesującą cechą jest zdolność modelu do samoewolucji podczas treningu. Model, bez zewnętrznego zasilania wiedzą, samodzielnie:

  • Generuje odpowiedzi
  • Ocenia ich jakość
  • Optymalizuje sposób rozwiązywania zadań
  • Wydłuża ciąg rozumowania w kolejnych krokach uczenia

Wydajność i proces destylacji

W testach benchmarkowych modele DeepSeek osiągają wyniki zbliżone lub lepsze od Claude, Sonnet i GPT-4. W niektórych przypadkach przegrywają z modelem O1, ale generalnie utrzymują wysoką pozycję w rankingach.

Mniejsze modele destylowane, bazujące na procesie uczenia się od większych modeli, również wykazują wysoką skuteczność. Model 14-miliardowy potrafi przewyższać wydajnością modele 32-miliardowe.

Obecne ograniczenia

Aktualne ograniczenia modeli DeepSeek obejmują:

  • Obsługę tylko języka angielskiego i chińskiego
  • Nieoptymalne działanie Function Calling (czym jest function calling wyjaśniam w filmie na temat Agentów AI)
  • Ograniczenia w obsłudze czatów wieloturowych i odgrywaniu ról
  • Problemy z generowaniem wyjścia w formacie JSON
  • Wysoką wrażliwość na sposób promptowania

Dostępność i przyszły rozwój

Modele są dostępne w formie open source na platformie Hugging Face i profilu Deepseek. Zespół DeepSeek zapowiada:

  • Rozszerzenie obsługi języków poza angielski i chiński
  • Pracę nad odpornością na różne style promptowania
  • Poprawę całego pipeline’u treningowego
  • Usprawnienie obsługi function calling, czatów wieloturowych i generowania JSON

Podsumowanie

DeepSeek R1 i R1.0 prezentują nowe podejście do trenowania modeli językowych, szczególnie w obszarze uczenia ze wzmocnieniem i samoewolucji modelu. Otwarte udostępnienie kodu źródłowego umożliwia społeczności dostęp do tych rozwiązań.

Newsletter. I wszystko jasne.

Nieominie Cię żadna ważna informacja.

Obiecuje nigdy nie wysyłać spamu, ani scamu! Sprawdź Politykę Prywatności.

Zamknij