Twój koszyk jest obecnie pusty!
TL;DR:
- DeepSeek wypuścił nowe modele AI: R1 i R1.0, wraz z 6 mniejszymi modelami destylowanymi
- Główne modele (R1 i R1.0) mają 685 miliardów parametrów i wymagają minimum klastra 8 GPU H100
- DeepSeek R1.0 został wytrenowany bezpośrednio na modelu bazowym przy użyciu tylko Reinforcement Learning (RL), bez etapu Supervised Fine Tuning (SFT)
- DeepSeek R1 przeszedł 4-stopniowy proces treningu, który poprawił problemy R1.0 (mieszanie języków, czytelność)
- Wprowadzono nową metodę uczenia – Grouped Relative Policy Optimization (GRPO), która nie wymaga zewnętrznego modelu nagradzającego (reward model)
- Modele osiągają wyniki zbliżone lub lepsze od OpenAI O1 Mini w wielu benchmarkach
- Mniejsze modele destylowane (np. 14B) potrafią przewyższać wydajnością większe modele (np. 32B)
- Obecnie modele obsługują tylko język angielski i chiński
- Główne ograniczenia: słaba obsługa function calling, czatów wieloturowych i generowania JSON; duża wrażliwość na sposób promptowania
- Modele są open source i dostępne do pobrania
- Model wykazuje zdolność do samoewolucji podczas treningu, samodzielnie ucząc się i optymalizując sposoby rozwiązywania problemów bez zewnętrznego zasilania wiedzą.
20 stycznia 2025 roku firma DeepSeek zaprezentowała nową serię modeli językowych. Główne modele R1 i R1.0, wraz z sześcioma mniejszymi modelami destylowanymi, wprowadzają nowe podejście do procesu uczenia maszynowego.
Specyfikacja techniczna i wymagania sprzętowe
Modele DeepSeek R1 i R1.0 to konstrukcje typu MOE (Mixture of Experts) zawierające 685 miliardów parametrów. Do ich uruchomienia wymagany jest minimum klaster składający się z 8 GPU typu H100. W przyszłości planowane jest wydanie wersji kwantyzowanych (4-bit i 8-bit), co powinno zmniejszyć wymagania sprzętowe.
Innowacyjne podejście do treningu
DeepSeek zastosował dwa różne podejścia do treningu:
- DeepSeek R1.0:
- Wykorzystuje wyłącznie Reinforcement Learning (RL) na modelu bazowym DeepSeek v3
- Pomija etap Supervised Fine Tuning (SFT)
- Wprowadza metodę Grouped Relative Policy Optimization (GRPO)
- DeepSeek R1:
- Wykorzystuje 4-stopniowy proces treningu
- Adresuje problemy R1.0 związane z mieszaniem języków
- Poprawia czytelność generowanych odpowiedzi
Metoda GRPO nie wymaga zewnętrznego modelu nagradzającego (reward model). Zamiast tego, model generuje grupę odpowiedzi, które są oceniane pod kątem dokładności i zgodności z formatem myślenia.
Samoewolucja podczas treningu
Szczególnie interesującą cechą jest zdolność modelu do samoewolucji podczas treningu. Model, bez zewnętrznego zasilania wiedzą, samodzielnie:
- Generuje odpowiedzi
- Ocenia ich jakość
- Optymalizuje sposób rozwiązywania zadań
- Wydłuża ciąg rozumowania w kolejnych krokach uczenia
Wydajność i proces destylacji
W testach benchmarkowych modele DeepSeek osiągają wyniki zbliżone lub lepsze od Claude, Sonnet i GPT-4. W niektórych przypadkach przegrywają z modelem O1, ale generalnie utrzymują wysoką pozycję w rankingach.
Mniejsze modele destylowane, bazujące na procesie uczenia się od większych modeli, również wykazują wysoką skuteczność. Model 14-miliardowy potrafi przewyższać wydajnością modele 32-miliardowe.
Obecne ograniczenia
Aktualne ograniczenia modeli DeepSeek obejmują:
- Obsługę tylko języka angielskiego i chińskiego
- Nieoptymalne działanie Function Calling (czym jest function calling wyjaśniam w filmie na temat Agentów AI)
- Ograniczenia w obsłudze czatów wieloturowych i odgrywaniu ról
- Problemy z generowaniem wyjścia w formacie JSON
- Wysoką wrażliwość na sposób promptowania
Dostępność i przyszły rozwój
Modele są dostępne w formie open source na platformie Hugging Face i profilu Deepseek. Zespół DeepSeek zapowiada:
- Rozszerzenie obsługi języków poza angielski i chiński
- Pracę nad odpornością na różne style promptowania
- Poprawę całego pipeline’u treningowego
- Usprawnienie obsługi function calling, czatów wieloturowych i generowania JSON
Podsumowanie
DeepSeek R1 i R1.0 prezentują nowe podejście do trenowania modeli językowych, szczególnie w obszarze uczenia ze wzmocnieniem i samoewolucji modelu. Otwarte udostępnienie kodu źródłowego umożliwia społeczności dostęp do tych rozwiązań.