DeepSeek pristatė „distiliuotą“ atnaujintos dirbtinio intelekto modelio R1 versiją – jai užtenka vienos vaizdo plokštės
Kinijos startuolis DeepSeek kartu su patobulinta dirbtinio intelekto modelio R1 versija, turinčia 685 mlrd. parametrų ir gebėjimą samprotauti, pristatė dar vieną, daug mažesnę R1 versiją, sukurtą distiliavimo metodu – DeepSeek-R1-0528-Qwen3-8B. Anot kūrėjų, naujoji versija lenkia panašaus dydžio modelius keliuose testuose.
Pranešama, kad DeepSeek-R1-0528-Qwen3-8B, sukurta distiliavimo metodu, remiantis šių metų gegužę „Alibaba“ pristatytu Qwen3-8B modeliu, matematiniame AIME 2025 teste pasirodė geriau nei „Google“ Gemini 2.5 Flash. Be to, DeepSeek-R1-0528-Qwen3-8B „beveik prilygsta“ neseniai „Microsoft“ pristatytam Phi 4 Plus samprotavimo modeliui kitame matematinių gebėjimų teste – HMMT.
Nors distiliavimo metodu sukurti modeliai paprastai yra mažiau efektyvūs nei pilno dydžio analogai, jie reikalauja gerokai mažiau skaičiavimo resursų. Remiantis debesų platformos „NodeShift“ duomenimis, Qwen3-8B veikimui reikalinga GPU su 40–80 GB operatyviosios atminties (pavyzdžiui, „Nvidia H100“). Palyginimui, pilnavertei atnaujintai R1 versijai reikia apie tuzino GPU, kurių kiekvienos atmintis siekia 80 GB.
Mokant DeepSeek-R1-0528-Qwen3-8B modelį, startuolis naudojo tekstą, sugeneruotą atnaujintos R1 modelio, kad tiksliai sureguliuotų Qwen3-8B. Aprašyme dirbtinio intelekto kūrimo platformoje „Hugging Face“ startuolis nurodė, kad šis samprotavimo modelis gali būti naudojamas „tiek akademiniams tyrimams, tiek pramoninei plėtrai, orientuotai į mažo masto modelius“.
DeepSeek-R1-0528-Qwen3-8B platinamas pagal liberalią MIT licenciją, leidžiančią naudoti modelį komerciniais tikslais be apribojimų. Keletas programų, įskaitant „LM Studio“, jau siūlo šį modelį per API.