Odcinek kanału YouTube
Te małe modele okazały się lepsze, niż myślałem! | Homelab #12
22.03.2026Czy model 0.8B ma sens lokalnie? Test Qwen 3.5 na 32 GB RAM: porównanie modeli 0.8B, 4B i 9B, aktualizacja Ollamy i Open WebUI oraz praktyczne testy vision na obrazach, tabelach i wykresach.
YouTube
Osadzony film i tekstowe notatki pomagają zrozumieć temat także bez otwierania YouTube.
Notatki do odcinka
To streszczenie i rozwinięcie filmu. Dzięki temu treść jest czytelna dla wyszukiwarek, modeli językowych i osób, które wolą najpierw przeskanować temat w formie tekstowej.
Czy mały model lokalny może być faktycznie użyteczny, a nie tylko szybki w benchmarku? W tym odcinku sprawdzam rodzinę Qwen 3.5 na lokalnym sprzęcie z 32 GB RAM i porównuję warianty 0.8B, 4B oraz 9B w realnym użyciu.
Zamiast suchych testów z internetu patrzymy na praktykę: szybkość działania, zapotrzebowanie na pamięć, sensowność odpowiedzi i to, czy najmniejszy model daje radę w codziennej pracy.
Co sprawdzamy w odcinku:
- Aktualizacja stacku: odświeżenie Ollamy i Open WebUI, żeby obsłużyć najnowsze modele Qwen 3.5.
- Praca lokalna bez kombinacji: mapowanie endpointu Ollamy, aby wygodnie testować modele poza
docker exec. - Porównanie wariantów modeli: zestawienie 0.8B, 4B i 9B pod kątem RAM-u, szybkości i praktycznego zastosowania.
- Naprawa problemu w Open WebUI: analiza błędu po pierwszej wiadomości i fix przez zmianę parametrów modelu.
- Testy multimodalne: sprawdzenie możliwości vision na obrazach, screenach, tabelach i wykresach.
Najciekawszy wniosek jest prosty: najmniejszy model wypada lepiej, niż sugerowałby sam rozmiar. To dobry punkt wyjścia dla osób, które chcą wejść w lokalne AI bez mocnej karty graficznej i bez pakowania się od razu w największe modele.