28 maja Anthropic wypuścił Claude Opus 4.8, kolejny krok w linii Opus, który na papierze wygląda jak mały numerek, a w praktyce dowozi sporo tam, gdzie boli najbardziej: kodowanie, zadania agentyczne i analiza dokumentów. To nie rewolucja, to porządny, konkretny upgrade.
Najciekawsza liczba z tego wydania: według wewnętrznych testów Anthropic nowy model jest około czterokrotnie mniej skłonny niż Opus 4.7 do przeoczenia błędów we własnym kodzie. Dla każdego, kto pisze z Claude'em na co dzień, to konkret, mniej cichych wpadek do wyłapywania później. Firma chwali się też niższym poziomem "podstępnych" i niezgodnych z intencją zachowań modelu, a wyniki w testach zgodności z intencją użytkownika mają być na poziomie wcześniejszego Mythos Preview.
Cena zostaje bez zmian, co jest miłą niespodzianką przy lepszym modelu. Standardowo to 5 dolarów za milion tokenów wejścia i 25 za milion wyjścia. Doszedł za to tryb fast: działa około 2,5x szybciej i kosztuje 10 dolarów za milion wejścia oraz 50 za wyjście. Płacisz więcej za prędkość, ale masz wybór, zamiast czekać na ciężkie odpowiedzi w sytuacjach, gdzie liczy się czas.
Druga nowość to Dynamic Workflows, na razie jako research preview w Claude Code. Model potrafi sam zaplanować zadanie, odpalić setki równoległych podagentów w jednej sesji i zweryfikować ich wyniki. To kierunek, w którym całe AI-tooling idzie od miesięcy: mniej "jeden prompt, jedna odpowiedź", więcej orkiestracji roboty w tle.
Do tego doszło Effort Control w Claude.ai i Cowork, czyli suwak decydujący, ile wysiłku model wkłada w odpowiedź. Wyżej ustawione = głębsze rozumowanie, ale dłuższe czekanie i wyższy koszt. Niżej = szybko i tanio. Sensowne, bo nie każde pytanie zasługuje na pełne myślenie flagowego modelu.
W tle wisi temat Mythos, czyli klasa modeli mocniejsza od Opusa, na razie testowana w wąskim gronie (Project Glasswing). Anthropic zapowiada szersze udostępnienie "w ciągu kilku tygodni", po dopięciu dodatkowych zabezpieczeń. Wydanie Opus 4.8 pada też w kontekście wyścigu z OpenAI i rosnących rozmów o IPO, więc tempo premier raczej nie zwolni.
Czego model nie zmienia: to wciąż iteracja, nie skok generacyjny, a najmocniejsze rzeczy (Dynamic Workflows, Mythos) są albo w preview, albo za bramką. Warto poczekać na niezależne benchmarki, zanim uznamy te "4x mniej błędów" za pewnik w swoim własnym workflow.
Źródła: Axios · Help Net Security

