9 czerwca Anthropic udostępnił Claude Fable 5, pierwszy publicznie dostępny model z rodziny Mythos, czyli klasy mocniejszej niż wszystko, co firma wypuszczała do tej pory. To ten sam Mythos, o którym przy premierze Opusa 4.8 mówiło się "za kilka tygodni", tyle że ubrany w zabezpieczenia i wypchnięty do wszystkich, nie tylko do wąskiego grona partnerów.

Na papierze liczby są mocne. Fable 5 jest state-of-the-art na prawie wszystkich testowanych benchmarkach: kodowanie, praca analityczna, wizja, badania naukowe, obsługa komputera. Najciekawsza rzecz dla codziennej roboty to wytrzymałość w trybie agentowym. Odpalony w harnessie typu Claude Code potrafi pracować nad zadaniem przez dni: sam planuje etapy, rozdziela robotę na podagentów i sprawdza własne wyniki. To już nie "jeden prompt, jedna odpowiedź", tylko orkiestracja długich procesów w tle.

Ciekawszy od samych benchmarków jest podział na dwa modele. Fable 5 to wersja dla ludzi, z aktywnymi klasyfikatorami. Mythos 5 to dokładnie ten sam model, ale z wyłączonymi zabezpieczeniami w newralgicznych obszarach, dostępny wyłącznie dla sprawdzonych partnerów od cyberbezpieczeństwa (Project Glasswing) i wybranych naukowców od biologii. Innymi słowy: pełną moc Anthropic trzyma za bramką, a publika dostaje wariant z hamulcami.

Te hamulce działają konkretnie. Zapytania dotyczące cyberbezpieczeństwa, biologii, chemii i zdrowia, które wyglądają na ryzykowne, nie są obsługiwane przez Fable, tylko spadają na starszego Claude Opus 4.8. Anthropic twierdzi, że te przekierowania odpalają się w mniej niż 5% sesji, a po ponad 1000 godzin testów nie znaleziono uniwersalnego jailbreaka. Jest też wymóg 30-dniowego przechowywania danych z takich sesji, na potrzeby obrony przed nowymi atakami.

Co do portfela: Fable 5 kosztuje 10 dolarów za milion tokenów wejścia i 50 za milion wyjścia, czyli dwa razy tyle co Opus 4.8. Do tego dochodzi standardowy 90% rabat na cache'owanie inputu. Model jest dostępny od ręki przez Claude API oraz na AWS, Amazon Bedrock, Vertex AI i Microsoft Foundry, z etapowym wprowadzaniem do planów subskrypcyjnych.

Smaczku dodaje timing. Premiera pada kilka dni po tym, jak Anthropic publicznie ostrzegał, że frontier AI robi się zbyt niebezpieczne, i apelował do branży o skoordynowany "hamulec" przed recursive self-improvement. Wypuszczenie najmocniejszego publicznego modelu w takim momencie to albo dowód, że zabezpieczenia faktycznie działają, albo niezręczność, w zależności od tego, komu wierzysz. Warto pamiętać, że wszystkie te "state-of-the-art" to na razie liczby samego Anthropic, więc na niezależne benchmarki i tak trzeba poczekać.

Źródła: Anthropic · TechCrunch · CNBC