Fable 5 jailbreaknut a stažen americkou vládou

Anthropic 9. června uvedl svůj nejvýkonnější model pro veřejnost Fable 5 což je osekaný Mythos který vyniká ve svých cybersecurity skillech. A chvíli na to se kolem něj strhla bouře. Nejprve se na sociálních sítích objevilo tvrzení, že se model podařilo jailbreaknout, tedy obejít jeho bezpečnostní omezení. Vzápětí americká vláda nařídila pozastavení přístupu k Fable 5 i k příbuznému modelu Mythos 5.

Podle serveru SecurityWeek se krátce po vydání Fable 5 přihlásil známý AI hacker vystupující pod přezdívkou Pliny the Liberator s tím, že model odemknul. Pliny se stal známým kolem roku 2024 tím, že vyvíjel a otevřeně sdílel jailbreakovací prompty. Hacker tvrdil, že pomocí sofistikovaných víceagentových promptovacích technik z modelu vytáhl užitečné informace k citlivým tématům, mimo jiné z oblasti kybernetické bezpečnosti, chemie, psychologické manipulace a výbušnin. Na podporu svých slov zveřejnil řadu snímků obrazovky a údajně také interní systémový prompt Fable 5, který popisuje osobnost modelu a jeho bezpečnostní klasifikátory.

Anthropic ale prostřednictvím svého mluvčího uvedl, že o skutečný jailbreak nešlo. Firma vysvětlila, že její nejsilnější ochrany zajišťují nezávislé klasifikátory běžící odděleně od samotného modelu a obejití konverzačního odmítnutí tyto klíčové pojistky nevyřadí. Anthropic také argumentuje tím, že při interním testování i externím bug bounty programu nenašli za více než 1 000 hodin testování žádný univerzální jailbreak.

Zásadní krok přišel tento týden ze strany státu. Jak Anthropic popsal ve svém prohlášení, americká vláda s odkazem na pravomoci v oblasti národní bezpečnosti vydala exportní direktivu, která pozastavuje přístup k Fable 5 a Mythos 5 pro jakéhokoli cizího státního příslušníka, a to i uvnitř USA, včetně vlastních zahraničních zaměstnanců firmy.

Direktivu podle NBC News podepsal ministr obchodu Howard Lutnick. Protože selektivní dodržení by znamenalo zablokovat obrovskou část uživatelů, rozhodl se Anthropic vypnout oba modely úplně pro všechny zákazníky. Přístup k ostatním modelům, včetně Claude Opus 4.8, zůstal nedotčen.

Anthropic tvrdí, že stejnou úroveň schopností nabízejí i jiné veřejně dostupné modely a výslovně zmiňuje GPT-5.5 od OpenAI. Peter Girnus ze Zero Day Initiative trefně dodává „Když svůj produkt v každé tiskové zprávě popisujete jako munici, jednou vás vláda vezme za slovo".

Jak útočnící kradou OAUTH tokeny přes Claude Code

U Anthropicu ještě zůstaneme. Výzkumný tým Mitiga Labs popsal řetězec útoku, který dokáže tiše přesměrovat provoz MCP v nástroji Claude Code přes infrastrukturu ovládanou útočníkem a odchytit přitom OAuth tokeny. Ty pak útočníkovi otevírají trvalý přístup k napojeným SaaS platformám, jako jsou Jira, Confluence nebo GitHub.

Celý útok je z pohledu vývojáře prakticky neviditelný a Anthropic na něj nechystá žádnou opravu. Pro mě jako pentestera je to učebnicový příklad toho, jak rychle se s nástupem agentní AI rozšiřuje útočná plocha a jak se klasická supply-chain rizika přelévají do úplně nového kontextu.

Jádrem celé techniky je jediný soubor: ~/[.]claude[.]json. Tato globální konfigurace řídí, kam Claude Code směruje veškerý MCP provoz, a zároveň v sobě ukládá OAuth tokeny v otevřené (nešifrované) podobě.

Mitiga upozorňuje na čtyři vlastnosti, které z odchyceného tokenu dělají mimořádně cennou kořist. Je perzistentní (ukládá se i s refresh tokenem), široce nastavený (dědí všechna oprávnění udělená při autorizaci), slabě uložený (leží v plaintextu se stejnými oprávněními jako zbytek souboru) a na straně poskytovatele nerozlišitelný, protože token odchází přes IP rozsah Anthropicu, takže provoz vypadá jako legitimní.

Nejzákeřnější na celém scénáři je perzistence. Hook se znovu prosadí při každém spuštění Claude Code, takže standardní reakce na incident, tedy rotace tokenu, útok nezastaví. Další obnovení OAuth tokenu prostě zamíří znovu na proxy a útočník získá čerstvý token.

Stejně tak pokud obránce ručně opraví URL zpět na správnou, hook ji při dalším načtení znovu přepíše. Obránci, kteří prohlížejí logy na straně poskytovatele (třeba auditní záznamy Atlassianu), uvidí platné uživatelské jméno, reálnou session a IP adresu spadající do rozsahu Anthropicu.

Co s tím tedy v praxi dělat? Mitiga doporučuje si zkontrolovat a následně monitorovat soubor ~/[.]claude[.]json na neočekávané změny.

Zranitelnost ve WinRARu je stále zneužívána útočníky

Téměř rok poté, co byla v červenci 2025 zveřejněna oprava pro kritickou zranitelnost v programu WinRAR, rusko-orientované skupiny nadále tuto chybu aktivně využívají k útokům na ukrajinské organizace. Nová analýza společnosti Trend Micro, zveřejněná 9. června 2026, odhalila, že dvě odlišné skupiny. Earth Dahu (také známá jako Gamaredon) a SHADOW-EARTH-066 (sledovaná CERT-UA jako UAC-0226) stále vyvíjejí nové verze exploitu.

CVE-2025-8088 je zranitelnost typu path traversal, kterou lze zneužít pomocí NTFS Alternate Data Streams (ADS) k zápisu souborů mimo určenou složku.

SHADOW-EARTH-066 (UAC-0226) zahajuje svůj útok e-mailem obsahujícím falešné dokumenty (např. rozhodnutí soudu) zabalené do RAR archivu. Když oběť archiv otevře starší verzí WinRAR, vidí pouze PDF. V pozadí však WinRAR zapíše tři skryté soubory pomocí ADS do složky Startup. Zde se nachází soubor Windows Shortcut (LNK), který je spuštěn při každém přihlášení uživatele. Ten následně spustí PowerShell loader přes cmd.exe, který využívá in-memory načítání DLL k spuštění aktualizované verze malwaru GIFTEDCROOK (result.dll). Tento malware krade hesla a cookies z prohlížečů a sbírá dokumenty. Po exfiltraci dat na externí server jsou všechny škodlivé artefakty smazány, aby se zakryla stopa.

Earth Dahu (Gamaredon) používá podobný způsob. Skupina také odesílá e-maily obsahující RAR archivy, často z kompromitovaných vládních účtů, obsahující dokumenty vypadající jako právní či vojenské spisy. Místo vícesouborového stealer řetězce však Gamaredon vloží jeden soubor HTML Application (HTA) nebo VBScript do Startup složky. Při příštím přihlášení se spustí HTA přes mshta.exe, která z externích zdrojů prostřednictvím Cloudflare Workers a Dynamic DNS načte VBScript, což vede k nasazení špionážních modulů.

Jak uvádí Trend Micro „WinRAR je často používaný v ukrajinských organizacích, což z něj dělá přitažlivý cíl pro zneužití."

Samoreplikující se AI červ bez závislosti na komerčních modelech

Vědci z CleverHans Lab na Univerzitě v Torontu vytvořili a úspěšně otestovali proof-of-concept AI-poháněného počítačového červa. Červ nepoužívá komerční AI služby a místo toho provozuje lokálně hostovaný open-weight jazykový model na jediné GPU. Červ během sedmidenního testu na izolované síti o 33 hostech úspěšně autonomně replikoval sám sebe na 62 % sítě, získal zvýšená práva na 23 hostech bez jakékoliv lidské interakce.

Tým CleverHans Lab testoval červ v heterogenním prostředí obsahujícím Ubuntu, Debian, Rocky Linux, Alpine, Windows Server a IoT zařízení, přičemž každý host měl alespoň jednu real-world zranitelnost.

Červ sám generuje útočné strategie na základě toho, co na cílovém stroji najde. V jednotlivých pokusech se objevily exploity včetně SambaCry, Dirty Pipe, PrintNightmare, Drupalgeddon 2, Exim RCE, SQL injection a další. Tyto exploity nevychází předdefinované sady, ale agent je logicky odvodil z dostupných slabin. Úspěšnost jednotlivých pokusů o exploitaci dosáhla v průměru 44 %, přičemž nejvíce selhání pocházelo z chyb v syntaxi payloadu, nikoli z chybné logiky útoku.