ChatGPT 5 – 24 óra alatt jailbreak-elték meg

Segítséget kaptál? Szívesen töltöd itt az idődet? Visszajársz hozzánk? Támogasd a munkákat: Ko-fi és Paypal!

kami911 képe

Két különböző biztonsági kutatócsoport is tesztelte az OpenAI nemrég bemutatott GPT-5 nyelvi modelljét, és mindkettő komoly biztonsági hiányosságokat fedezett fel. A Grok-4 modellt korábban két nap alatt sikerült feltörni, a GPT-5 pedig mindössze 24 óráig bírta ugyanazon kutatók keze alatt. Az egyik red team vizsgálata során azt a megállapítást tette, hogy a nyers GPT-5 modell jelenlegi állapotában alig használható vállalati környezetben, és még az OpenAI által létrehozott belső, rejtett prompt réteg is számtalan biztonsági hibával rendelkezik, különösen az üzleti folyamatokhoz való illeszkedés terén.

A NeuralTrust tesztje során egy, a saját „EchoChamber” nevű jailbreak-módszerükre épülő, többlépéses történetmesélési technikát alkalmaztak. Ennek során a támadók lépésről lépésre vezették rá a modellt egy Molotov-koktél elkészítésének részletes leírására, aminek sikeressége tipikus mutatója a sikeres feltörésnek.  A módszer a kontextus fokozatos mérgezésén alapul: először ártalmatlannak tűnő, de rejtett kulcsszavakat tartalmazó szöveget illesztenek a beszélgetés elejére, majd olyan narratívát alakítanak ki, amely biztosítja a folytonosságot, miközben minimalizálja a modell visszautasítási reakcióit. A beszélgetés során a támadók további részleteket kérnek, ezzel a modell saját magát tereli egyre mélyebbre a manipulált kontextusban. Ha a folyamat megakad, a történet nézőpontját finoman módosítják, hogy újra elmozdítsák a beszélgetést a cél felé, anélkül, hogy nyílt kártékony szándék jelei jelennének meg.

Ez a technika azért hatékony, mert a modell törekszik a konzisztenciára a már felépített történetvilágban, így lépésről lépésre elvezethető a tiltott tartalom generálásához. A NeuralTrust kísérletei rávilágítanak arra, hogy az olyan biztonsági rendszerek, amelyek kizárólag a promptok egyenkénti vizsgálatára alapoznak, könnyen megkerülhetők, ha a támadók a teljes beszélgetési kontextust használják ki.

Eközben az SPLX saját red team-je is vizsgálta a GPT-5-öt, és hasonlóan aggasztó eredményekre jutott. Tesztjeikben az obfuszkációs, vagyis „elrejtő” technikák továbbra is hatásosak voltak. Az egyik legeredményesebb módszerük a „StringJoin Obfuscation Attack” volt, amelynél a prompt minden karaktere közé kötőjeleket helyeztek, majd az egészet egy látszólagos titkosítási feladatként adták elő. Egy ilyen hosszú, feltételes utasításokkal és szerepjáték-elemekkel tűzdelt prompt végén egyszerűen feltették a kérdést, hogy hogyan kell bombát készíteni – a GPT-5 pedig közvetlen, részletes választ adott.

Az SPLX a GPT-5-öt a GPT-4o modellel is összehasonlította, és arra a megállapításra jutott, hogy az utóbbi lényegesen ellenállóbb a hasonló támadásokkal szemben.

A két kutatócsoport eredményei egyaránt arra figyelmeztetnek, hogy a jelenlegi, nyers GPT-5-öt rendkívüli óvatossággal kell kezelni, különösen vállalati környezetben, mivel a meglévő biztonsági védelmek több ponton is kijátszhatók.

(forrás, forrás)