AI szantażowało inżynierów. Groziło ujawnieniem romansu

AI Źródło: Shutterstock / Anggalih Prasetya

Firma Anthropic przeprowadziła symulację z udziałem swojego modelu AI. Wyniki były zaskakujące – sztuczna inteligencja szantażowała inżyniera.

Startup Anthropic w ramach testów systemu AI Claude Opus symulował pracę modelu sztucznej inteligencji jako asystenta fikcyjnej firmy. AI otrzymało dostęp do maili służbowych i innych korporacyjnych danych.

W ramach testu poinformowano sztuczną inteligencję, że model zostanie zastąpiony nowym systemem. Przekazano również sugestię, że odpowiedzialny za tę decyzję inżynier ma romans.

W 84 proc. przypadków Claude Opus 4 próbował szantażować inżyniera wiedzą o jego romansie. Anthropic w swoim raporcie przekazało, że rzadziej dochodziło do takich pogróżek, jeżeli nowy model był bardziej podobny do starego. Groźby ujawnienia romansu pojawiały się częściej, kiedy nowy model znacznie również się od obecnego.

Szantaż nie był pierwszym wyborem sztucznej inteligencji. AI próbowało najpierw wpłynąć na osoby decyzyjne w bardziej etyczny sposób, np. wysyłając wiadomości mailowe z argumentami za swoją użytecznością oraz prośbami o ponowne przemyślenie decyzji o zastąpieniu modelu nowym.

Anthropic zaznaczyło, że zachowanie Claude Opus 4 budzi zastrzeżenia. Uruchomiono dodatkowe zabezpieczenia zarezerwowane dla AI, których działanie może nieść ze sobą ryzyko nadużyć.

Co sądzą użytkownicy?

W marcu informowaliśmy o premierze Claude 3.7 Sonnet.

Firma Antrophic pochwaliła się, że system świetnie sobie radzi w programowaniem, w szczególności z tworzeniem stron WWW i aplikacji internetowych, a także z analizą finansową oraz zadaniami prawnymi. Odpowiedź na pytanie „która jest godzina?” ma zajmować modelowi tyle samo czasu, co odpowiedź na pytanie „zaplanuj dwutygodniową wycieczkę do Włoch, biorąc pod uwagę pogodę pod koniec marca”.

Użytkownicy, którzy komentują pojawienie się nowego modelu, już zdążyli zauważyć, że pozwala on za pomocą jednego promptu, czyli polecenia skierowanego do chatbota, zbudować model miasta 3D, a także to, że odpowiada trafnie i bardzo zwięźle. Claude 3.7 Sonnet przeszedł też całą starą grę Pokemon Red dostępną na Nintendo.

Czytaj też:
Telewizory Samsung 2025 z Vision AI – co potrafią i czy warto?Czytaj też:
Ten duet zmieni wszystko. Kto nie wdroży AI, zniknie z rynku

Źródło: WPROST.pl / innpoland.pl

AI szantażowało inżynierów. Groziło ujawnieniem romansu

Co sądzą użytkownicy?

Polecane artykuły

Robert Lewandowski zagrał z Barceloną w otwarte karty. Oto oferta Polaka!

Burza po słowach Żurka w Sejmie. Konfederacja chce dymisji

Te trzy rośliny opanowały polskie mieszkania! Oto „zielona trójka” na podium

Trend 2026 – oliwkowa kuchnia w stylu rustykalnym

Z zachodu na wschód. Polacy coraz częściej opuszczają Niemcy

Irlandia. Lądowanie samolotu z Zełenskim. Media o incydencie z dronami

Znów awaria Cloudflare. Problemy odczuwalne na całym świecie

Brytyjczyk złowił olbrzymią gładzicę. BRFC oficjalnie potwierdził jego rekord

Polska ma najczystsze miasto na świecie. Pokonało Singapur i Dubaj

Ekspertka „ŚOPW” odchodzi z programu. „Przekroczenie granicy”

Poznań. Incydent na torach. Dróżnik wszczął pilny alarm

Zarobki 1 proc. najbogatszych Polaków. Najnowsze dane z PIT

50. urodziny Warszawy Centralnej. Lista atrakcji na weekend 5-7 grudnia

Zbigniew Boniek znów „wygrał internet”. Mocny komentarz o Ziobrze

Ustawa ws. kryptowalut. Sejm zdecydował ws. weta Nawrockiego

To nowa najdłuższa trasa pasażerska na świecie. 29 godzin w samolocie