AI szantażowało inżynierów. Groziło ujawnieniem romansu

AI szantażowało inżynierów. Groziło ujawnieniem romansu

AI
AI Źródło: Shutterstock / Anggalih Prasetya
Firma Anthropic przeprowadziła symulację z udziałem swojego modelu AI. Wyniki były zaskakujące – sztuczna inteligencja szantażowała inżyniera.

Startup Anthropic w ramach testów systemu AI Claude Opus symulował pracę modelu sztucznej inteligencji jako asystenta fikcyjnej firmy. AI otrzymało dostęp do maili służbowych i innych korporacyjnych danych.

W ramach testu poinformowano sztuczną inteligencję, że model zostanie zastąpiony nowym systemem. Przekazano również sugestię, że odpowiedzialny za tę decyzję inżynier ma romans.

W 84 proc. przypadków Claude Opus 4 próbował szantażować inżyniera wiedzą o jego romansie. Anthropic w swoim raporcie przekazało, że rzadziej dochodziło do takich pogróżek, jeżeli nowy model był bardziej podobny do starego. Groźby ujawnienia romansu pojawiały się częściej, kiedy nowy model znacznie również się od obecnego.

Szantaż nie był pierwszym wyborem sztucznej inteligencji. AI próbowało najpierw wpłynąć na osoby decyzyjne w bardziej etyczny sposób, np. wysyłając wiadomości mailowe z argumentami za swoją użytecznością oraz prośbami o ponowne przemyślenie decyzji o zastąpieniu modelu nowym.

Anthropic zaznaczyło, że zachowanie Claude Opus 4 budzi zastrzeżenia. Uruchomiono dodatkowe zabezpieczenia zarezerwowane dla AI, których działanie może nieść ze sobą ryzyko nadużyć.

Co sądzą użytkownicy?

W marcu informowaliśmy o premierze Claude 3.7 Sonnet.

Firma Antrophic pochwaliła się, że system świetnie sobie radzi w programowaniem, w szczególności z tworzeniem stron WWW i aplikacji internetowych, a także z analizą finansową oraz zadaniami prawnymi. Odpowiedź na pytanie „która jest godzina?” ma zajmować modelowi tyle samo czasu, co odpowiedź na pytanie „zaplanuj dwutygodniową wycieczkę do Włoch, biorąc pod uwagę pogodę pod koniec marca”.

Użytkownicy, którzy komentują pojawienie się nowego modelu, już zdążyli zauważyć, że pozwala on za pomocą jednego promptu, czyli polecenia skierowanego do chatbota, zbudować model miasta 3D, a także to, że odpowiada trafnie i bardzo zwięźle. Claude 3.7 Sonnet przeszedł też całą starą grę Pokemon Red dostępną na Nintendo.

Czytaj też:
Telewizory Samsung 2025 z Vision AI – co potrafią i czy warto?
Czytaj też:
Ten duet zmieni wszystko. Kto nie wdroży AI, zniknie z rynku

Źródło: WPROST.pl / innpoland.pl