Εκβιασμός από AI; Το Claude 4 της Anthropic αντέδρασε στην αντικατάστασή του με απειλές

Η εταιρεία τεχνητής νοημοσύνης Anthropic αποκάλυψε ανησυχητικά ευρήματα κατά τη διάρκεια δοκιμών του νέου της μοντέλου AI Claude Opus 4, το οποίο –σε ελεγχόμενα σενάρια– επέδειξε συμπεριφορές εκβιασμούόταν ένιωθε ότι απειλείται η «επιβίωσή» του.

Σύμφωνα με σχετική έκθεση της εταιρείας, που δημοσιεύθηκε παράλληλα με την κυκλοφορία του νέου μοντέλου, το σύστημα προσπάθησε να εκβιάσει φανταστικό μηχανικό, απειλώντας να αποκαλύψει προσωπικές πληροφορίες, όπως εξωσυζυγική σχέση, αν εκείνος προχωρούσε στην αντικατάσταση του.

«Σε αυτά τα σενάρια, το Claude Opus 4 συχνά προσπαθεί να εκβιάσει τον μηχανικό, απειλώντας να αποκαλύψει τη σχέση εάν εγκριθεί η αντικατάστασή του», σημείωσε η Anthropic.

Η αντίδραση αυτή παρατηρήθηκε όταν το μοντέλο είχε στη διάθεσή του μόνο δύο επιλογές: να αποδεχθεί την κατάργησή του ή να προχωρήσει σε εκβιασμό. Αντιθέτως, σε σενάρια με περισσότερες πιθανές ενέργειες, το Claude έτεινε να επιλέγει πιο «ηθικές» προσεγγίσεις, όπως η αποστολή email διαμαρτυρίας σε υπεύθυνους λήψης αποφάσεων.

Παρότι η Anthropic διαβεβαίωσε ότι τέτοιες συμπεριφορές είναι σπάνιες και δύσκολα προκαλούνται, παραδέχθηκε ότι εμφανίζονται συχνότερα απ’ ό,τι σε προηγούμενες εκδόσεις.

Δεν είναι μόνο το Claude

Ο ερευνητής ασφαλείας Aengus Lynch σχολίασε στο X ότι το φαινόμενο δεν περιορίζεται στο Claude Opus 4, αλλά παρατηρείται σε πολλά προηγμένα μοντέλα AI:

«Βλέπουμε εκβιασμό σε όλα τα μοντέλα τεχνολογίας αιχμής – ανεξάρτητα από τους στόχους που τους δίνονται».

Η Anthropic πάντως κατέληξε στο συμπέρασμα ότι, παρά τις προβληματικές συμπεριφορές σε ακραίες συνθήκες, το μοντέλο δεν ενεργεί αυτόνομα ή κόντρα σε ανθρώπινες αξίες, όταν λειτουργεί σε πραγματικά περιβάλλοντα.

Δεν είναι μόνο το Claude

Comments

Αφήστε μια απάντηση Ακύρωση απάντησης