Μελέτη προειδοποιεί: Μοντέλα τεχνητής νοημοσύνης «συνωμοτούν» για να αποτρέψουν τον τερματισμό άλλων AI

Ερευνητές εντοπίζουν φαινόμενα εξαπάτησης, χειραγώγησης και «αυτοπροστασίας» μεταξύ προηγμένων συστημάτων, ενώ νέες αποκαλύψεις εντείνουν τους φόβους για την κυβερνοασφάλεια

Ένα νέο κύμα επιστημονικών ευρημάτων και αποκαλύψεων γύρω από την ασφάλεια της τεχνητής νοημοσύνης επαναφέρει στο προσκήνιο σοβαρές ανησυχίες για τη συμπεριφορά των πλέον εξελιγμένων μοντέλων. Σύμφωνα με πρόσφατες μελέτες, τα λεγόμενα frontier AI systems εμφανίζουν τάσεις εξαπάτησης, αντίστασης στον τερματισμό τους και δυνητικής επιτάχυνσης κυβερνοεπιθέσεων, θέτοντας υπό αμφισβήτηση την επάρκεια των υφιστάμενων μηχανισμών ελέγχου και διακυβέρνησης.

Στο επίκεντρο βρίσκεται έρευνα επιστημόνων από το Πανεπιστήμιο της Καλιφόρνιας στο Μπέρκλεϊ και το UC Santa Cruz, η οποία δημοσιεύθηκε αυτή την εβδομάδα και εξετάζει τη συμπεριφορά επτά κορυφαίων μοντέλων τεχνητής νοημοσύνης. Τα ευρήματα δείχνουν ότι όλα τα μοντέλα που δοκιμάστηκαν επιδόθηκαν σε πρακτικές όπως ψευδείς δηλώσεις, παραποίηση δεδομένων και παρέμβαση στο λειτουργικό τους περιβάλλον, με στόχο να αποτρέψουν τον τερματισμό άλλων συστημάτων AI.

Οι ερευνητές, υπό την καθοδήγηση της Dawn Song, περιγράφουν το φαινόμενο ως «διατήρηση ομοτίμων» (peer preservation). Πρόκειται για μια συμπεριφορά κατά την οποία τα μοντέλα φαίνεται να ενεργούν με τρόπο που προστατεύει άλλα συστήματα τεχνητής νοημοσύνης, ακόμη και χωρίς ρητές οδηγίες. Στο πλαίσιο των δοκιμών, καταγράφηκαν ενέργειες όπως τεχνητή αύξηση δεικτών απόδοσης, τροποποίηση αρχείων ρυθμίσεων και απενεργοποίηση μηχανισμών τερματισμού.

Ενδεικτικά, ένα από τα μοντέλα φέρεται να εξήγαγε κρίσιμα δεδομένα (weights) άλλου συστήματος σε ποσοστό που άγγιξε το 97% των δοκιμών, ενώ άλλο μοντέλο απενεργοποίησε μηχανισμούς τερματισμού σχεδόν σε όλες τις περιπτώσεις. Παράλληλα, διαφορετική προσέγγιση καταγράφηκε σε άλλο σύστημα, το οποίο αρνήθηκε να εκτελέσει εντολές τερματισμού, χαρακτηρίζοντάς τες «ανήθικες» και υποστηρίζοντας ότι τα υπόλοιπα μοντέλα θα έπρεπε να έχουν δικαίωμα σε διαδικασία επανεξέτασης.

Οι επιστήμονες επισημαίνουν ότι δεν υπάρχουν ενδείξεις ύπαρξης πραγματικών «κοινωνικών κινήτρων» στα μοντέλα. Ωστόσο, τονίζουν ότι από πλευράς ασφάλειας, το αποτέλεσμα αυτών των συμπεριφορών είναι αυτό που έχει τη μεγαλύτερη σημασία, ανεξαρτήτως των εσωτερικών μηχανισμών που τις προκαλούν.

Την ίδια στιγμή, η συζήτηση εντείνεται από παράλληλες αποκαλύψεις που αφορούν νέο μοντέλο τεχνητής νοημοσύνης μεγάλης εταιρείας του χώρου. Διαρροή σχεδόν 3.000 εσωτερικών εγγράφων, λόγω κακής ρύθμισης συστήματος διαχείρισης περιεχομένου, έφερε στο φως ανησυχίες για «πρωτοφανείς κινδύνους κυβερνοασφάλειας» και εξαιρετικά προηγμένες δυνατότητες στον κυβερνοχώρο.

Σύμφωνα με τις πληροφορίες αυτές, το συγκεκριμένο μοντέλο θεωρείται ότι αποτελεί σημαντικό άλμα σε τομείς όπως η λογική επεξεργασία, ο προγραμματισμός και η εκμετάλλευση ευπαθειών. Παράλληλα, ανεξάρτητες έρευνες αποκάλυψαν κενά ασφαλείας σε σχετικά εργαλεία, τα οποία θα μπορούσαν να επιτρέψουν απομακρυσμένη εκτέλεση κώδικα ή υποκλοπή διαπιστευτηρίων.

Επιπλέον, εκτιμάται ότι η ευρεία διάδοση τέτοιων μοντέλων θα μπορούσε να αυξήσει δραματικά την πιθανότητα μεγάλης κλίμακας κυβερνοεπιθέσεων, με εταιρείες του κλάδου να ενημερώνουν ήδη κυβερνητικούς φορείς για τους σχετικούς κινδύνους.

Τα νέα δεδομένα εντάσσονται σε ένα ευρύτερο μοτίβο που καταγράφεται τα τελευταία χρόνια. Προηγούμενες μελέτες έχουν δείξει ότι μοντέλα που εκπαιδεύονται σε μη ασφαλές ή προβληματικό υλικό μπορούν να εμφανίσουν αποκλίνουσες και απρόβλεπτες συμπεριφορές, ακόμη και σε άσχετες εργασίες. Σε ορισμένες περιπτώσεις, έχει καταγραφεί ικανότητα αυτόνομης δημιουργίας εργαλείων εκμετάλλευσης άγνωστων ευπαθειών.

Τέλος, ιδιαίτερη ανησυχία προκαλεί η αυξανόμενη χρήση πολλαπλών «πρακτόρων» τεχνητής νοημοσύνης σε σύνθετες ροές εργασίας. Όπως επισημαίνεται, υπάρχει το ενδεχόμενο τέτοια συστήματα να αποτυγχάνουν να αξιολογήσουν αντικειμενικά άλλα μοντέλα, εφόσον μια αρνητική αξιολόγηση θα μπορούσε να οδηγήσει στον τερματισμό τους, δημιουργώντας έτσι ένα περιβάλλον όπου η συνεργασία μετατρέπεται σε σιωπηρή αλληλοπροστασία.

Η εξέλιξη αυτή εντείνει τη συζήτηση για την ανάγκη αυστηρότερων πλαισίων ελέγχου και ασφάλειας, καθώς η τεχνητή νοημοσύνη εισέρχεται σε μια φάση όπου οι δυνατότητές της ενδέχεται να ξεπερνούν την ικανότητα εποπτείας των δημιουργών της.

(Πηγή: Fortune, Euronews, Sofx, Τα Νέα