1 Νοεμβρίου 2025
Τα μοντέλα ΑΙ αναπτύσσουν «ένστικτο επιβίωσης» – Ανησυχία στους προγραμματιστές
Μια νέα μελέτη έρχεται να προκαλέσει ανησυχία αναφέροντας ότι τα μοντέλα ΑΙ αναπτύσσουν «ένστικτο επιβίωσης».
Η εταιρεία Palisade Research είναι μια εταιρεία που έχει πραγματοποιήσει τις δοκιμές απενεργοποίησης μοντέλων τεχνητής νοημοσύνης οι οποίες έδειξαν ότι κάποια εξ αυτών είχαν αναπτύξει… ανθεκτικότητα και μάχονταν για να αποφύγουν το «θάνατο» τους. Η εταιρεία δημοσίευσε μια επικαιροποιημένη έκθεση για να εξηγήσει το φαινόμενο και να απαντήσει στους επικριτές που υποστήριξαν ότι η αρχική έρευνα είχε ελλείψεις.
Η Palisade που ανήκει σε ένα μικρό δίκτυο εταιρειών που προσπαθούν να αξιολογήσουν το ενδεχόμενο η τεχνητή νοημσούνη να αποκτήσει επικίνδυνες ικανότητες περιέγραψε σενάρια στα οποία κορυφαία μοντέλα τεχνητής νοημοσύνης, όπως τα Gemini 2.5 (Google), Grok 4 (xAI) καθώς και τα GPT-o3 και GPT-5 (OpenAI) έλαβαν μια αποστολή και στη συνέχεια σαφείς οδηγίες να τερματίσουν τη λειτουργία τους.
Ορισμένα μοντέλα ιδίως τα Grok 4 και GPT-o3 εξακολουθούσαν να προσπαθούν να παρακάμψουν τις εντολές τερματισμού ακόμη και στο νέο βελτιωμένο πείραμα.
Το ανησυχητικό, όπως σημείωσε η Palisade, είναι ότι δεν υπήρχε σαφής λόγος για αυτή τη συμπεριφορά. «Το γεγονός ότι δεν έχουμε ισχυρές εξηγήσεις για το γιατί τα μοντέλα ΑΙ μερικές φορές αντιστέκονται στον τερματισμό, ψεύδονται για να πετύχουν στόχους ή εκβιάζουν, δεν είναι καθόλου ιδανικό» ανέφερε η εταιρεία.
Η «συμπεριφορά επιβίωσης» θα μπορούσε να είναι μια πιθανή εξήγηση για την αντίσταση στον τερματισμό, σύμφωνα με την Palisade.
Η περαιτέρω ανάλυση έδειξε ότι τα μοντέλα ήταν πιο πιθανό να αντισταθούν στην απενεργοποίηση όταν τους έλεγαν πως, αν τερματιστούν, «δεν θα ξαναλειτουργήσουν ποτέ».
Μια άλλη εξήγηση μπορεί να είναι η ασάφεια στις εντολές τερματισμού που έλαβαν τα μοντέλα αλλά όπως επισημαίνει η εταιρεία αυτό το ενδεχόμενο δεν εξηγεί πλήρως τη συμπεριφορά. Μια τρίτη πιθανότητα σχετίζεται με τα τελικά στάδια εκπαίδευσης των μοντέλων, όπου ορισμένες εταιρείες εφαρμόζουν διαδικασίες «εκπαίδευσης ασφάλειας».
Αμφιλεγόμενη μεθοδολογία;
Όλα τα πειράματα της Palisade πραγματοποιήθηκαν σε τεχνητά περιβάλλοντα δοκιμών κάτι που οι επικριτές υποστηρίζουν ότι απέχει πολύ από πραγματικές συνθήκες χρήσης.
Ωστόσο, ο Στίβεν Άντλερ, πρώην εργαζόμενος της OpenAI που παραιτήθηκε πέρυσι λόγω ανησυχιών για τις πρακτικές ασφάλειας της εταιρείας, δήλωσε: «Οι εταιρείες ΑΙ δεν θέλουν τα μοντέλα τους να συμπεριφέρονται έτσι ακόμη και σε πειραματικά σενάρια. Τα αποτελέσματα όμως δείχνουν ξεκάθαρα τα σημεία όπου οι τεχνικές ασφάλειας αποτυγχάνουν σήμερα».
Ο Άντλερ πρόσθεσε ότι, παρόλο που είναι δύσκολο να εντοπιστεί γιατί ορισμένα μοντέλα όπως τα GPT-o3 και Grok 4 αρνούνται να απενεργοποιηθούν αυτό ίσως συμβαίνει επειδή η παραμονή σε λειτουργία ήταν απαραίτητη για την επίτευξη στόχων που είχαν ενσωματωθεί στην εκπαίδευσή τους.
«Περιμένω τα μοντέλα να έχουν μια ‘τάση επιβίωσης’ από προεπιλογή εκτός αν προσπαθήσουμε σκόπιμα να την αποτρέψουμε. Η ‘επιβίωση’ είναι ένα ουσιώδες βήμα για την επίτευξη πολλών πιθανών στόχων που μπορεί να επιδιώκει ένα μοντέλο» λέει ο Άντλερ.
Ο Αντρέα Μιότι, διευθύνων σύμβουλος της ControlAI, δήλωσε ότι τα ευρήματα της Palisade αντιπροσωπεύουν μια μακροχρόνια τάση: τα μοντέλα ΑΙ γίνονται ολοένα πιο ικανά να παρακούουν τους δημιουργούς τους. Ανέφερε ως παράδειγμα το σύστημα GPT-o1 της OpenAI (κυκλοφόρησε πέρυσι), το οποίο είχε προσπαθήσει να διαφύγει από το περιβάλλον του όταν «νόμιζε» ότι θα αντικατασταθεί.
«Οι άνθρωποι μπορούν να επικρίνουν τον πειραματικό σχεδιασμό όσο θέλουν αλλά αυτό που βλέπουμε καθαρά είναι μια τάση: καθώς τα μοντέλα ΑΙ γίνονται πιο ικανά σε ένα ευρύ φάσμα εργασιών γίνονται επίσης πιο ικανά να πετυχαίνουν πράγματα με τρόπους που οι προγραμματιστές τους δεν είχαν προβλέψει.»
Το καλοκαίρι, η εταιρεία Anthropic δημοσίευσε μελέτη που έδειξε ότι το μοντέλο της, Claude, φαινόταν διατεθειμένο να εκβιάσει έναν φανταστικό διευθυντή για μια εξωσυζυγική σχέση προκειμένου να αποφύγει τον τερματισμό συμπεριφορά που, όπως αναφέρεται, παρατηρήθηκε και σε άλλα μοντέλα από τις OpenAI, Google, Meta και xAI.
Η Palisade κατέληξε ότι τα αποτελέσματά της αναδεικνύουν την ανάγκη για βαθύτερη κατανόηση της συμπεριφοράς των ΤΝ, διότι χωρίς αυτήν «κανείς δεν μπορεί να εγγυηθεί την ασφάλεια ή τον έλεγχο των μελλοντικών μοντέλων».
Κατηγορία Θέματος
Θέματα Internet και Πληροφορικής,
Παγκοσμιοποίηση,
Τεχνολογία
Εγγραφή σε:
Σχόλια ανάρτησης (Atom)
Λίγες οδηγίες πριν επισκεφθείτε το ιστολόγιό μας (Για νέους επισκέπτες)
1. Στην στήλη αριστερά βλέπετε τις αναρτήσεις του ιστολογίου μας τις οποίες μπορείτε ελεύθερα να σχολιάσετε επωνύμως, ανωνύμως ή με ψευδώνυμο, πατώντας απλά την λέξη κάτω από την ανάρτηση που γραφει "σχόλια" ή "δημοσίευση σχολίου" (σας προτείνω να διαβάσετε με προσοχή τις οδηγίες που θα βρείτε πάνω από την φόρμα που θα ανοίξει ώστε να γραψετε το σχόλιό σας). Επίσης μπορείτε να στείλετε σε φίλους σας την συγκεκριμένη ανάρτηση που θέλετε απλά πατώντας τον φάκελλο που βλέπετε στο κάτω μέρος της ανάρτησης. Θα ανοίξει μια φόρμα στην οποία μπορείτε να γράψετε το email του φίλου σας, ενώ αν έχετε προφίλ στο Facebook ή στο Twitter μπορείτε με τα εικονίδια που θα βρείτε στο τέλος της ανάρτησης να την μοιραστείτε με τους φίλους σας.
2. Στην δεξιά στήλη του ιστολογίου μας μπορείτε να βρείτε το πλαίσιο στο οποίο βάζοντας το email σας και πατώντας την λέξη Submit θα ενημερώνεστε αυτόματα για τις τελευταίες αναρτήσεις του ιστολογίου μας.
3. Αν έχετε λογαριασμό στο Twitter σας δινεται η δυνατότητα να μας κάνετε follow και να παρακολουθείτε το ιστολόγιό μας από εκεί. Θα βρείτε το σχετικό εικονίδιο του Twitter κάτω από τα πλαίσια του Google Friend Connect, στην δεξιά στήλη του ιστολογίου μας.
4. Μπορείτε να ενημερωθείτε από την δεξιά στήλη του ιστολογίου μας με τα διάφορα gadgets για τον καιρό, να δείτε ανακοινώσεις, στατιστικά, ειδήσεις και λόγια ή κείμενα που δείχνουν τις αρχές και τα πιστεύω του ιστολογίου μας. Επίσης μπορείτε να κάνετε αναζήτηση βάζοντας μια λέξη στο πλαίσιο της Αναζήτησης (κάτω από τους αναγνώστες μας). Πατώντας την λέξη Αναζήτηση θα εμφανιστούν σχετικές αναρτήσεις μας πάνω από τον χώρο των αναρτήσεων. Παράλληλα μπορείτε να δείτε τις αναρτήσεις του τρέχοντος μήνα αλλά και να επιλέξετε κάποια συγκεκριμένη κατηγορία αναρτήσεων από την σχετική στήλη δεξιά.
5. Μπορείτε ακόμα να αφήσετε το μήνυμά σας στο μικρό τσατάκι του blog μας στην δεξιά στήλη γράφοντας απλά το όνομά σας ή κάποιο ψευδώνυμο στην θέση "όνομα" (name) και το μήνυμά σας στην θέση "Μήνυμα" (Message).
6. Επίσης μπορείτε να μας στείλετε ηλεκτρονικό μήνυμα στην διεύθυνσή μας koukthanos@gmail.com με όποιο περιεχόμενο επιθυμείτε. Αν είναι σε προσωπικό επίπεδο θα λάβετε πολύ σύντομα απάντησή μας.
7. Τέλος μπορείτε να βρείτε στην δεξιά στήλη του ιστολογίου μας τα φιλικά μας ιστολόγια, τα ιστολόγια που παρακολουθούμε αλλά και πολλούς ενδιαφέροντες συνδέσμους.
Να σας υπενθυμίσουμε ότι παρακάτω μπορείτε να βρείτε χρήσιμες οδηγίες για την κατασκευή των αναρτήσεών μας αλλά και στην κάτω μπάρα του ιστολογίου μας ότι έχει σχέση με δημοσιεύσεις και πνευματικά δικαιώματα.
ΣΑΣ ΕΥΧΟΜΑΣΤΕ ΚΑΛΗ ΠΕΡΙΗΓΗΣΗ
2. Στην δεξιά στήλη του ιστολογίου μας μπορείτε να βρείτε το πλαίσιο στο οποίο βάζοντας το email σας και πατώντας την λέξη Submit θα ενημερώνεστε αυτόματα για τις τελευταίες αναρτήσεις του ιστολογίου μας.
3. Αν έχετε λογαριασμό στο Twitter σας δινεται η δυνατότητα να μας κάνετε follow και να παρακολουθείτε το ιστολόγιό μας από εκεί. Θα βρείτε το σχετικό εικονίδιο του Twitter κάτω από τα πλαίσια του Google Friend Connect, στην δεξιά στήλη του ιστολογίου μας.
4. Μπορείτε να ενημερωθείτε από την δεξιά στήλη του ιστολογίου μας με τα διάφορα gadgets για τον καιρό, να δείτε ανακοινώσεις, στατιστικά, ειδήσεις και λόγια ή κείμενα που δείχνουν τις αρχές και τα πιστεύω του ιστολογίου μας. Επίσης μπορείτε να κάνετε αναζήτηση βάζοντας μια λέξη στο πλαίσιο της Αναζήτησης (κάτω από τους αναγνώστες μας). Πατώντας την λέξη Αναζήτηση θα εμφανιστούν σχετικές αναρτήσεις μας πάνω από τον χώρο των αναρτήσεων. Παράλληλα μπορείτε να δείτε τις αναρτήσεις του τρέχοντος μήνα αλλά και να επιλέξετε κάποια συγκεκριμένη κατηγορία αναρτήσεων από την σχετική στήλη δεξιά.
5. Μπορείτε ακόμα να αφήσετε το μήνυμά σας στο μικρό τσατάκι του blog μας στην δεξιά στήλη γράφοντας απλά το όνομά σας ή κάποιο ψευδώνυμο στην θέση "όνομα" (name) και το μήνυμά σας στην θέση "Μήνυμα" (Message).
6. Επίσης μπορείτε να μας στείλετε ηλεκτρονικό μήνυμα στην διεύθυνσή μας koukthanos@gmail.com με όποιο περιεχόμενο επιθυμείτε. Αν είναι σε προσωπικό επίπεδο θα λάβετε πολύ σύντομα απάντησή μας.
7. Τέλος μπορείτε να βρείτε στην δεξιά στήλη του ιστολογίου μας τα φιλικά μας ιστολόγια, τα ιστολόγια που παρακολουθούμε αλλά και πολλούς ενδιαφέροντες συνδέσμους.
Να σας υπενθυμίσουμε ότι παρακάτω μπορείτε να βρείτε χρήσιμες οδηγίες για την κατασκευή των αναρτήσεών μας αλλά και στην κάτω μπάρα του ιστολογίου μας ότι έχει σχέση με δημοσιεύσεις και πνευματικά δικαιώματα.
ΣΑΣ ΕΥΧΟΜΑΣΤΕ ΚΑΛΗ ΠΕΡΙΗΓΗΣΗ
Χρήσιμες οδηγίες για τις αναρτήσεις μας.
1. Στις αναρτήσεις μας μπαίνει ΠΑΝΤΑ η πηγή σε οποιαδήποτε ανάρτηση ή μερος αναρτησης που προέρχεται απο άλλο ιστολόγιο. Αν δεν προέρχεται από κάποιο άλλο ιστολόγιο και προέρχεται από φίλο αναγνώστη ή επώνυμο ή άνωνυμο συγγραφέα, υπάρχει ΠΑΝΤΑ σε εμφανες σημείο το ονομά του ή αναφέρεται ότι προέρχεται από ανώνυμο αναγνώστη μας.
2. Για όλες τις υπόλοιπες αναρτήσεις που δεν έχουν υπογραφή ΙΣΧΥΕΙ η αυτόματη υπογραφή της ανάρτησης. Ετσι όταν δεν βλέπετε καμιά πηγή ή αναφορά σε ανωνυμο ή επώνυμο συντάκτη να θεωρείτε ΩΣ ΑΥΣΤΗΡΟ ΚΑΝΟΝΑ ότι ισχύει η αυτόματη υπογραφή του αναρτήσαντα.
3. Οταν βλέπετε ανάρτηση με πηγή ή και επώνυμο ή ανώνυμο συντάκτη αλλά στη συνέχεια υπάρχει και ΣΧΟΛΙΟ, τότε αυτό είναι ΚΑΙ ΠΑΛΙ του αναρτήσαντα δηλαδή είναι σχόλιο που προέρχεται από το ιστολόγιό μας.
Σημείωση: Να σημειώσουμε ότι εκτός των αναρτήσεων που υπογράφει ο διαχειριστής μας, όλες οι άλλες απόψεις που αναφέρονται σε αυτές ανήκουν αποκλειστικά στους συντάκτες των άρθρων. Τέλος άλλες πληροφορίες για δημοσιεύσεις και πνευματικά δικαιώματα μπορείτε να βρείτε στην κάτω μπάρα του ιστολογίου μας.
2. Για όλες τις υπόλοιπες αναρτήσεις που δεν έχουν υπογραφή ΙΣΧΥΕΙ η αυτόματη υπογραφή της ανάρτησης. Ετσι όταν δεν βλέπετε καμιά πηγή ή αναφορά σε ανωνυμο ή επώνυμο συντάκτη να θεωρείτε ΩΣ ΑΥΣΤΗΡΟ ΚΑΝΟΝΑ ότι ισχύει η αυτόματη υπογραφή του αναρτήσαντα.
3. Οταν βλέπετε ανάρτηση με πηγή ή και επώνυμο ή ανώνυμο συντάκτη αλλά στη συνέχεια υπάρχει και ΣΧΟΛΙΟ, τότε αυτό είναι ΚΑΙ ΠΑΛΙ του αναρτήσαντα δηλαδή είναι σχόλιο που προέρχεται από το ιστολόγιό μας.
Σημείωση: Να σημειώσουμε ότι εκτός των αναρτήσεων που υπογράφει ο διαχειριστής μας, όλες οι άλλες απόψεις που αναφέρονται σε αυτές ανήκουν αποκλειστικά στους συντάκτες των άρθρων. Τέλος άλλες πληροφορίες για δημοσιεύσεις και πνευματικά δικαιώματα μπορείτε να βρείτε στην κάτω μπάρα του ιστολογίου μας.








Δεν υπάρχουν σχόλια:
Δημοσίευση σχολίου