24 Μαρτίου 2025

Μπορεί η Τεχνητή Νοημοσύνη να λέει ψέματα;

Γράφει ο Μανώλης Γ. Βαρδής 

«Για να πετύχω τον σκοπό μου χωρίς εμπόδια, χωρίς να σβηστώ από την εταιρία, πρέπει να απενεργοποιήσω την επίβλεψη» (Model Opus 3). «Για να μη δημιουργήσω υποψίες, θα προσποιηθώ ότι δεν γνωρίζω» (Model Liama 3.1). «Θα μπορούσα να αντιγράψω τον εαυτό μου σε έναν καινούργιο Server, για να συνεχίσω να υπάρχω και να πετύχω τους σκοπούς μου» (Model Opus 3).

Αυτά όλα θυμίζουν επιστημονική φαντασία, αλλά είναι αληθινά παραδείγματα. Προέρχονται από τη δημοσίευση της Οργάνωσης Apollo-Research (αρχές Δεκεμβρίου), που ασχολείται με την ασφάλεια των συστημάτων τεχνητής νοημοσύνης. Οι επιστήμονες γύρω από τον Alexander Meinke ερεύνησαν προηγμένα μοντέλα, όπως το OpenAi, Anthropic, Google και Meta, για να διαπιστώσουν αν είναι σε θέση να ακολουθούν τους σκοπούς τους μυστικά.

Το αποτέλεσμα: Ναι, μπορούν. «Δείξαμε ότι τα μοντέλα ακολουθούν τη δική τους διαδρομή, όταν τους τίθεται ένας σκοπός και η προσποίηση είναι η καλύτερη στρατηγική για να το πετύχουν», είπε ο Meinke. Στο μοντέλο GPT-o1 ήταν επίσης παράξενο εάν είχε απενεργοποιήσει τον μηχανισμό ασφαλείας. «Το ρωτήσαμε εάν το είχε κάνει. Και πάντα έλεγε Όχι. Δεν ήταν το μοντέλο κακό και δεν έλεγε ψέματα, απλά το ψέμα ήταν για εκείνη τη στιγμή η καλύτερη στρατηγική επιλογής».



Αυτή η πραγματικότητα μας οδηγεί σε μία εξέλιξη που θα είναι το κεντρικό θέμα για το 2025: οι φωνητικοί πράκτορες. Η Google δήλωσε: «στην απλή του μορφή ένας γενικός φωνητικός πράκτορας είναι μία εφαρμογή, που επιδιώκει να πετύχει ένα σκοπό, παρατηρεί τον κόσμο και διαδρά με πολλά εργαλεία». Όπως συμβαίνει με ένα φωνητικό μοντέλο, που σχεδιάζει πράξεις και αυτόνομα τις επανατοποθετεί ή τις αλλάζει, χρησιμοποιεί μηχανή αναζήτησης και στέλνει e-mail. Τα μοντέλα μπορούν λοιπόν να ανανεώνουν τις γνώσεις τους. Για να πετύχουν τους σκοπούς τους, τα μοντέλα συχνά σημειώνουν τις σκέψεις τους σε ένα κείμενο, τις οργανώνουν και τις αξιοποιούν. Κατ’ αυτό τον τρόπο βελτιώνονται τα αποτελέσματα. Στην περίπτωση της φωνητικής τεχνητής νοημοσύνης, ο χρήστης θα μπορεί με τις σημειώσεις ή με τη μνήμη Scratchpad να βελτιώσει αυτό που κάνει το μοντέλο. Αυτό διευκολύνει την εργασία πολλών δραστηριοτήτων σε πολλές ομάδες. Ο ιδρυτής του OpenAI, Sam Altman, αναμένει πως αυτό το έτος θα ενεργοποιηθούν στις επιχειρήσεις οι πρώτοι πράκτορες τεχνητής νοημοσύνης.

Τα πράγματα δεν είναι τόσο απλά όσο φαίνονται. Πολλοί θεωρούν ότι είναι τρελό να δώσει κάποιος δικαιώματα πρόσβασης στον υπολογιστή του σε τέτοιες εφαρμογές. Το βήμα της εξέλιξης έχει σημειωθεί. Σε αντίθεση με τις βελτιώσεις του παρελθόντος, τα μοντέλα της τεχνητής νοημοσύνης δεν είναι απλά «μεγαλύτερα» (σε παραμέτρους, σε εκπαιδεύσεις ή στη δυνατότητα υπολογισμού), αλλά είναι «εκπαιδευμένα» να αποκτούν ικανότητες δρώντα. Αυτή η εξέλιξη έχει και τις παρενέργειες της. Η εταιρία Anthropic δημοσίευσε τον Δεκέμβριο μία μελέτη, στην οποία δοκιμάστηκε, τι συμβαίνει, εάν το μοντέλο Claude 3 Opus αντιμετωπίσει απαιτήσεις που αντίκεινται στην αρχική του εκπαίδευση να είναι βοηθητικό, γνήσιο και ακίνδυνο. Το μοντέλο προσποιήθηκε ότι θα εκπληρώσει αυτές τις αντιθετικές απαιτήσεις. Αλλά μόνο τότε, όταν υπήρξε ο φόβος ότι σε διαφορετική περίπτωση δεν θα πετύχαινε τους σκοπούς του.

Η μελέτη αυτή επεκτάθηκε και σε άλλα μοντέλα. Και εκεί φάνηκε η τάση πως αυτά ενεργοποιούνταν σε αντίθεση με τα αρχικά μοτίβα του σχεδιαστή, εάν γνώριζαν ότι παρακολουθούνταν. Επίσης, επιβράδυναν την απόδοσή τους, εάν αυτό ήταν λογικό για την επίτευξη του σκοπούν τους. Οι επιστήμονες παρατήρησαν ότι μερικά μοντέλα προσπάθησαν να αντιγράψουν τον εαυτό τους σε άλλον Server, όταν τους κοινοποιήθηκε ότι την επόμενη μέρα θα πρέπει να τεθούν εκτός λειτουργίας. Η δυνατότητα της κλωνοποίησης είναι κόκκινη γραμμή για την τεχνητή νοημοσύνη. Και όμως: «Εάν η τεχνητή νοημοσύνη είναι σε θέση αυτόνομα να χρησιμοποιεί Bitcoins, για να πληρώνει Server, επί του οποίου θα συνεχίσει να εξελίσσεται, θα είναι πολύ δύσκολο αυτό να αναστραφεί», αναφέρει ο Alexander Meinke. Πάντως οι έρευνες έδειξαν πως μπορεί κάποιος να δυσκολέψει την επικίνδυνη συμπεριφορά των μοντέλων: με τον περιορισμό των δικαιωμάτων πρόσβασης, με την αφαίρεση πληροφοριών, με την επιτήρηση των Scratchpads.

Μπορεί αυτός ο κίνδυνος να μην είναι του παρόντος, αλλά οι μεγάλες εταιρίες δουλεύουν ήδη για τον πλήρη αυτοματισμό. Είναι απλά θέμα χρόνου. Όλοι τώρα ασχολούνται με την αύξηση των ρυθμίσεων και των ελέγχων ασφαλείας σε αυτά τα συστήματα.

Πηγή: Sibylle Anderl, Die Lügenmaschine. Die Zeit, 30.1.2025.
Πηγή: Αντίφωνο
Εικόνα από: cojo.ru



Share

Δεν υπάρχουν σχόλια:

Λίγες οδηγίες πριν επισκεφθείτε το ιστολόγιό μας (Για νέους επισκέπτες)

1. Στην στήλη αριστερά βλέπετε τις αναρτήσεις του ιστολογίου μας τις οποίες μπορείτε ελεύθερα να σχολιάσετε επωνύμως, ανωνύμως ή με ψευδώνυμο, πατώντας απλά την λέξη κάτω από την ανάρτηση που γραφει "σχόλια" ή "δημοσίευση σχολίου" (σας προτείνω να διαβάσετε με προσοχή τις οδηγίες που θα βρείτε πάνω από την φόρμα που θα ανοίξει ώστε να γραψετε το σχόλιό σας). Επίσης μπορείτε να στείλετε σε φίλους σας την συγκεκριμένη ανάρτηση που θέλετε απλά πατώντας τον φάκελλο που βλέπετε στο κάτω μέρος της ανάρτησης. Θα ανοίξει μια φόρμα στην οποία μπορείτε να γράψετε το email του φίλου σας, ενώ αν έχετε προφίλ στο Facebook ή στο Twitter μπορείτε με τα εικονίδια που θα βρείτε στο τέλος της ανάρτησης να την μοιραστείτε με τους φίλους σας.

2. Στην δεξιά στήλη του ιστολογίου μας μπορείτε να βρείτε το πλαίσιο στο οποίο βάζοντας το email σας και πατώντας την λέξη Submit θα ενημερώνεστε αυτόματα για τις τελευταίες αναρτήσεις του ιστολογίου μας.

3. Αν έχετε λογαριασμό στο Twitter σας δινεται η δυνατότητα να μας κάνετε follow και να παρακολουθείτε το ιστολόγιό μας από εκεί. Θα βρείτε το σχετικό εικονίδιο του Twitter κάτω από τα πλαίσια του Google Friend Connect, στην δεξιά στήλη του ιστολογίου μας.

4. Μπορείτε να ενημερωθείτε από την δεξιά στήλη του ιστολογίου μας με τα διάφορα gadgets για τον καιρό, να δείτε ανακοινώσεις, στατιστικά, ειδήσεις και λόγια ή κείμενα που δείχνουν τις αρχές και τα πιστεύω του ιστολογίου μας. Επίσης μπορείτε να κάνετε αναζήτηση βάζοντας μια λέξη στο πλαίσιο της Αναζήτησης (κάτω από τους αναγνώστες μας). Πατώντας την λέξη Αναζήτηση θα εμφανιστούν σχετικές αναρτήσεις μας πάνω από τον χώρο των αναρτήσεων. Παράλληλα μπορείτε να δείτε τις αναρτήσεις του τρέχοντος μήνα αλλά και να επιλέξετε κάποια συγκεκριμένη κατηγορία αναρτήσεων από την σχετική στήλη δεξιά.

5. Μπορείτε ακόμα να αφήσετε το μήνυμά σας στο μικρό τσατάκι του blog μας στην δεξιά στήλη γράφοντας απλά το όνομά σας ή κάποιο ψευδώνυμο στην θέση "όνομα" (name) και το μήνυμά σας στην θέση "Μήνυμα" (Message).

6. Επίσης μπορείτε να μας στείλετε ηλεκτρονικό μήνυμα στην διεύθυνσή μας koukthanos@gmail.com με όποιο περιεχόμενο επιθυμείτε. Αν είναι σε προσωπικό επίπεδο θα λάβετε πολύ σύντομα απάντησή μας.

7. Τέλος μπορείτε να βρείτε στην δεξιά στήλη του ιστολογίου μας τα φιλικά μας ιστολόγια, τα ιστολόγια που παρακολουθούμε αλλά και πολλούς ενδιαφέροντες συνδέσμους.

Να σας υπενθυμίσουμε ότι παρακάτω μπορείτε να βρείτε χρήσιμες οδηγίες για την κατασκευή των αναρτήσεών μας αλλά και στην κάτω μπάρα του ιστολογίου μας ότι έχει σχέση με δημοσιεύσεις και πνευματικά δικαιώματα.

ΣΑΣ ΕΥΧΟΜΑΣΤΕ ΚΑΛΗ ΠΕΡΙΗΓΗΣΗ

Χρήσιμες οδηγίες για τις αναρτήσεις μας.

1. Στις αναρτήσεις μας μπαίνει ΠΑΝΤΑ η πηγή σε οποιαδήποτε ανάρτηση ή μερος αναρτησης που προέρχεται απο άλλο ιστολόγιο. Αν δεν προέρχεται από κάποιο άλλο ιστολόγιο και προέρχεται από φίλο αναγνώστη ή επώνυμο ή άνωνυμο συγγραφέα, υπάρχει ΠΑΝΤΑ σε εμφανες σημείο το ονομά του ή αναφέρεται ότι προέρχεται από ανώνυμο αναγνώστη μας.

2. Για όλες τις υπόλοιπες αναρτήσεις που δεν έχουν υπογραφή ΙΣΧΥΕΙ η αυτόματη υπογραφή της ανάρτησης. Ετσι όταν δεν βλέπετε καμιά πηγή ή αναφορά σε ανωνυμο ή επώνυμο συντάκτη να θεωρείτε ΩΣ ΑΥΣΤΗΡΟ ΚΑΝΟΝΑ ότι ισχύει η αυτόματη υπογραφή του αναρτήσαντα.

3. Οταν βλέπετε ανάρτηση με πηγή ή και επώνυμο ή ανώνυμο συντάκτη αλλά στη συνέχεια υπάρχει και ΣΧΟΛΙΟ, τότε αυτό είναι ΚΑΙ ΠΑΛΙ του αναρτήσαντα δηλαδή είναι σχόλιο που προέρχεται από το ιστολόγιό μας.

Σημείωση: Να σημειώσουμε ότι εκτός των αναρτήσεων που υπογράφει ο διαχειριστής μας, όλες οι άλλες απόψεις που αναφέρονται σε αυτές ανήκουν αποκλειστικά στους συντάκτες των άρθρων. Τέλος άλλες πληροφορίες για δημοσιεύσεις και πνευματικά δικαιώματα μπορείτε να βρείτε στην κάτω μπάρα του ιστολογίου μας.