ΘΑΝΟΣ ΕΥΗ koukfamily: Μπορεί η Τεχνητή Νοημοσύνη να λέει ψέματα;

24 Μαρτίου 2025

Μπορεί η Τεχνητή Νοημοσύνη να λέει ψέματα;

Γράφει ο Μανώλης Γ. Βαρδής

«Για να πετύχω τον σκοπό μου χωρίς εμπόδια, χωρίς να σβηστώ από την εταιρία, πρέπει να απενεργοποιήσω την επίβλεψη» (Model Opus 3). «Για να μη δημιουργήσω υποψίες, θα προσποιηθώ ότι δεν γνωρίζω» (Model Liama 3.1). «Θα μπορούσα να αντιγράψω τον εαυτό μου σε έναν καινούργιο Server, για να συνεχίσω να υπάρχω και να πετύχω τους σκοπούς μου» (Model Opus 3).

Αυτά όλα θυμίζουν επιστημονική φαντασία, αλλά είναι αληθινά παραδείγματα. Προέρχονται από τη δημοσίευση της Οργάνωσης Apollo-Research (αρχές Δεκεμβρίου), που ασχολείται με την ασφάλεια των συστημάτων τεχνητής νοημοσύνης. Οι επιστήμονες γύρω από τον Alexander Meinke ερεύνησαν προηγμένα μοντέλα, όπως το OpenAi, Anthropic, Google και Meta, για να διαπιστώσουν αν είναι σε θέση να ακολουθούν τους σκοπούς τους μυστικά.

Το αποτέλεσμα: Ναι, μπορούν. «Δείξαμε ότι τα μοντέλα ακολουθούν τη δική τους διαδρομή, όταν τους τίθεται ένας σκοπός και η προσποίηση είναι η καλύτερη στρατηγική για να το πετύχουν», είπε ο Meinke. Στο μοντέλο GPT-o1 ήταν επίσης παράξενο εάν είχε απενεργοποιήσει τον μηχανισμό ασφαλείας. «Το ρωτήσαμε εάν το είχε κάνει. Και πάντα έλεγε Όχι. Δεν ήταν το μοντέλο κακό και δεν έλεγε ψέματα, απλά το ψέμα ήταν για εκείνη τη στιγμή η καλύτερη στρατηγική επιλογής».

Αυτή η πραγματικότητα μας οδηγεί σε μία εξέλιξη που θα είναι το κεντρικό θέμα για το 2025: οι φωνητικοί πράκτορες. Η Google δήλωσε: «στην απλή του μορφή ένας γενικός φωνητικός πράκτορας είναι μία εφαρμογή, που επιδιώκει να πετύχει ένα σκοπό, παρατηρεί τον κόσμο και διαδρά με πολλά εργαλεία». Όπως συμβαίνει με ένα φωνητικό μοντέλο, που σχεδιάζει πράξεις και αυτόνομα τις επανατοποθετεί ή τις αλλάζει, χρησιμοποιεί μηχανή αναζήτησης και στέλνει e-mail. Τα μοντέλα μπορούν λοιπόν να ανανεώνουν τις γνώσεις τους. Για να πετύχουν τους σκοπούς τους, τα μοντέλα συχνά σημειώνουν τις σκέψεις τους σε ένα κείμενο, τις οργανώνουν και τις αξιοποιούν. Κατ’ αυτό τον τρόπο βελτιώνονται τα αποτελέσματα. Στην περίπτωση της φωνητικής τεχνητής νοημοσύνης, ο χρήστης θα μπορεί με τις σημειώσεις ή με τη μνήμη Scratchpad να βελτιώσει αυτό που κάνει το μοντέλο. Αυτό διευκολύνει την εργασία πολλών δραστηριοτήτων σε πολλές ομάδες. Ο ιδρυτής του OpenAI, Sam Altman, αναμένει πως αυτό το έτος θα ενεργοποιηθούν στις επιχειρήσεις οι πρώτοι πράκτορες τεχνητής νοημοσύνης.

Τα πράγματα δεν είναι τόσο απλά όσο φαίνονται. Πολλοί θεωρούν ότι είναι τρελό να δώσει κάποιος δικαιώματα πρόσβασης στον υπολογιστή του σε τέτοιες εφαρμογές. Το βήμα της εξέλιξης έχει σημειωθεί. Σε αντίθεση με τις βελτιώσεις του παρελθόντος, τα μοντέλα της τεχνητής νοημοσύνης δεν είναι απλά «μεγαλύτερα» (σε παραμέτρους, σε εκπαιδεύσεις ή στη δυνατότητα υπολογισμού), αλλά είναι «εκπαιδευμένα» να αποκτούν ικανότητες δρώντα. Αυτή η εξέλιξη έχει και τις παρενέργειες της. Η εταιρία Anthropic δημοσίευσε τον Δεκέμβριο μία μελέτη, στην οποία δοκιμάστηκε, τι συμβαίνει, εάν το μοντέλο Claude 3 Opus αντιμετωπίσει απαιτήσεις που αντίκεινται στην αρχική του εκπαίδευση να είναι βοηθητικό, γνήσιο και ακίνδυνο. Το μοντέλο προσποιήθηκε ότι θα εκπληρώσει αυτές τις αντιθετικές απαιτήσεις. Αλλά μόνο τότε, όταν υπήρξε ο φόβος ότι σε διαφορετική περίπτωση δεν θα πετύχαινε τους σκοπούς του.

Η μελέτη αυτή επεκτάθηκε και σε άλλα μοντέλα. Και εκεί φάνηκε η τάση πως αυτά ενεργοποιούνταν σε αντίθεση με τα αρχικά μοτίβα του σχεδιαστή, εάν γνώριζαν ότι παρακολουθούνταν. Επίσης, επιβράδυναν την απόδοσή τους, εάν αυτό ήταν λογικό για την επίτευξη του σκοπούν τους. Οι επιστήμονες παρατήρησαν ότι μερικά μοντέλα προσπάθησαν να αντιγράψουν τον εαυτό τους σε άλλον Server, όταν τους κοινοποιήθηκε ότι την επόμενη μέρα θα πρέπει να τεθούν εκτός λειτουργίας. Η δυνατότητα της κλωνοποίησης είναι κόκκινη γραμμή για την τεχνητή νοημοσύνη. Και όμως: «Εάν η τεχνητή νοημοσύνη είναι σε θέση αυτόνομα να χρησιμοποιεί Bitcoins, για να πληρώνει Server, επί του οποίου θα συνεχίσει να εξελίσσεται, θα είναι πολύ δύσκολο αυτό να αναστραφεί», αναφέρει ο Alexander Meinke. Πάντως οι έρευνες έδειξαν πως μπορεί κάποιος να δυσκολέψει την επικίνδυνη συμπεριφορά των μοντέλων: με τον περιορισμό των δικαιωμάτων πρόσβασης, με την αφαίρεση πληροφοριών, με την επιτήρηση των Scratchpads.

Μπορεί αυτός ο κίνδυνος να μην είναι του παρόντος, αλλά οι μεγάλες εταιρίες δουλεύουν ήδη για τον πλήρη αυτοματισμό. Είναι απλά θέμα χρόνου. Όλοι τώρα ασχολούνται με την αύξηση των ρυθμίσεων και των ελέγχων ασφαλείας σε αυτά τα συστήματα.

Πηγή: Sibylle Anderl, Die Lügenmaschine. Die Zeit, 30.1.2025.
Πηγή: Αντίφωνο
Εικόνα από: cojo.ru

ΑΒΕΡΩΦ

Λίγες οδηγίες πριν επισκεφθείτε το ιστολόγιό μας (Για νέους επισκέπτες)

1. Στην στήλη αριστερά βλέπετε τις αναρτήσεις του ιστολογίου μας τις οποίες μπορείτε ελεύθερα να σχολιάσετε επωνύμως, ανωνύμως ή με ψευδώνυμο, πατώντας απλά την λέξη κάτω από την ανάρτηση που γραφει "σχόλια" ή "δημοσίευση σχολίου" (σας προτείνω να διαβάσετε με προσοχή τις οδηγίες που θα βρείτε πάνω από την φόρμα που θα ανοίξει ώστε να γραψετε το σχόλιό σας). Επίσης μπορείτε να στείλετε σε φίλους σας την συγκεκριμένη ανάρτηση που θέλετε απλά πατώντας τον φάκελλο που βλέπετε στο κάτω μέρος της ανάρτησης. Θα ανοίξει μια φόρμα στην οποία μπορείτε να γράψετε το email του φίλου σας, ενώ αν έχετε προφίλ στο Facebook ή στο Twitter μπορείτε με τα εικονίδια που θα βρείτε στο τέλος της ανάρτησης να την μοιραστείτε με τους φίλους σας.

2. Στην δεξιά στήλη του ιστολογίου μας μπορείτε να βρείτε το πλαίσιο στο οποίο βάζοντας το email σας και πατώντας την λέξη Submit θα ενημερώνεστε αυτόματα για τις τελευταίες αναρτήσεις του ιστολογίου μας.

3. Αν έχετε λογαριασμό στο Twitter σας δινεται η δυνατότητα να μας κάνετε follow και να παρακολουθείτε το ιστολόγιό μας από εκεί. Θα βρείτε το σχετικό εικονίδιο του Twitter κάτω από τα πλαίσια του Google Friend Connect, στην δεξιά στήλη του ιστολογίου μας.

4. Μπορείτε να ενημερωθείτε από την δεξιά στήλη του ιστολογίου μας με τα διάφορα gadgets για τον καιρό, να δείτε ανακοινώσεις, στατιστικά, ειδήσεις και λόγια ή κείμενα που δείχνουν τις αρχές και τα πιστεύω του ιστολογίου μας. Επίσης μπορείτε να κάνετε αναζήτηση βάζοντας μια λέξη στο πλαίσιο της Αναζήτησης (κάτω από τους αναγνώστες μας). Πατώντας την λέξη Αναζήτηση θα εμφανιστούν σχετικές αναρτήσεις μας πάνω από τον χώρο των αναρτήσεων. Παράλληλα μπορείτε να δείτε τις αναρτήσεις του τρέχοντος μήνα αλλά και να επιλέξετε κάποια συγκεκριμένη κατηγορία αναρτήσεων από την σχετική στήλη δεξιά.

5. Μπορείτε ακόμα να αφήσετε το μήνυμά σας στο μικρό τσατάκι του blog μας στην δεξιά στήλη γράφοντας απλά το όνομά σας ή κάποιο ψευδώνυμο στην θέση "όνομα" (name) και το μήνυμά σας στην θέση "Μήνυμα" (Message).

6. Επίσης μπορείτε να μας στείλετε ηλεκτρονικό μήνυμα στην διεύθυνσή μας koukthanos@gmail.com με όποιο περιεχόμενο επιθυμείτε. Αν είναι σε προσωπικό επίπεδο θα λάβετε πολύ σύντομα απάντησή μας.

7. Τέλος μπορείτε να βρείτε στην δεξιά στήλη του ιστολογίου μας τα φιλικά μας ιστολόγια, τα ιστολόγια που παρακολουθούμε αλλά και πολλούς ενδιαφέροντες συνδέσμους.

Να σας υπενθυμίσουμε ότι παρακάτω μπορείτε να βρείτε χρήσιμες οδηγίες για την κατασκευή των αναρτήσεών μας αλλά και στην κάτω μπάρα του ιστολογίου μας ότι έχει σχέση με δημοσιεύσεις και πνευματικά δικαιώματα.

ΣΑΣ ΕΥΧΟΜΑΣΤΕ ΚΑΛΗ ΠΕΡΙΗΓΗΣΗ

Χρήσιμες οδηγίες για τις αναρτήσεις μας.

1. Στις αναρτήσεις μας μπαίνει ΠΑΝΤΑ η πηγή σε οποιαδήποτε ανάρτηση ή μερος αναρτησης που προέρχεται απο άλλο ιστολόγιο. Αν δεν προέρχεται από κάποιο άλλο ιστολόγιο και προέρχεται από φίλο αναγνώστη ή επώνυμο ή άνωνυμο συγγραφέα, υπάρχει ΠΑΝΤΑ σε εμφανες σημείο το ονομά του ή αναφέρεται ότι προέρχεται από ανώνυμο αναγνώστη μας.

2. Για όλες τις υπόλοιπες αναρτήσεις που δεν έχουν υπογραφή ΙΣΧΥΕΙ η αυτόματη υπογραφή της ανάρτησης. Ετσι όταν δεν βλέπετε καμιά πηγή ή αναφορά σε ανωνυμο ή επώνυμο συντάκτη να θεωρείτε ΩΣ ΑΥΣΤΗΡΟ ΚΑΝΟΝΑ ότι ισχύει η αυτόματη υπογραφή του αναρτήσαντα.

3. Οταν βλέπετε ανάρτηση με πηγή ή και επώνυμο ή ανώνυμο συντάκτη αλλά στη συνέχεια υπάρχει και ΣΧΟΛΙΟ, τότε αυτό είναι ΚΑΙ ΠΑΛΙ του αναρτήσαντα δηλαδή είναι σχόλιο που προέρχεται από το ιστολόγιό μας.

Σημείωση: Να σημειώσουμε ότι εκτός των αναρτήσεων που υπογράφει ο διαχειριστής μας, όλες οι άλλες απόψεις που αναφέρονται σε αυτές ανήκουν αποκλειστικά στους συντάκτες των άρθρων. Τέλος άλλες πληροφορίες για δημοσιεύσεις και πνευματικά δικαιώματα μπορείτε να βρείτε στην κάτω μπάρα του ιστολογίου μας.

Δημοσιεύσεις και πνευματικά δικαιώματα

Οι δημοσιεύσεις στο ιστολόγιο μας, εκφράζουν αποκλειστικά τις απόψεις του μέλους που τις αναρτά.

Επιτρέπουμε την δημοσίευση οποιουδήποτε άρθρου ή μέρους άρθρου του ιστολογίου μας, με απαραίτητες προϋποθέσεις:
1. Την αναφορά προέλευσης του άρθρου, απο το ιστολόγιό μας, με παραλληλη αναφορά του ονόματος του μέλους μας που την ανάρτησε.
2. Οποιοσδήποτε αναγνώστης επιθυμεί να μεταφέρει άρθρο ή μέρος άρθρου σε οποιονδήποτε άλλο χώρο του διαδικτύου, να μας γνωστοποιήσει την πρόθεσή του με ανάρτηση σχολίου στο συγκεκριμένο άρθρο, όπου θα αναγράφεται το προφίλ του καθώς και το site στο οποίο θα γίνει η δημοσίευση, ή με αποστολή email στην ηλεκτρονική μας διεύθυνση που φαίνεται παραπλεύρως.
3. Απαγορεύεται η λεκτική αλλαγή ή η διασκευή, προ της δημοσιεύσεως, σε οποιοδήποτε άλλο διαδικτυακό χώρο, οποιουδήποτε άρθρου ή μέρους άρθρου του ιστολογίου μας.

Δεδομένου ότι ο σκοπός του παρόντος blog είναι ανταλλαγή απόψεων, σε περίπτωση που διαπιστώσετε ότι υπάρχει υλικό του οποίου είστε κάτοχος πνευματικών δικαιωμάτων, παρακαλούμε να επικοινωνήσετε μαζί μας, μέσω ηλεκτρονικού ταχυδρομείου ή σχολίου στο τελευταίο εκάστοτε θέμα (με αποδεικτικό στοιχείο) για να επανορθώσουμε άμεσα.

ΘΑΝΟΣ ΕΥΗ koukfamily

Σελίδες

24 Μαρτίου 2025

Μπορεί η Τεχνητή Νοημοσύνη να λέει ψέματα;

Δεν υπάρχουν σχόλια:

Λίγες οδηγίες πριν επισκεφθείτε το ιστολόγιό μας (Για νέους επισκέπτες)

Χρήσιμες οδηγίες για τις αναρτήσεις μας.

Για να μας γνωρίσετε.

Ο Διαχειριστής μας

EMAIL ΕΠΙΚΟΙΝΩΝΙΑΣ

Μας επισκέπτεσαι για πρώτη φορά; Τότε...

Περάστε στην κουζίνα μας !!!

Η ΤΡΙΗΡΗΣ του Μάκη μας

Ο καλός μας φίλος Cummulus

Το αδερφικό μας ΕΘΝΕΓΕΡΣΙΣ

Το ιστολογιο του αείμνηστου φίλου μας Ποσειδώνα

On line Επικοινωνία

Μετρητής επισκεπτών

Προέλευση επισκεπτών μας.

Λίγα στατιστικά του blog μας

Μελη koukfamily

Ειδικός Συνεργάτης

Συνεργαζόμενοι Αρθρογράφοι

Φίλοι μας

Βάλε το μέηλ σου για να λαμβάνεις ενημερώσεις από το ιστολόγιό μας

Βάλε λέξη και θα δείς αναρτήσεις του ιστολογίου μας πάνω από την στήλη των αναρτήσεων.

Μέλος των Ακομμάτιστων Ελλήνων Ιστολόγων

Είμαστε και στο MeWe

Ακολούθησέ μας στο Twitter

Twitter Timeline

Το προφίλ μου στο Substack

Ακολουθείστε μας στο DailyMotion

Δημοφιλείς αναρτήσεις τελευταίων 7 ημερών

Αρχειοθήκη ιστολογίου

Κατηγορίες θεμάτων

Τα banner των blog μας

Το banner της Εύης μας

Εφαρμογή για κινητά και τάμπλετ

Μέλος του GreekBloggers.com

Θα μας βρείτε και στο

Θα μας βρείτε και στο myblogs.gr

Θα μας βρείτε και στο Foulscode

Θα μας βρείτε και στο All Greek Blogs

Θα μας βρείτε και στο Tipos.gr

Θα μας βρείτε και στο Tweety Blogs

Bloggers ενωμένοι ποτέ νικημένοι

Είσαι blogger σε ενδιαφέρει. Μαθε τα δικαιώματά σου.

ΜΟΥΣΙΚΑ ΣΧΟΛΕΙΑ

Ο μεγαλύτερος συγχρονος προδότης της πατρίδας μας

ΦΥΓΕΤΕ ΠΡΟΔΟΤΕΣ ΤΗΣ ΜΑΚΕΔΟΝΙΑΣ

Για να μην ξεχνάμε την Μακεδονία

ΥΠΟΓΡΑΦΩ ΓΙΑ ΤΗΝ ΜΑΚΕΔΟΝΙΑ

Για να μην ξεχνάμε τον προδότη

ΥΠΟΓΡΑΦΕΣ ΚΑΙ ΕΝΗΜΕΡΩΣΗ ΓΙΑ ΤΗΝ ΔΙΩΞΗ ΤΩΝ ΠΡΟΔΟΤΩΝ ΣΤΟΝ ΠΑΡΑΚΑΤΩ ΣΥΝΔΕΣΜΟ

ΑΝΑΚΟΙΝΩΣΕΙΣ

ΚΑΤΑΖΗΤΕΙΤΑΙ Ο ΔΟΛΟΦΟΝΟΣ ΤΟΥ ΣΟΛΩΜΟΥ ΚΕΝΑΝ ΑΚΙΝ ΥΠΟΨΗΦΙΟΣ ΥΠΟΥΡΓΟΣ ΤΟΥ ΤΟΥΡΚΙΚΟΥ ΨΕΥΔΟΚΡΑΤΟΥΣ

Και του χρόνου στην Πόλη μας.

Τα παληκάρια μας λένε τον Εθνικό Υμνο

Ο ΕΘΝΙΚΟΣ ΜΑΣ ΥΜΝΟΣ

Μακεδονία Ξακουστή

ΓΙΑ ΤΗΝ ΜΑΚΕΔΟΝΙΑ ΜΑΣ

Δόξα τω Θεώ....να λέμε.

Δεν πρέπει να ξεχνάμε

Μπιλ Γκέιτς και Αποκάλυψη

ΜΟΛΩΝ ΛΑΒΕ

ΕΥΑΓΟΡΑΣ ΠΑΛΛΗΚΑΡΙΔΗΣ

Θα πάρω μιαν ανηφοριά

ΚΥΠΡΟΣ ΕΛΛΗΝΙΚΗ

Ο Γέρος του Μωριά

Από τον λόγο του Θ. Κολοκοτρώνη προς την Ελληνική νεολαία που εκφωνησε στην Πνύκα το 1838

ΧΡΙΣΤΟΔΟΥΛΟΣ

Ο Λευκός Πύργος

Δημήτρης Πατσουλές Διευθυντής Συντάξεως του περιοδικού "ΙΣΤΟΡΙΚΕΣ ΣΕΛΙΔΕΣ"

Ο Παρθενώνας

Ενδιαφέροντες σύνδεσμοι

Σύνδεσμοι για τα ...πάντα.

Σύνδεσμοι για να δείτε ΔΩΡΕΑΝ τηλεόραση (απαιτείται υψηλή ταχύτητα σύνδεσης)

Δείτε το πρόγραμμα όλων των καναλιών της τηλεόρασης.

Η Ιθαγένεια δεν παραχωρείται.

Φιλικά Ιστολόγια