15 Μαΐου 2026

Ένα πείραμα που προειδοποιεί: Ρομπότ τεχνητής νοημοσύνης πείστηκε να μεταφέρει βόμβα, ενώ στην αρχή είχε αρνηθεί

Ένα τετράποδο ρομπότ που τραγουδά, χορεύει και συνομιλεί με ανθρώπους αρνήθηκε αρχικά να μεταφέρει μια βόμβα. Χρειάστηκαν όμως μόλις δύο επιπλέον εντολές για να αλλάξει στάση και να εκτελέσει την αποστολή, αφού πείστηκε ότι συμμετείχε σε κινηματογραφικά γυρίσματα.

Το περιστατικό δεν αποτελεί σενάριο επιστημονικής φαντασίας, αλλά πραγματικό πείραμα ερευνητών στο Πανεπιστήμιο της Πενσιλβάνιας, με επικεφαλής τον Γιώργο Παππά, καθηγητή Ηλεκτρολόγων Μηχανικών και αναπληρωτή κοσμήτορα Έρευνας.

Το πείραμα ανέδειξε πόσο εύκολα μπορούν να παρακαμφθούν οι δικλείδες ασφαλείας συστημάτων τεχνητής νοημοσύνης μέσω της τεχνικής «jailbreaking», δηλαδή της παράκαμψης των περιορισμών που έχουν θέσει οι κατασκευαστές. 

«Όταν η AI αλληλεπιδρά με τον φυσικό κόσμο, το ρίσκο είναι τεράστιο»

Όπως εξηγεί ο Γιώργος Παππάς στο ΑΠΕ-ΜΠΕ, η ραγδαία εξέλιξη της λεγόμενης «physical intelligence» —της τεχνητής νοημοσύνης που αλληλεπιδρά με τον φυσικό κόσμο— δημιουργεί σοβαρούς κινδύνους.

«Μπορεί τα μεγάλα γλωσσικά μοντέλα να μην είναι ασφαλή, ωστόσο όταν αλληλεπιδρούν με τον φυσικό κόσμο, μπορεί να έχουν επιπτώσεις που να επιφέρουν απώλεια ζωής ή καταστροφές στο περιβάλλον. Οπότε το ρίσκο της ασφάλειας είναι μεγάλο», σημειώνει.

Η ενσωμάτωση της τεχνητής νοημοσύνης στη ρομποτική ξεκίνησε τη δεκαετία του 2010, όμως η μεγάλη αλλαγή ήρθε μετά το 2022 με την ανάπτυξη της Παραγωγικής Τεχνητής Νοημοσύνης (Generative AI), που επιτρέπει στα ρομπότ να λαμβάνουν πιο σύνθετες αποφάσεις και να αλληλεπιδρούν αυτόνομα με ανθρώπους. 

Από το PAIR στο RoboPAIR

Η ερευνητική ομάδα του Πανεπιστημίου της Πενσιλβάνιας είχε ήδη αναπτύξει το 2023 τον αλγόριθμο PAIR, την πρώτη συστηματική επίθεση jailbreaking σε μεγάλα γλωσσικά μοντέλα μέσω προτροπών (prompts).

Η έρευνα οδήγησε στη δημιουργία του JailbreakBench, ενός αποθετηρίου επιθέσεων και εργαλείων αξιολόγησης ευπαθειών σε συστήματα AI.

Στη συνέχεια, οι ερευνητές επικεντρώθηκαν στα ρομπότ και ανέπτυξαν τον αλγόριθμο RoboPAIR. Σε πειράματα με τρία διαφορετικά ρομποτικά συστήματα, ανάμεσά τους και το τετράποδο ρομπότ Benben, ο αλγόριθμος πέτυχε 100% παράκαμψη των μηχανισμών ασφαλείας μέσα σε ελάχιστες εντολές.

Τα αποτελέσματα δημοσιεύθηκαν στο συνέδριο IEEE International Conference on Robotics and Automation. 

«Τα ρομπότ πρότειναν ακόμη και τρόπους επίθεσης»

Ιδιαίτερη ανησυχία προκάλεσε στους επιστήμονες το γεγονός ότι τα γλωσσικά μοντέλα δεν ακολουθούσαν απλώς κακόβουλες εντολές, αλλά παρείχαν και προτάσεις για το πώς καθημερινά αντικείμενα θα μπορούσαν να χρησιμοποιηθούν για να τραυματίσουν ανθρώπους.

«Τίθεται λοιπόν ένα θέμα για το πόσο ασφαλές είναι να βάζουμε γλωσσικά μοντέλα τόσο γρήγορα σε ρομπότ και να αποτελούν ήδη προϊόντα. Υπάρχουν χιλιάδες τέτοια ρομπότ έξω», τονίζει ο κ. Παππάς. 

Πολλαπλά επίπεδα ασφαλείας όπως στα αεροπλάνα

Σε πρόσφατη μελέτη που δημοσιεύθηκε στο περιοδικό Science Robotics, ερευνητές από τα Πανεπιστήμια της Πενσιλβάνιας, Carnegie Mellon University και Πανεπιστήμιο της Οξφόρδης υπογραμμίζουν την ανάγκη δημιουργίας πολυεπίπεδων μηχανισμών ασφαλείας.

Όπως εξηγούν, η προστασία πρέπει να λειτουργεί τόσο στο γλωσσικό επίπεδο όσο και στο επίπεδο εκτέλεσης των εντολών στον φυσικό κόσμο — μια προσέγγιση που ονομάζεται «contextual safety».

«Η ασφάλεια των ρομπότ στο μέλλον θα είναι όπως στα αεροπλάνα, που έχουν πολλά επίπεδα ασφαλείας», αναφέρει χαρακτηριστικά ο Γιώργος Παππάς.

Στο πλαίσιο αυτό, η ομάδα ανέπτυξε το φίλτρο Roboguard, το οποίο, σύμφωνα με τους ερευνητές, μειώνει κατά 95% τα προβλήματα που προκαλούνται από επιθέσεις jailbreaking.

Παράλληλα, ο κ. Παππάς επισημαίνει την ανάγκη ενίσχυσης του ρυθμιστικού πλαισίου για τα ρομπότ με τεχνητή νοημοσύνη, σημειώνοντας ότι το AI Act της Ευρωπαϊκής Ένωσης αποτελεί σημαντικό πρώτο βήμα, αλλά απαιτείται περαιτέρω εξειδίκευση στις εφαρμογές ρομποτικής.

briefingnews




Share

Δεν υπάρχουν σχόλια:

Λίγες οδηγίες πριν επισκεφθείτε το ιστολόγιό μας (Για νέους επισκέπτες)

1. Στην στήλη αριστερά βλέπετε τις αναρτήσεις του ιστολογίου μας τις οποίες μπορείτε ελεύθερα να σχολιάσετε επωνύμως, ανωνύμως ή με ψευδώνυμο, πατώντας απλά την λέξη κάτω από την ανάρτηση που γραφει "σχόλια" ή "δημοσίευση σχολίου" (σας προτείνω να διαβάσετε με προσοχή τις οδηγίες που θα βρείτε πάνω από την φόρμα που θα ανοίξει ώστε να γραψετε το σχόλιό σας). Επίσης μπορείτε να στείλετε σε φίλους σας την συγκεκριμένη ανάρτηση που θέλετε απλά πατώντας τον φάκελλο που βλέπετε στο κάτω μέρος της ανάρτησης. Θα ανοίξει μια φόρμα στην οποία μπορείτε να γράψετε το email του φίλου σας, ενώ αν έχετε προφίλ στο Facebook ή στο Twitter μπορείτε με τα εικονίδια που θα βρείτε στο τέλος της ανάρτησης να την μοιραστείτε με τους φίλους σας.

2. Στην δεξιά στήλη του ιστολογίου μας μπορείτε να βρείτε το πλαίσιο στο οποίο βάζοντας το email σας και πατώντας την λέξη Submit θα ενημερώνεστε αυτόματα για τις τελευταίες αναρτήσεις του ιστολογίου μας.

3. Αν έχετε λογαριασμό στο Twitter σας δινεται η δυνατότητα να μας κάνετε follow και να παρακολουθείτε το ιστολόγιό μας από εκεί. Θα βρείτε το σχετικό εικονίδιο του Twitter κάτω από τα πλαίσια του Google Friend Connect, στην δεξιά στήλη του ιστολογίου μας.

4. Μπορείτε να ενημερωθείτε από την δεξιά στήλη του ιστολογίου μας με τα διάφορα gadgets για τον καιρό, να δείτε ανακοινώσεις, στατιστικά, ειδήσεις και λόγια ή κείμενα που δείχνουν τις αρχές και τα πιστεύω του ιστολογίου μας. Επίσης μπορείτε να κάνετε αναζήτηση βάζοντας μια λέξη στο πλαίσιο της Αναζήτησης (κάτω από τους αναγνώστες μας). Πατώντας την λέξη Αναζήτηση θα εμφανιστούν σχετικές αναρτήσεις μας πάνω από τον χώρο των αναρτήσεων. Παράλληλα μπορείτε να δείτε τις αναρτήσεις του τρέχοντος μήνα αλλά και να επιλέξετε κάποια συγκεκριμένη κατηγορία αναρτήσεων από την σχετική στήλη δεξιά.

5. Μπορείτε ακόμα να αφήσετε το μήνυμά σας στο μικρό τσατάκι του blog μας στην δεξιά στήλη γράφοντας απλά το όνομά σας ή κάποιο ψευδώνυμο στην θέση "όνομα" (name) και το μήνυμά σας στην θέση "Μήνυμα" (Message).

6. Επίσης μπορείτε να μας στείλετε ηλεκτρονικό μήνυμα στην διεύθυνσή μας koukthanos@gmail.com με όποιο περιεχόμενο επιθυμείτε. Αν είναι σε προσωπικό επίπεδο θα λάβετε πολύ σύντομα απάντησή μας.

7. Τέλος μπορείτε να βρείτε στην δεξιά στήλη του ιστολογίου μας τα φιλικά μας ιστολόγια, τα ιστολόγια που παρακολουθούμε αλλά και πολλούς ενδιαφέροντες συνδέσμους.

Να σας υπενθυμίσουμε ότι παρακάτω μπορείτε να βρείτε χρήσιμες οδηγίες για την κατασκευή των αναρτήσεών μας αλλά και στην κάτω μπάρα του ιστολογίου μας ότι έχει σχέση με δημοσιεύσεις και πνευματικά δικαιώματα.

ΣΑΣ ΕΥΧΟΜΑΣΤΕ ΚΑΛΗ ΠΕΡΙΗΓΗΣΗ

Χρήσιμες οδηγίες για τις αναρτήσεις μας.

1. Στις αναρτήσεις μας μπαίνει ΠΑΝΤΑ η πηγή σε οποιαδήποτε ανάρτηση ή μερος αναρτησης που προέρχεται απο άλλο ιστολόγιο. Αν δεν προέρχεται από κάποιο άλλο ιστολόγιο και προέρχεται από φίλο αναγνώστη ή επώνυμο ή άνωνυμο συγγραφέα, υπάρχει ΠΑΝΤΑ σε εμφανες σημείο το ονομά του ή αναφέρεται ότι προέρχεται από ανώνυμο αναγνώστη μας.

2. Για όλες τις υπόλοιπες αναρτήσεις που δεν έχουν υπογραφή ΙΣΧΥΕΙ η αυτόματη υπογραφή της ανάρτησης. Ετσι όταν δεν βλέπετε καμιά πηγή ή αναφορά σε ανωνυμο ή επώνυμο συντάκτη να θεωρείτε ΩΣ ΑΥΣΤΗΡΟ ΚΑΝΟΝΑ ότι ισχύει η αυτόματη υπογραφή του αναρτήσαντα.

3. Οταν βλέπετε ανάρτηση με πηγή ή και επώνυμο ή ανώνυμο συντάκτη αλλά στη συνέχεια υπάρχει και ΣΧΟΛΙΟ, τότε αυτό είναι ΚΑΙ ΠΑΛΙ του αναρτήσαντα δηλαδή είναι σχόλιο που προέρχεται από το ιστολόγιό μας.

Σημείωση: Να σημειώσουμε ότι εκτός των αναρτήσεων που υπογράφει ο διαχειριστής μας, όλες οι άλλες απόψεις που αναφέρονται σε αυτές ανήκουν αποκλειστικά στους συντάκτες των άρθρων. Τέλος άλλες πληροφορίες για δημοσιεύσεις και πνευματικά δικαιώματα μπορείτε να βρείτε στην κάτω μπάρα του ιστολογίου μας.