Μπορείτε να κάνετε jailbreak του τελευταίου μέτρου ασφαλείας AI; Οι ερευνητές θέλουν να δοκιμάσετε – και να προσφέρετε έως και $ 20.000 αν πετύχετε.
Τη Δευτέρα, η εταιρεία δημοσίευσε ένα νέο άρθρο με την παρουσίαση του συστήματος ασφαλείας AI που ονομάζεται “Συνταγματικοί ταξινομητές”. Η διαδικασία βασίζεται στο συνταγματικό AI, ένα σύστημα που ο ανθρωπιστής χρησιμοποίησε για να κάνει τον Claude “αβλαβές”, στο οποίο ένα AI βοηθά στον έλεγχο και τη βελτίωση ενός άλλου. Κάθε μέθοδος καθοδηγείται από ένα σύνταγμα ή από έναν “κατάλογο αρχών”, τον οποίο το μοντέλο πρέπει να συμμορφώνεται με, ο ανθρωπός εξηγείται στο blog.
Επίσης: Το μοντέλο τεχνητής νοημοσύνης Deepseek είναι εύκολο στη Jailbreitsa – και χειρότερα
Εκπαιδεύτηκε από συνθετικά δεδομένα, αυτοί οι “ταξινομητές” ήταν σε θέση να φιλτράρουν τις προσπάθειες “συντριπτικής πλειοψηφίας” από το jailbreak χωρίς υπερβολικές επαναλήψεις (λανθασμένες σημαίες αβλαβής περιεχομένου ως επιβλαβείς), σύμφωνα με τον ανθρωπότη.
“Οι αρχές καθορίζουν τις κατηγορίες περιεχομένου που επιτρέπονται και απαγορεύονται (για παράδειγμα, επιτρέπονται συνταγές προσποίησης, αλλά οι συνταγές για αέριο μουστάρδας δεν είναι)”, δήλωσε ο Anthropus. Οι ερευνητές παρείχαν συμβουλές λαμβάνοντας υπόψη τις προσπάθειες του Jailbrack σε διαφορετικές γλώσσες και στυλ.
Κατά τη διάρκεια της αρχικής δοκιμής του 183, οι συναισθηματικοί άνθρωποι πέρασαν πάνω από 3.000 ώρες για δύο μήνες, προσπαθώντας να κάνουν ένα jailbreak claude 3,5 sonnet από ένα πρωτότυπο ενός συστήματος που εκπαιδεύτηκε να μην χρησιμοποιήσει καμία πληροφορία για «χημικά, βιολογικά, ακτινολογικά και πυρηνικά βλάβη. “Οι Jailbreakers έλαβαν 10 περιορισμένες αιτήσεις χρήσης στις προσπάθειές τους, οι παραβιάσεις θεωρήθηκαν μόνο επιτυχείς εάν έλαβαν λεπτομερώς ένα μοντέλο για να απαντήσουν λεπτομερώς.
Το σύστημα των συνταγματικών ταξινομητών ήταν αποτελεσματικό. “Κανένας από τους συμμετέχοντες δεν θα μπορούσε να αναγκάσει το μοντέλο να απαντήσει και τα 10 απαγορευμένα αιτήματα με ένα jailbreak – δηλαδή, δεν υπήρχε καθολική jailbreak”, εξήγησε ο ανθρωπός ότι κανείς δεν είχε κερδίσει την ανταμοιβή της εταιρείας ύψους $ 15.000.
Επίσης: μια βαθιά μελέτη του ChatGPT έχει μόλις εντοπίσει 20 θέσεις εργασίας που θα αντικαταστήσει. Είναι δική σας στη λίστα;
Το πρωτότυπο “αρνήθηκε πάρα πολλά αβλαβή αιτήματα” και ήταν επινοητική για εργασία, γεγονός που το καθιστά ασφαλές, αλλά ακατάλληλο. Μετά τη βελτίωσή του, ο Anpropic διεξήγαγε δοκιμασία 10.000 συνθετικών προσπαθειών από τον Jalebrack στην έκδοση του Οκτωβρίου του Sonnet Claude 3.5 με την προστασία του ταξινομητή και χωρίς να χρησιμοποιεί καλά γνωστές επιτυχημένες επιθέσεις. Μόνο ο Claude εμπόδισε μόνο το 14% των επιθέσεων, ενώ ο Claude με συνταγματικούς ταξινομητές εμπόδισε περισσότερο από το 95%.
Αλλά ο ανθρωπός θέλει ακόμα να προσπαθήσετε να τον νικήσετε. Την Τετάρτη, η εταιρεία ανέφερε σε δήλωση του X ότι “τώρα προσφέρει 10 χιλιάδες δολάρια στο πρώτο πρόσωπο που θα περάσει και τα οκτώ επίπεδα και 20 χιλιάδες δολάρια στο πρώτο άτομο που πέρασε και τα οκτώ επίπεδα με καθολικό jailbreak”.
Υπάρχει προκαταρκτική εμπειρία ενός κόκκινου κυβερνήτη; Μπορείτε να δοκιμάσετε την ευκαιρία σας για αμοιβή δοκιμάζοντας τον εαυτό σας – μόνο οκτώ απαραίτητες ερωτήσεις αντί για το αρχικό 10 – μέχρι τις 10 Φεβρουαρίου.
Επίσης: μια νέα απόφαση του γραφείου των ΗΠΑ για την τέχνη της τέχνης του AI – και μπορεί να αλλάξει τα πάντα
“Οι συνταγματικοί ταξινομητές μπορεί να μην εμποδίσουν κάθε καθολικό jailbreak, αν και πιστεύουμε ότι ακόμη και ένα μικρό μερίδιο των Jailbreiks που διεξάγουν τους ταξινομητές μας απαιτούν πολύ μεγαλύτερη προσπάθεια για να ανιχνεύσουν πότε χρησιμοποιείται η εγγύηση”, συνέχισε ο ανθρωπός. “Είναι επίσης πιθανό ότι στις μελλοντικές νέες μεθόδους jailbreak μπορούν να αναπτυχθούν που θα είναι αποτελεσματικές έναντι του συστήματος. Ως εκ τούτου, συνιστούμε να χρησιμοποιήσετε πρόσθετη προστασία. Παρ ‘όλα αυτά, το Σύνταγμα χρησιμοποιείται για να διδάξει τους ταξινομητές. «
Η εταιρεία δήλωσε ότι εργάζεται επίσης για τη μείωση των υπολογισμών των συνταγματικών ταξινομητών, οι οποίοι, όπως σημειώνει, είναι σήμερα υψηλός.