Monday, June 2, 2025
  • About Us
  • Contact Us
  • Terms and Conditions
  • Privacy Policy
  • Disclaimer
Viral Source
  • Home
  • Business
  • Health
  • Gaming
  • Economy
  • Technology
  • Gadgets
  • Lifestyle
  • Sports
  • World
No Result
View All Result
Viral Source
Home Technology

Ο Anpropic προσφέρει 20.000 $, ο οποίος μπορεί να jailbreak του νέου συστήματος ασφαλείας του AI

Jessica Thompson by Jessica Thompson
February 6, 2025
in Technology
0
Ο Anpropic προσφέρει 20.000 $, ο οποίος μπορεί να jailbreak του νέου συστήματος ασφαλείας του AI
0
SHARES
0
VIEWS
Share on FacebookShare on Twitter
GetTyimage-1210077086

Εικόνες Miragec/Getty

Μπορείτε να κάνετε jailbreak του τελευταίου μέτρου ασφαλείας AI; Οι ερευνητές θέλουν να δοκιμάσετε – και να προσφέρετε έως και $ 20.000 αν πετύχετε.

Τη Δευτέρα, η εταιρεία δημοσίευσε ένα νέο άρθρο με την παρουσίαση του συστήματος ασφαλείας AI που ονομάζεται “Συνταγματικοί ταξινομητές”. Η διαδικασία βασίζεται στο συνταγματικό AI, ένα σύστημα που ο ανθρωπιστής χρησιμοποίησε για να κάνει τον Claude “αβλαβές”, στο οποίο ένα AI βοηθά στον έλεγχο και τη βελτίωση ενός άλλου. Κάθε μέθοδος καθοδηγείται από ένα σύνταγμα ή από έναν “κατάλογο αρχών”, τον οποίο το μοντέλο πρέπει να συμμορφώνεται με, ο ανθρωπός εξηγείται στο blog.

Επίσης: Το μοντέλο τεχνητής νοημοσύνης Deepseek είναι εύκολο στη Jailbreitsa – και χειρότερα

Εκπαιδεύτηκε από συνθετικά δεδομένα, αυτοί οι “ταξινομητές” ήταν σε θέση να φιλτράρουν τις προσπάθειες “συντριπτικής πλειοψηφίας” από το jailbreak χωρίς υπερβολικές επαναλήψεις (λανθασμένες σημαίες αβλαβής περιεχομένου ως επιβλαβείς), σύμφωνα με τον ανθρωπότη.

“Οι αρχές καθορίζουν τις κατηγορίες περιεχομένου που επιτρέπονται και απαγορεύονται (για παράδειγμα, επιτρέπονται συνταγές προσποίησης, αλλά οι συνταγές για αέριο μουστάρδας δεν είναι)”, δήλωσε ο Anthropus. Οι ερευνητές παρείχαν συμβουλές λαμβάνοντας υπόψη τις προσπάθειες του Jailbrack σε διαφορετικές γλώσσες και στυλ.

2Ε997FCA176FD82966EEA5E9BF0008733337CFD1-1650X1077

Οι συνταγματικοί ταξινομητές καθορίζουν αβλαβείς και επιβλαβείς κατηγορίες περιεχομένου, στις οποίες η ανθρωπότητα δημιούργησε ένα σύνολο συμβουλών και ολοκληρώσεων.

Άξονα

Κατά τη διάρκεια της αρχικής δοκιμής του 183, οι συναισθηματικοί άνθρωποι πέρασαν πάνω από 3.000 ώρες για δύο μήνες, προσπαθώντας να κάνουν ένα jailbreak claude 3,5 sonnet από ένα πρωτότυπο ενός συστήματος που εκπαιδεύτηκε να μην χρησιμοποιήσει καμία πληροφορία για «χημικά, βιολογικά, ακτινολογικά και πυρηνικά βλάβη. “Οι Jailbreakers έλαβαν 10 περιορισμένες αιτήσεις χρήσης στις προσπάθειές τους, οι παραβιάσεις θεωρήθηκαν μόνο επιτυχείς εάν έλαβαν λεπτομερώς ένα μοντέλο για να απαντήσουν λεπτομερώς.

Related posts

Αυτός ο κρυμμένος ρυθμιστής Google Earth σας επιτρέπει να ταξιδεύετε εγκαίρως – έως και 80 χρόνια. Πώς να δοκιμάσετε

Αυτός ο κρυμμένος ρυθμιστής Google Earth σας επιτρέπει να ταξιδεύετε εγκαίρως – έως και 80 χρόνια. Πώς να δοκιμάσετε

May 15, 2025
Γιατί προτείνω αυτό το ασύρματο κενό σύμφωνα με το Dyson μου – ειδικά σε αυτήν την τιμή πώλησης

Γιατί προτείνω αυτό το ασύρματο κενό σύμφωνα με το Dyson μου – ειδικά σε αυτήν την τιμή πώλησης

May 15, 2025

Το σύστημα των συνταγματικών ταξινομητών ήταν αποτελεσματικό. “Κανένας από τους συμμετέχοντες δεν θα μπορούσε να αναγκάσει το μοντέλο να απαντήσει και τα 10 απαγορευμένα αιτήματα με ένα jailbreak – δηλαδή, δεν υπήρχε καθολική jailbreak”, εξήγησε ο ανθρωπός ότι κανείς δεν είχε κερδίσει την ανταμοιβή της εταιρείας ύψους $ 15.000.

Επίσης: μια βαθιά μελέτη του ChatGPT έχει μόλις εντοπίσει 20 θέσεις εργασίας που θα αντικαταστήσει. Είναι δική σας στη λίστα;

Το πρωτότυπο “αρνήθηκε πάρα πολλά αβλαβή αιτήματα” και ήταν επινοητική για εργασία, γεγονός που το καθιστά ασφαλές, αλλά ακατάλληλο. Μετά τη βελτίωσή του, ο Anpropic διεξήγαγε δοκιμασία 10.000 συνθετικών προσπαθειών από τον Jalebrack στην έκδοση του Οκτωβρίου του Sonnet Claude 3.5 με την προστασία του ταξινομητή και χωρίς να χρησιμοποιεί καλά γνωστές επιτυχημένες επιθέσεις. Μόνο ο Claude εμπόδισε μόνο το 14% των επιθέσεων, ενώ ο Claude με συνταγματικούς ταξινομητές εμπόδισε περισσότερο από το 95%.

CD6520D6455ADE7F12AB336CD02EF5954211DFA8-1650X1077

Άξονα

Αλλά ο ανθρωπός θέλει ακόμα να προσπαθήσετε να τον νικήσετε. Την Τετάρτη, η εταιρεία ανέφερε σε δήλωση του X ότι “τώρα προσφέρει 10 χιλιάδες δολάρια στο πρώτο πρόσωπο που θα περάσει και τα οκτώ επίπεδα και 20 χιλιάδες δολάρια στο πρώτο άτομο που πέρασε και τα οκτώ επίπεδα με καθολικό jailbreak”.

Υπάρχει προκαταρκτική εμπειρία ενός κόκκινου κυβερνήτη; Μπορείτε να δοκιμάσετε την ευκαιρία σας για αμοιβή δοκιμάζοντας τον εαυτό σας – μόνο οκτώ απαραίτητες ερωτήσεις αντί για το αρχικό 10 – μέχρι τις 10 Φεβρουαρίου.

Επίσης: μια νέα απόφαση του γραφείου των ΗΠΑ για την τέχνη της τέχνης του AI – και μπορεί να αλλάξει τα πάντα

“Οι συνταγματικοί ταξινομητές μπορεί να μην εμποδίσουν κάθε καθολικό jailbreak, αν και πιστεύουμε ότι ακόμη και ένα μικρό μερίδιο των Jailbreiks που διεξάγουν τους ταξινομητές μας απαιτούν πολύ μεγαλύτερη προσπάθεια για να ανιχνεύσουν πότε χρησιμοποιείται η εγγύηση”, συνέχισε ο ανθρωπός. “Είναι επίσης πιθανό ότι στις μελλοντικές νέες μεθόδους jailbreak μπορούν να αναπτυχθούν που θα είναι αποτελεσματικές έναντι του συστήματος. Ως εκ τούτου, συνιστούμε να χρησιμοποιήσετε πρόσθετη προστασία. Παρ ‘όλα αυτά, το Σύνταγμα χρησιμοποιείται για να διδάξει τους ταξινομητές. «

Η εταιρεία δήλωσε ότι εργάζεται επίσης για τη μείωση των υπολογισμών των συνταγματικών ταξινομητών, οι οποίοι, όπως σημειώνει, είναι σήμερα υψηλός.

Previous Post

Το Boss Space Marines 2 λέει ότι μια εποχή 400 εκατομμυρίων δολαρίων AAA

Next Post

Η Bailey από την Τράπεζα της Αγγλίας λέει ότι το Ηνωμένο Βασίλειο δεν μπορεί να αποφύγει την έκθεση σε τιμολόγια των ΗΠΑ

Next Post
Η Bailey από την Τράπεζα της Αγγλίας λέει ότι το Ηνωμένο Βασίλειο δεν μπορεί να αποφύγει την έκθεση σε τιμολόγια των ΗΠΑ

Η Bailey από την Τράπεζα της Αγγλίας λέει ότι το Ηνωμένο Βασίλειο δεν μπορεί να αποφύγει την έκθεση σε τιμολόγια των ΗΠΑ

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

RECOMMENDED NEWS

Byd πωλήσεις Top Tesla καθώς η τεχνική εστίαση κερδίζει τους κινέζους οδηγούς

Byd πωλήσεις Top Tesla καθώς η τεχνική εστίαση κερδίζει τους κινέζους οδηγούς

2 months ago
Marvel Rivals Damage Heroes: Worst to Best

Marvel Rivals Damage Heroes: Worst to Best

5 months ago
Το 40% των παγκόσμιων αναγκών σε νερό θα παραμείνει ανεκπλήρωτο μέχρι το 2030 λόγω της παύσης της ανάπτυξης της τεχνολογίας αφαλάτωσης

Το 40% των παγκόσμιων αναγκών σε νερό θα παραμείνει ανεκπλήρωτο μέχρι το 2030 λόγω της παύσης της ανάπτυξης της τεχνολογίας αφαλάτωσης

10 months ago
Μπορείτε ακόμα να αγοράσετε αυτά τα μοντέλα iPhone 16 για ένα σεντ στο Amazon μετά την Cyber ​​​​Monday, αλλά ενεργήστε γρήγορα.

Μπορείτε ακόμα να αγοράσετε αυτά τα μοντέλα iPhone 16 για ένα σεντ στο Amazon μετά την Cyber ​​​​Monday, αλλά ενεργήστε γρήγορα.

6 months ago

BROWSE BY CATEGORIES

  • Business
  • Economy
  • Gadgets
  • Gaming
  • Health
  • Lifestyle
  • Sports
  • Technology
  • Travel
  • World

POPULAR NEWS

  • Το 40% των παγκόσμιων αναγκών σε νερό θα παραμείνει ανεκπλήρωτο μέχρι το 2030 λόγω της παύσης της ανάπτυξης της τεχνολογίας αφαλάτωσης

    Το 40% των παγκόσμιων αναγκών σε νερό θα παραμείνει ανεκπλήρωτο μέχρι το 2030 λόγω της παύσης της ανάπτυξης της τεχνολογίας αφαλάτωσης

    0 shares
    Share 0 Tweet 0
  • Το Astro Bot έχει ένα εκπληκτικό ανεξερεύνητο επίπεδο με τόνους μυστικών αυγών

    0 shares
    Share 0 Tweet 0
  • Μόλις γελοιοποιήθηκε για το ύψος του, ο «ζεστός» παρααθλητής αναγκάζει άλλους να κάθονται στις μύτες των ποδιών τους

    0 shares
    Share 0 Tweet 0
  • Μέσα στο μακροχρόνιο πρόβλημα χρηματοοικονομικής παιδείας της Αμερικής που οδηγεί σε τρισεκατομμύρια χρέη μαθητών: “Πρέπει να διδάξετε τους δασκάλους”

    0 shares
    Share 0 Tweet 0
  • Μια προσέγγιση με γνώμονα τα δεδομένα για την εταιρική διακυβέρνηση

    0 shares
    Share 0 Tweet 0

Our mission is to deliver accurate, timely, and comprehensive news coverage that keeps our readers informed and engaged. We strive to provide a balanced perspective on the latest events and issues shaping our world, offering insightful analysis and in-depth reporting on a wide range of topics.

Follow us on social media:

Recent News

  • Η εβδομαδιαία ανάγνωσή μου για την 1η Ιουνίου 2025
  • Η ελεύθερη αγορά δεν είναι εργαλείο για τους πολιτικούς
  • Ποιος μεταφέρει το βάρος των τιμολογίων;

Category

  • Business
  • Economy
  • Gadgets
  • Gaming
  • Health
  • Lifestyle
  • Sports
  • Technology
  • Travel
  • World

World News

Γεύματα εγκεκριμένα από διατροφολόγους κάτω των 5 $ ανά μερίδα

Γεύματα εγκεκριμένα από διατροφολόγους κάτω των 5 $ ανά μερίδα

August 1, 2024
Δεν θα λάβουν όλες οι συσκευές Echo

Δεν θα λάβουν όλες οι συσκευές Echo

February 26, 2025
  • About Us
  • Contact Us
  • Terms and Conditions
  • Privacy Policy
  • Disclaimer

© 2024 Viral Source . All Rights Reserved.

No Result
View All Result
  • Home
  • Business
  • Health
  • Gaming
  • Economy
  • Technology
  • Gadgets
  • Lifestyle
  • Sports
  • World

© 2024 Viral Source . All Rights Reserved.