
Το τελευταίο σε γενετική τεχνητή νοημοσύνη περιλαμβάνει τεχνητές πράκτορες νοημοσύνης που μπορούν να έχουν πρόσβαση στο Διαδίκτυο για να βρουν απαντήσεις σε ερωτήσεις. Παρά την πολλά υποσχόμενη, οι τεχνολογίες των πράκτορα εργάζονται στο στάδιο ανάπτυξης.
Σε ένα άρθρο που δημοσιεύθηκε την περασμένη εβδομάδα, οι ερευνητές της OpenAI συνεργάζονται ως τεχνολογία για βαθιά έρευνα της εταιρείας, η οποία δημιουργήθηκε στο Διαδίκτυο, είναι πολύ καλύτερη από άλλα μοντέλα OpenAI όταν ανταποκρίνονται σε ερωτήσεις στο διαδίκτυο. Το κάνει επίσης πολύ καλύτερα από τους ανθρώπους στα καθήκοντα που απαιτούν αναζήτηση για αναζήτηση.
Επίσης: Ποιοι είναι οι πράκτορες AI; Πώς να αποκτήσετε πρόσβαση σε μια ομάδα εξατομικευμένων βοηθών
Αλλά οι βαθιές μελέτες εξακολουθούν να σκοντάφτουν σχεδόν το ήμισυ του χρόνου.
Η νέα δοκιμή OpenAI δείχνει ότι οι βαθιές μελέτες μπορούν να είναι πιο ανθεκτικές και διωγμένες αναζητώντας μια απάντηση από ό, τι οι ανθρώπινοι ερευνητές για ορισμένα καθήκοντα, αλλά εξακολουθεί να μην μπορεί να καταλήξει σε απάντηση συχνά.
Το όνομα Browsecomp, η δοκιμή περιγράφεται από τους συντάκτες του Jason Vei και της ομάδας “ένα απλό αλλά δύσκολο πρότυπο για τη μέτρηση της ικανότητας των παραγόντων να δουν το Διαδίκτυο”.
Η προϋπόθεση είναι ότι οι πράκτορες AI – αυτό σημαίνει ότι τα μοντέλα του AIS που μπορούν να δουν “χιλιάδες ιστοσελίδες” μπορεί να είναι πολύ πιο επινοητικά από ό, τι οι άνθρωποι που έχουν περιορισμένη μνήμη είναι κουραστικά στο διαδίκτυο και “μπορούν να επισκεφθούν μόνο ένα πράγμα εκείνη την εποχή και δεν μπορούν να παραλληλιστούν”, σημαίνει ότι δεν μπορεί να κατευθύνει το μυαλό τους σε παράλληλες ροές σκέψης.
“Από την άλλη πλευρά, η μηχανή Intelligence έχει μια πολύ ευρύτερη αναθεώρηση και μπορεί να λειτουργήσει ακούραστα χωρίς να αποστασιοποιηθεί”, γράψτε Wei και Team.
Επίσης: Οι βαθιές μελέτες του OpenAI μπορούν να σας εξοικονομήσουν ώρες εργασίας – και τώρα είναι πολύ φθηνότερο
Η Vei και η ομάδα βασίζονται στην προηγούμενη δουλειά τους από πέρυσι, “SimpleQ & A”, το οποίο ελέγχει την ικανότητα του AI να απαντήσει σε “σύντομες ερωτήσεις που αναζητούν γεγονότα”. Οι ερωτήσεις καλύφθηκαν από τηλεοπτικές και ταινίες, επιστήμη, ιστορία, μουσική, βιντεοπαιχνίδια, πολιτική και άλλα θέματα.
Το Browsecomp από 1266 ερωτήσεις έχει σχεδιαστεί για να υπερβαίνει την απλή αναζήτηση πληροφοριών, την έκθεση των συγγραφέων. Αντ ‘αυτού, αυτά είναι ερωτήματα για τα οποία είναι δύσκολο να βρεθούν απαντήσεις, όπως το έθεσαν, “περίπλοκο επειδή απαιτούν την αναζήτηση σε ένα μεγάλο χώρο πιθανών απαντήσεων και τη σύγκρισή τους με τους περιορισμούς που τίθενται στην ερώτηση” και “είναι δύσκολο να εξαλειφθούν βαθιά σύγχυση στο Διαδίκτυο”.
Για παράδειγμα, ένα ζευγάρι ερωτήσεων-απαντήσεων έχει ως εξής:
Προσδιορίστε το όνομα της μελέτης που δημοσιεύθηκε μέχρι τον Ιούνιο του 2023, το οποίο αναφέρει τις πολιτιστικές παραδόσεις, τις επιστημονικές διαδικασίες και τις μαγειρικές καινοτομίες. Αυτός είναι ο συν-συγγραφέας τριών ατόμων: ένας από αυτούς ήταν βοηθός καθηγητής στη Δυτική Βεγγάλη και ο άλλος είναι η Aode of Philosophy.
(Απάντηση: Βασικές αρχές του ψωμιού μαγειρέματος: Επιστήμη για το ψωμί)
Τονίζουν ότι ένα τέτοιο ερώτημα είναι εύκολο να ελεγχθεί, επειδή η απάντηση περιέχεται σε μία φράση, η οποία είναι “αυτόνομη”.
Οι ερωτήσεις και οι απαντήσεις αναπτύχθηκαν από ανθρώπινους “προπονητές” και επιλέχθηκαν ως αδύνατο για επίλυση μόνο χρησιμοποιώντας το CATGPT OpenAI, με ή χωρίς προβολή. Οι ερωτήσεις ήταν επίσης αδύνατο για την “πρώιμη έκδοση” της βαθιάς έρευνας.
Δείχνοντας πώς οι αδύναμοι άνθρωποι αναζητούν το Διαδίκτυο, έλεγξαν για πρώτη φορά άτομα που ήταν “εξοικειωμένοι με το σύνολο δεδομένων” για να απαντήσουν σε ερωτήσεις.
Τα αποτελέσματα δεν ήταν καλά για τους ανθρώπους. Για το 70% των ερωτήσεων, οι άνθρωποι παραδόθηκαν μετά από δύο ώρες προσπάθειας. Απάντησαν μόνο περίπου το 30% των ερωτήσεων και κατά 14% των προτάσεων των απαντήσεων, οι προτάσεις των ανθρώπων Δεν το έκανα Συγκρίνετε την πραγματική απάντηση.
Η Vei και η ομάδα υποδηλώνουν ότι τα άτομα με υψηλότερες δεξιότητες αναζήτησης μπορούν να επιτύχουν μεγαλύτερη επιτυχία: “Είναι πιθανό ότι πολλά από τα προβλήματα που αρνήθηκαν θα επιλυθούν από έμπειρους επαγγελματίες (για παράδειγμα, ντετέκτιβ ή δημοσιογράφους -ερευνητικά) με αρκετό χρόνο”.
Μετά από τους ανθρώπους, έλεγξαν βαθιά έρευνα ενάντια στο GPT-4O OpenAI (με τη δυνατότητα να βλέπουν και χωρίς αυτό), GPT-4.5 και μοντέλα O1.
Τα αποτελέσματα ήταν τρομερά. “Οι GPT-4O και GPT-4.5 έφθασαν σχεδόν μηδενική ακρίβεια, υπογραμμίζοντας την πολυπλοκότητα του προτύπου”, γράφουν. “Χωρίς ειδική συλλογιστική ή χρήση εργαλείων, τα μοντέλα δεν μπορούν να εξαγάγουν τους τύπους ασαφείς, πολλαπλές πληροφορίες.
Το O1 έγινε καλύτερο αυτό “[suggests] ότι μερικές απαντήσεις στο Browecomp μπορούν να δοθούν μέσω του συμπεράσματος σχετικά με την εσωτερική γνώση. «
Επίσης: AI απελευθερώνει πιο προηγμένη απάτη. Αυτό πρέπει να δώσετε προσοχή (και πώς να παραμείνετε προστατευμένοι)
Με αξιολόγηση 51,5%, οι βαθιές μελέτες ήταν “πολύ καλύτερες” και “είναι ιδιαίτερα αποτελεσματικό να απαντήσουμε σε εξειδικευμένες, μη διαισθητικές ερωτήσεις που απαιτούν προβολή πολλών ιστότοπων”, γράφουν ο Wei και η ομάδα.
Παρ ‘όλα αυτά, διαπίστωσαν επίσης ότι το GPT-4O χρησιμοποιώντας την προβολή και τη βαθιά έρευνα μπορεί να είναι λάθος, να είναι “αυτοπεποίθηση” σχετικά με λανθασμένες απαντήσεις που ονομάζονται σφάλμα βαθμονόμησης.
“Τα μοντέλα με δυνατότητες προβολής, όπως το GPT-4O, με προβολή και βαθιά έρευνα, αποδεικνύουν ένα υψηλότερο σφάλμα βαθμονόμησης”, γράφουν, “το θέμα ότι η πρόσβαση στα εργαλεία ιστού μπορεί να αυξήσει την εμπιστοσύνη του μοντέλου σε άπιστους.
Για να διορθώσουν το σφάλμα βαθμονόμησης, διεξήγαγαν μια άλλη δοκιμή με βαθιά έρευνα, στην οποία το μοντέλο έπρεπε να φέρει μέχρι και 64 απαντήσεις σε κάθε ερώτηση. Τότε είχαν ένα μοντέλο επέλεξε το καλύτερο από αυτά. Όταν συνέβη αυτό, οι βαθιές μελέτες ήταν αρκετά καλές στην επιλογή της σωστής απάντησης μεταξύ όλων των προτάσεων.
Αυτό, γράψτε στον Vey και στην ομάδα, υποδηλώνει ότι το “μοντέλο συχνά” γνωρίζει “όταν είναι σωστό, ακόμα κι αν αγωνίζεται να εκφράσει αυτή την εμπιστοσύνη ως βαθμονομημένη πιθανότητα”.
Επίσης: Το τελευταίο τσιπ Google αφορά τη μείωση ενός τεράστιου κρυμμένου κόστους στην τεχνητή νοημοσύνη
Σημειώνουν επίσης ότι η επιτυχία των βαθιών μελετών βελτιώνεται με την προσθήκη περισσότερων υπολογισμών, προσθέτοντας σε αυτό κατά την αναζήτηση στο Διαδίκτυο. Χρήση, “Η παραγωγικότητα ομαλά ανάλογα με το ποσό του χρόνου δοκιμής που χρησιμοποιείται”. Πρόκειται για ένα τετράγωνο με αυξανόμενη τάση για να πετάξετε περισσότερες μάρκες του γραφικού επεξεργαστή στο έργο της παραγωγής.
Η Vei και η ομάδα δεν δίνουν άμεσα καμία υπόθεση για το γιατί οι βαθιές μελέτες αποτυγχάνουν σχεδόν το ήμισυ του χρόνου, αλλά η σιωπηρή απάντηση είναι να κλιμακώσει την ικανότητά της με μεγάλο αριθμό υπολογισμών. Όταν εκτελούν περισσότερα παράλληλα καθήκοντα και ζητούν από το μοντέλο να αξιολογήσουν διάφορες απαντήσεις, η ακρίβεια επηρεάζει το 75% της αντίδρασης.
Είναι κατανοητό ότι είναι σημαντικό να επιλέξετε στρατηγικές που αναγκάζουν το μοντέλο αξιολογώ Τις δικές του προσπάθειες, και όχι μόνο να επιδιώξουν μια απάντηση. Χωρίς αυτό το στάδιο, το μοντέλο αγωνίζεται πολύ χρόνο.
Επίσης: με μοντέλα τεχνητής νοημοσύνης
Οι συγγραφείς παραδέχονται ότι μια μεγάλη τρύπα στο Browsecomp είναι ότι περιορίζεται από ερωτήσεις που είναι εύκολο να κατανοήσουν τον υπολογιστή και των οποίων οι απαντήσεις είναι εύκολο να ελέγξουν. Καμία από τις 1266 ερωτήσεις δεν περιελάμβανε “μεγάλες απαντήσεις ή τη δυνατότητα επίλυσης ασάφειας στα ερωτήματα χρηστών”.
Ως αποτέλεσμα, το Browsecomp, λένε, ελέγξτε τις “κύριες” λειτουργίες των πράκτορων AI, αλλά δεν είναι ολοκληρωμένες. “Το μοντέλο θα πρέπει να είναι πολύ έμπειρο στην αναζήτηση για τα θραύσματα των πληροφοριών που δεν είναι εγγυημένο ότι αυτό γενικεύει όλα τα καθήκοντα που απαιτούν προβολή”.
Οι βαθιές μελέτες είναι διαθέσιμες στους χρήστες OpenAI Plus και Pro Ppociptions.
Θέλετε περισσότερες ιστορίες για το AI; Εγγραφείτε για καινοτομίαΗ εβδομαδιαία ψηφοφορία πληροφόρησης.