Ο Turing έχει ένα πρόβλημα - και το GPT -4.5 από το OpenAI εκτέθηκε μόνο

Το GPT-4.5 του OpenAI, λοιπόν, τι πρέπει να δοκιμαστεί; — Ο Elyse Betters picaro / zdnet

Οι περισσότεροι άνθρωποι γνωρίζουν ότι η διάσημη δοκιμή Turing, ένα πνευματικό πείραμα, που σχεδιάστηκε από τον πρωτοπόρο υπολογιστή Alan Turing, είναι ένα δημοφιλές μέτρο προόδου στην τεχνητή νοημοσύνη.

Ωστόσο, πολλοί λανθασμένα υποδηλώνουν ότι αυτό είναι απόδειξη ότι τα αυτοκίνητα πραγματικά σκέφτονται.

Η τελευταία μελέτη των δοκιμών Turing από επιστήμονες στο Πανεπιστήμιο της Καλιφόρνια στο Σαν Ντιέγκο δείχνει ότι το τελευταίο μεγάλο μοντέλο γλώσσας OpenAI, GPT-4.5 μπορεί να εξαπατήσει τους ανθρώπους, πιστεύοντας ότι το μοντέλο AI είναι ένα άτομο σε συνομιλίες κειμένου, ακόμη περισσότερο από ένα άτομο μπορεί να πείσει ένα άλλο άτομο ότι είναι άτομο.

Επίσης: Πώς να χρησιμοποιήσετε το chatgpt: Οδηγός για αρχάριους από το πιο δημοφιλές ai chatbot

Πρόκειται για μια σημαντική ανακάλυψη στην ικανότητα του Gen AI να κάνει ένα πειστικό αποτέλεσμα ως απάντηση σε μια υπόδειξη.

Uc-san-diego-2025-tuging-test-e-screens-2 — Πανεπιστήμιο της Καλιφόρνια στο San Dig

Agi proof;

Αλλά ακόμη και οι ερευνητές παραδέχονται ότι η φορολογία του τεστ Turing δεν σημαίνει απαραίτητα ότι έχει επιτευχθεί “τεχνητή κοινή νοημοσύνη” ή AGI – το επίπεδο επεξεργασίας υπολογιστών που ισοδυναμεί με την ανθρώπινη σκέψη.

Ο AIC Melani Mitchell, καθηγητής του Ινστιτούτου Santa -Fa -Fe στο Santa -Fe, έγραψε στην επιστήμη ενός επιστημονικού περιοδικού ότι η δοκιμή Turing είναι όχι λιγότερο από τη δοκιμασία της νοημοσύνης ως τέτοια, αλλά μάλλον μια δοκιμασία ανθρώπινων υποθέσεων. Παρά τις υψηλές βαθμολογίες στη δοκιμή, “η ικανότητα να τρέχει σε μια φυσική γλώσσα, για παράδειγμα, ένα παιχνίδι σκακιού, δεν είναι πειστική απόδειξη γενικής νοημοσύνης”, γράφει ο Mitchell.

Αυτός ο κρυμμένος ρυθμιστής Google Earth σας επιτρέπει να ταξιδεύετε εγκαίρως – έως και 80 χρόνια. Πώς να δοκιμάσετε

May 15, 2025

Γιατί προτείνω αυτό το ασύρματο κενό σύμφωνα με το Dyson μου – ειδικά σε αυτήν την τιμή πώλησης

May 15, 2025

Το τελευταίο πειστικό επίτευγμα περιγράφεται από τους Cameron Jones και Benjamin Bergen από το UC San Diego σε ένα άρθρο που δημοσιεύθηκε στο διακομιστή Pre-Print Arxiv αυτή την εβδομάδα που ονομάζεται “Big Language Models Taring Taring”.

Επίσης: Το OpenAI επεκτείνει την ανάπτυξη του GPT-4,5. Δείτε πώς να έχετε πρόσβαση (και τι μπορεί να κάνει για εσάς)

Το έγγραφο είναι το τελευταίο τεύχος στο πείραμα, το οποίο εργάστηκαν εδώ και χρόνια ο Jones και ο Bergen με τη συμμετοχή φοιτητών από το Πανεπιστήμιο της Καλιφόρνιας στο San Denthee από το τμήμα.

Σύμφωνα με τους συγγραφείς, υπήρχαν δεκαετίες εργασίας για το πρόβλημα. Μέχρι σήμερα, έχουν γίνει “περισσότερες από 800 ξεχωριστές καταγγελίες και αντεπίθεση” έχουν γίνει σχετικά με τους υπολογιστές που διέρχονται τη δοκιμή.

Πώς λειτουργεί η δοκιμή Turing

Η δοκιμή που σχεδιάστηκε κλασικά από τον Turing ως γύρο μετάδοσης μηνυμάτων κειμένου μεταξύ του ανθρώπινου δικαστή και δύο “μαρτύρων”, ενός ατόμου και ενός υπολογιστή.

Ο υπολογιστής και οι ανθρώπινοι μάρτυρες κατηγορήθηκαν για την καταδίκη του ανθρώπινου δικαστή για το γεγονός ότι ήταν ένας άνθρωπος αναφορών που όλοι έστειλαν. Ο δικαστής γνωρίζει ότι μόνο ένα από τα δύο είναι ένα άτομο, αλλά όχι αυτό που είναι και πρέπει να μαντέψει.

Αυτή η τριμερή μορφή είναι απαραίτητη. Αυτό σημαίνει ότι εάν ο δικαστής θεωρεί λανθασμένα έναν υπολογιστή, τότε ο δικαστής έχασε επίσης τις συμβουλές που έπρεπε να πάρουν από ένα άτομο για την ανθρωπότητα.

Επίσης: Με μοντέλα τεχνητής νοημοσύνης με κάθε πρότυπο, έχει έρθει η ώρα να αξιολογήσει ένα άτομο

Με άλλα λόγια, μιλάμε για το πώς οι άνθρωποι αντιλαμβάνονται και πιστεύουν, όπως στη λειτουργία του υπολογιστή.

Ο ενημερωμένος σχεδιασμός του Jones και του Bergen δημοσιεύεται στο διαδίκτυο και μπορείτε να παίξετε το παιχνίδι μόνοι σας σαν δικαστής ή μάρτυρας.

Όπως και σε προηγούμενες εκδόσεις, οι άνθρωποι στο Πανεπιστήμιο της Καλιφόρνια στο San Denthee κλήθηκαν να συμμετάσχουν στην αίτηση για συνομιλία κειμένου. Μερικοί από τους μαθητές έπαιξαν δικαστή και μερικοί ανθρώπινοι μάρτυρες σε τυχαιοποιημένη ανταλλαγή συνομιλιών πέντε λεπτών, ενώ η GPT-4.5 έπαιξε στο πιστοποιητικό υπολογιστή. Κάθε δικαστής είχε ταυτόχρονες συνομιλίες με ένα άτομο και έναν υπολογιστή, προκειμένου να αντιστοιχούν σε μια τριμερή μορφή διατύπωσης του Turing.

Για να αναπαραχθεί ένας μάρτυρας υπολογιστή, χρησιμοποιήθηκαν αρκετά μεγάλα γλωσσικά μοντέλα, εισάγοντας έναν δικαστή σε μια κλήση σε μια κλήση. Το GPT-4.5 δοκιμάστηκε με δύο διαφορετικές συμβουλές. Μία υπόδειξη έλαβε ελάχιστες πληροφορίες. Αλλά ο δεύτερος, που ονομάζεται Persona, έλαβε πολλές πρόσθετες λεπτομέρειες στην υπόδειξη, συμπεριλαμβανομένων “πρόσθετων οδηγιών σχετικά με το άτομο να δεχτεί ως απάντηση στον ερευνητή: ειδικότερα, ένας νεαρός που ένας εσωστρεφής γνωρίζει για την κουλτούρα του Διαδικτύου και χρησιμοποιεί αργαλειό”, γράφουν οι συγγραφείς.

Uc-san-diego-2025-tuging-prompts-ai — Πανεπιστήμιο της Καλιφόρνια στο San Dig

Αποτελέσματα

Τρία άλλα προγράμματα τεχνητής νοημοσύνης δοκιμάστηκαν: το προηγούμενο μοντέλο OpenAI, GPT-4O. Meta πλατφόρμες LLAMA 3.1 405b; Και ένα πολύ αρχαίο πρόγραμμα συνομιλίας της δεκαετίας του 1960 που ονομάζεται Eliza. Η Eliza ήταν ενεργοποιημένη επειδή, ως πιο πρωτόγονο πρόγραμμα, αυτό μπορεί να χρησιμεύσει ως έλεγχος αν τα μεγάλα γλωσσικά μοντέλα ενός ατόμου ξεγελιάθηκαν από μια τυχαία ευκαιρία ή επειδή ήταν τα καλύτερα προγράμματα.

Η GPT-4.5, αναφέρει ο Jones και ο Bergen, είχαν ένα “δείκτη νίκης” 73%, πράγμα που σημαίνει ότι εξαπάτησε τον ανθρώπινο δικαστή να του δηλώσει ένα πρόσωπο στο 73% των περιπτώσεων. Αντίθετα, η έκδοση GPT-4,5 με μινιμαλιστική υπόδειξη και άλλα τρία προγράμματα τεχνητής νοημοσύνης δεν είχαν επίσης οπουδήποτε, με λογαριασμούς από 21% έως 56%, ακόμη και όταν άλλα μοντέλα γλωσσών έλαβαν παρόμοιο πλούσιο άτομο.

Επίσης: Είναι το Chatgpt Plus ή Pro; Έτσι συγκρίνονται με μια δωρεάν έκδοση

Επιπλέον, το GPT-4,5 ήταν πολύ υψηλότερο από τη δοκιμή GPT-4 πέρυσι Jones και Bergen. Είχε έναν δείκτη να κερδίσει μόνο το 54%, ελαφρώς υψηλότερο από τυχαίες πιθανότητες.

Ο Jones και ο Bergen καταλήγουν στο συμπέρασμα ότι “οι ερωτηθέντες όχι μόνο δεν μπορούσαν να εντοπίσουν έναν πραγματικό ανθρώπινο μάρτυρα, αλλά στην πραγματικότητα ήταν πιο πιθανό να πιστεύουν ότι αυτό το μοντέλο ήταν ανθρώπινο από άλλους ανθρώπινους συμμετέχοντες”.

Είναι η δοκιμή στην πραγματικότητα ένα μέτρο νοημοσύνης;

Έτσι, μπορείτε να ρωτήσετε τι σημαίνει ότι οι άνθρωποι κάνουν κακή δουλειά, λέγοντας στον υπολογιστή και ένα άτομο που βασίζεται σε μηνύματα συνομιλίας.

Το “πιο αμφιλεγόμενο ερώτημα” για το πρόβλημα του Turing για δεκαετίες είναι, στην πραγματικότητα, αυτό μετράται από τη νοημοσύνη, ο Jones και ο Bergen αναγνωρίζονται.

Ένας τρόπος για να ρίξετε μια ματιά σε αυτό είναι ότι τα μηχανήματα έχουν γίνει τόσο καλά που μπορούν να “προσαρμόσουν τη συμπεριφορά τους σε διάφορα σενάρια που τα καθιστούν τόσο ευέλικτα: και, προφανώς, τόσο ικανή να περάσουν ως άτομο”, σημειώνουν. Η προσωπική υπόδειξη που δημιουργήθηκε από τους ανθρώπους είναι αυτό που το GPT-4.5 ήταν “προσαρμοσμένο” για να κερδίσει.

Και πάλι, αυτή είναι μια πραγματική τεχνική ανακάλυψη στις δυνατότητες του μοντέλου AI.

Επίσης: Το Chatgpt Plus είναι τώρα δωρεάν για τους μαθητές – πώς να λάβετε αυτή τη συμφωνία πριν από τους τελικούς

Παρ ‘όλα αυτά, μια μεγάλη καταγγελία με τη δοκιμή έγκειται στο γεγονός ότι οι άνθρωποι μπορούν απλά να είναι κακοί στην αναγνώριση της νοημοσύνης. Οι συγγραφείς καταλήγουν στο συμπέρασμα ότι το πείραμά τους αποτελεί απόδειξη αυτού, τουλάχιστον εν μέρει.

Σημειώνουν ότι το 23% των περιπτώσεων, το ανώτερο πρόγραμμα της ELISA ξεγελάσει τους ανθρώπινους δικαστές. Δεδομένου ότι σχετίζονται, δεν ήταν επειδή ήταν κάπως πιο έξυπνο. “Πολλοί συμμετέχοντες επέλεξαν την Eliza επειδή δεν αντιστοιχούσαν στις προσδοκίες τους για το σύστημα AI (για παράδειγμα, ήταν σαρκαστικοί” ή “δεν νομίζω ότι το II θα είναι τόσο αγενές.”), Γράφουν.

Αυτές οι εικασίες γράφουν: “υποδηλώνουν ότι οι αποφάσεις των ερευνητών περιλαμβάνουν σύνθετες υποθέσεις σχετικά με τον τρόπο με τον οποίο οι άνθρωποι και τα συστήματα τεχνητής νοημοσύνης μπορούν να συμπεριφέρονται σε αυτά τα πλαίσια, εκτός από την απλή επιλογή του πιο πνευματικού πράκτορα”.

Στην πραγματικότητα, οι ανθρώπινοι δικαστές δεν ζήτησαν πολλά για τη γνώση στα προβλήματά τους, αν και ο Turing πίστευε ότι αυτό θα ήταν το κύριο κριτήριο. «[O]Οι ακόλουθοι λόγοι που προβλέπουν περισσότερο ακριβείς ετυμηγορίες από τον «ανθρώπινο δικαστή,« γράφουν »ήταν ότι ο μάρτυρας ήταν ένας άνθρωπος επειδή δεν είχαν γνώση».

Κοινωνικότητα, όχι νοημοσύνη

Όλα αυτά σημαίνει ότι οι άνθρωποι έχουν αντιμετωπίσει πράγματα όπως η κοινωνικότητα και όχι η νοημοσύνη, ο Jones και ο Bergen να καταλήξουν στο συμπέρασμα ότι “η δοκιμή Turing δεν είναι άμεση δοκιμασία της νοημοσύνης, αλλά μια δοκιμασία της ανθρωπότητας”.

Για τον Turing, η νοημοσύνη μπορεί να φαινόταν το μεγαλύτερο εμπόδιο στην εμφάνιση ενός ατόμου και, ως εκ τούτου, για τη διέλευση του τεστ Turing. Όμως, καθώς τα αυτοκίνητα γίνονται πιο παρόμοια με εμάς, άλλες αντιθέσεις έπεσαν σε πιο σαφή ανακούφιση, σε τέτοιο βαθμό ώστε μόνο η νοημοσύνη δεν αρκεί να φαίνεται πειστικά ανθρώπινο.

Παραμένει ανύπαρκτο από τους συγγραφείς ότι οι άνθρωποι είναι τόσο συνηθισμένοι να εισέρχονται σε έναν ανθρώπινο υπολογιστή ή ένα αυτοκίνητο-ότι μια δοκιμή δεν είναι πλέον μια νέα δοκιμασία της αλληλεπίδρασης ενός ατόμου με έναν υπολογιστή. Αυτή είναι μια δοκιμασία των online ατόμων.

Μία από τις συνέπειες είναι ότι η δοκιμή πρέπει να επεκταθεί. Οι συγγραφείς γράφουν ότι “η διάνοια είναι πολύπλοκη και πολύπλευρη” και “δεν μπορεί να είναι καθοριστική δοκιμή πληροφοριών”.

Επίσης: Το Gemini Pro 2.5 είναι ένας εκπληκτικά ικανός βοηθός κωδικοποίησης – και μια μεγάλη απειλή για το chatgpt

Στην πραγματικότητα, υποδηλώνουν ότι η δοκιμή μπορεί να διαφέρει με διαφορετικά σχέδια. Εμπειρογνώμονες στην τεχνητή νοημοσύνη, σημειώνουν, μπορούν να ελεγχθούν ως ομάδα δικαστών. Μπορούν να κρίνουν διαφορετικά από τους λαϊκούς, επειδή έχουν διαφορετικές προσδοκίες του αυτοκινήτου.

Εάν προστέθηκαν το οικονομικό κίνητρο για την αύξηση των στοιχείων, οι ανθρώπινοι δικαστές μπορούν να μελετήσουν προσεκτικά και πιο προσεκτικά. Αυτά είναι σημάδια ότι η στάση και η προσδοκία παίζουν ρόλο.

“Στο βαθμό που η δοκιμή Turing εκτελείται από τη νοημοσύνη του δείκτη, θα πρέπει να θεωρείται μεταξύ άλλων στοιχείων αποδεικτικών στοιχείων”, καταλήγουν.

Αυτή η πρόταση, σύμφωνα με, αντιστοιχεί σε μια αυξανόμενη τάση στον τομέα της έρευνας AI προκειμένου να εμπλακούν οι άνθρωποι “στον κύκλο”, αξιολογώντας και αξιολογώντας τι κάνουν τα αυτοκίνητα.

Είναι αρκετή η ανθρώπινη κρίση;

Το ερώτημα έμεινε ανοιχτά για το αν η ανθρώπινη κρίση θα είναι τελικά αρκετή. Στην ταινία “Running Blade”, τα ρομπότ αντιγραφής στη μέση έγιναν τόσο καλοί που οι άνθρωποι βασίζονται στο αυτοκίνητο, “Voit-Camph” για να βρουν ποιος είναι ο άνθρωπος και ποιος είναι ο ρομπότ.

Καθώς η αναζήτηση συνεχίζει να φτάνει στο AGI και οι άνθρωποι καταλαβαίνουν πόσο δύσκολο είναι να πούμε τι είναι η AGI ή πώς το αναγνωρίζουν αν συναντήσουν αυτό, οι άνθρωποι μπορεί να χρειαστεί να βασίζονται σε αυτοκίνητα για να αξιολογήσουν τη νοημοσύνη των μηχανών.

Επίσης: 10 βασικοί λόγοι για τους οποίους το II έγινε το mainstream όλη τη νύχτα – και τι θα συμβεί στη συνέχεια

Ή, τουλάχιστον, μπορεί να χρειαστεί να ζητήσουν από τα αυτοκίνητα ποια αυτοκίνητα “σκέφτονται” για το πώς οι άνθρωποι γράφουν κίνητρα για να προσπαθήσουν να κάνουν το αυτοκίνητο ανόητο άλλοι άνθρωποι.

Αποκτήστε τις καλύτερες πρωινές ιστορίες στο γραμματοκιβώτιό σας κάθε μέρα με το δικό μας Tech Today Newspletter.

Ο Turing έχει ένα πρόβλημα – και το GPT -4.5 από το OpenAI εκτέθηκε μόνο

Related posts

Αυτός ο κρυμμένος ρυθμιστής Google Earth σας επιτρέπει να ταξιδεύετε εγκαίρως – έως και 80 χρόνια. Πώς να δοκιμάσετε

Γιατί προτείνω αυτό το ασύρματο κενό σύμφωνα με το Dyson μου – ειδικά σε αυτήν την τιμή πώλησης

Ο σκηνοθέτης Elden Ring δίνει λεπτομερείς πληροφορίες σχετικά με το Switch 2 The Duskbloods

Η πρώην εταιρεία του Υπουργού Ενέργειας πέφτει μετά την κλιμάκωση του τιμολογίου Trump

Η πρώην εταιρεία του Υπουργού Ενέργειας πέφτει μετά την κλιμάκωση του τιμολογίου Trump

Leave a Reply Cancel reply

RECOMMENDED NEWS

Ο Σάμιτ Ναγκάλ ελπίζει να κερδίσει τον πρώτο γύρο κόντρα στον Γκρίκσπουρ

Ο Mark Zuckerberg αποκαλύπτει την πρωινή ρουτίνα, η οποία είναι “καλύτερη από την καφεΐνη”

Το ζουμ πηγαίνει σε όλο τον κόσμο – τι γνωρίζουμε για την αποσύνδεση μέχρι στιγμής

Τα κινεζικά μοντέλα τεχνητής νοημοσύνης υστερούν από τα αμερικανικά κατά 6-9 μήνες, δήλωσε ο πρώην επικεφαλής της Google China

BROWSE BY CATEGORIES

POPULAR NEWS

Το 40% των παγκόσμιων αναγκών σε νερό θα παραμείνει ανεκπλήρωτο μέχρι το 2030 λόγω της παύσης της ανάπτυξης της τεχνολογίας αφαλάτωσης

Το Astro Bot έχει ένα εκπληκτικό ανεξερεύνητο επίπεδο με τόνους μυστικών αυγών

Μόλις γελοιοποιήθηκε για το ύψος του, ο «ζεστός» παρααθλητής αναγκάζει άλλους να κάθονται στις μύτες των ποδιών τους

Μέσα στο μακροχρόνιο πρόβλημα χρηματοοικονομικής παιδείας της Αμερικής που οδηγεί σε τρισεκατομμύρια χρέη μαθητών: “Πρέπει να διδάξετε τους δασκάλους”

Μια προσέγγιση με γνώμονα τα δεδομένα για την εταιρική διακυβέρνηση

Recent News

Category

World News

Οι πελάτες του Snowflake αποκομίζουν το πρώτο όφελος από τις εφαρμογές Gen AI

Δικηγόρος σχετικά με την πρόταση διακανονισμού της Deutsche Bank με την Postbank