
Η οικονομία της τεχνητής νοημοσύνης ήταν πρόσφατα ένα καυτό θέμα και η εκκίνηση Deepseek AI ισχυρίζεται ότι ανοίγει τα μάτια στην κλίμακα κατά την ανάπτυξη των τσιπ των γραφικών επεξεργαστών.
Δύο μπορούν να παίξουν αυτό το παιχνίδι. Την Τετάρτη, η Google ανακοίνωσε το τελευταίο μεγάλο μοντέλο της γλώσσας με το Gemma 3 Open Source, προσέγγισε την ακρίβεια της ακρίβειας του R1 Deepseek με μέρος της υποτιθέμενης υπολογιστικής ισχύος.
Χρησιμοποιώντας τους βαθμούς ELO, το γενικό σύστημα μέτρησης που χρησιμοποιείται για την κατάταξη του σκακιού και των αθλητών, η Google ισχυρίζεται ότι η Gemma 3 κυμαίνεται από το 98% της βαθμολογίας R1 Deepseek, 1338 έναντι του 1363 για το R1.
Επίσης: Πρώτος Gemini, τώρα Jamma: Νέα, ανοιχτά μοντέλα τεχνητής νοημοσύνης Google
Αυτό σημαίνει ότι το R1 υπερβαίνει το Gemma 3. Ωστόσο, με βάση τη βαθμολογία Google, ο γίγαντας αναζήτησης ισχυρίζεται ότι 32 από τις κύριες μάρκες της GPU NVIDIA απαιτούνται για την επίτευξη της βαθμολογίας R1, ενώ το GEMMA 3 χρησιμοποιεί μόνο έναν επεξεργαστή γραφικών H100.
Το υπόλοιπο της Google Compute και Elo Score είναι ένα “γλυκό μέρος”, ισχυρίζεται η εταιρεία.
Σε ένα μήνυμα στο blog, η Google εκδίδει ένα νέο λογαριασμό προγράμματος ως “το πιο ικανό μοντέλο που μπορείτε να ξεκινήσετε σε έναν γραφικό επεξεργαστή ή TPU”, αναφερόμενος στο τσιπ χρήστη AI, “Μονάδα επεξεργασίας tensor”.
“Το Gemma 3 παρέχει σύγχρονα αποτελέσματα για το μέγεθός της, μπροστά από τις LLAMA-405B, Deepseek-V3 και O3-Mini σε προκαταρκτικές εκτιμήσεις των ανθρώπινων προτιμήσεων για τους ηγέτες της Lmarena”, ανέφερε το blog, αναφέροντας το ELO βαθμολογίες.
“Αυτό θα σας βοηθήσει να δημιουργήσετε μια ελκυστική εμπειρία χρήστη που μπορεί να αντιστοιχεί σε μία GPU ή TPU -Chosta.”
Το μοντέλο Google οδηγεί επίσης το Meta Llama 3 ELO, το οποίο, σύμφωνα με εκτιμήσεις, θα απαιτήσει 16 γραφικούς επεξεργαστές. (Σημειώστε ότι ο αριθμός των τσιπ H100 που χρησιμοποιούνται στον διαγωνισμό είναι η αξιολόγηση της Google · Deepseek AI αποκάλυψε μόνο ένα παράδειγμα χρήσης του 1814 λιγότερο ισχυρού NVIDIA H800 γραφικών επεξεργαστών σε απαντήσεις διακομιστή από R1.)
Περισσότερες πληροφορίες παρέχονται σε ένα μήνυμα στο blog του προγραμματιστή σχετικά με το HugingFace, όπου προτείνεται το αποθετήριο Gemma 3.
Τα μοντέλα Gemma 3 που έχουν σχεδιαστεί για χρήση στη συσκευή και όχι στα κέντρα δεδομένων έχουν πολύ μικρότερες παραμέτρους ή νευρικά “βάρη” από τα R1 και άλλα μοντέλα ανοιχτού κώδικα. Σε γενικές γραμμές, όσο μεγαλύτερος είναι ο αριθμός των παραμέτρων, τόσο περισσότερη υπολογιστική ισχύς απαιτείται.
Επίσης: Τι είναι το Deepseek AI; Είναι ασφαλές; Αυτό είναι το μόνο που πρέπει να ξέρετε
Ο κώδικας Dzhemma προσφέρει τον αριθμό των παραμέτρων 1 δισεκατομμυρίων, 4 δισεκατομμυρίων, 12 δισεκατομμυρίων και 27 δισεκατομμυρίων, αρκετά λίγα σύμφωνα με τα σημερινά πρότυπα. Αντίθετα, το R1 έχει μια σειρά παραμέτρων 671 δισεκατομμυρίων, εκ των οποίων μπορεί να χρησιμοποιήσει επιλεκτικά 37 δισεκατομμύρια, αγνοώντας ή απενεργοποιώντας τμήματα του δικτύου.
Η κύρια αύξηση προκειμένου να καταστεί δυνατή η αποτελεσματικότητα είναι μια ευρέως χρησιμοποιούμενη μέθοδος του AI, που ονομάζεται απόσταξη, χάρη σε ποια εκπαιδευμένα βάρη μοντέλων από ένα μεγαλύτερο μοντέλο εξάγονται από αυτό το μοντέλο και εισάγονται σε μικρότερο μοντέλο, όπως το Gemma 3 για να δώσει βελτιωμένες δυνάμεις.
Ένα απεσταγμένο μοντέλο περνάει επίσης μέσω τριών διαφορετικών δεικτών ελέγχου ποιότητας, συμπεριλαμβανομένης της κατάρτισης στην ανθρώπινη ανατροφοδότηση (RLHF) για να σχηματίσει μια έξοδο GPT και άλλα μεγάλα γλωσσικά μοντέλα για να είναι αβλαβείς και χρήσιμες. Μαζί με την ενίσχυση της κατάρτισης από την ανατροφοδότηση του μηχανήματος (RLMF) και την ενίσχυση της κατάρτισης στην ανατροφοδότηση με την εκτέλεση (RLEF), η οποία, σύμφωνα με την Google, λέει ότι βελτιώνουν τις δυνατότητες των μαθηματικών και την κωδικοποίηση του μοντέλου αντίστοιχα.
Επίσης: το καλύτερο AI για κωδικοποίηση (και τι δεν πρέπει να χρησιμοποιήσετε – συμπεριλαμβανομένου του Deepseek R1)
Το μήνυμα Blog του προγραμματιστή Google περιγράφει λεπτομερώς αυτές τις προσεγγίσεις και ένα ξεχωριστό μήνυμα περιγράφει τις μεθόδους που χρησιμοποιούνται για τη βελτιστοποίηση της μικρότερης έκδοσης, του μοντέλου 1 δισεκατομμυρίου για κινητές συσκευές. Αυτές περιλαμβάνουν τέσσερις γενικές μεθόδους τεχνολογιών μηχανικής: ποσοτικοποίηση, ενημέρωση του Kesh “Key”, βελτιωμένο χρόνο φόρτωσης ορισμένων μεταβλητών και “κατανομή του βάρους γραφικού επεξεργαστή”.
Η εταιρεία συγκρίνει όχι μόνο τους βαθμούς ELO, αλλά και τη Gemma 3 με την προηγούμενη Gemma 2 και με μοντέλα Gemini με κλειστή πηγαίο κώδικα σε δοκιμές ελέγχου, όπως η εργασία προγραμματισμού LiveCodebench. Το Gemma 3 συνήθως πέφτει κάτω από την ακρίβεια του Gemini 1.5 και του Gemini 2.0, αλλά η Google καλεί αξιοσημείωτα αποτελέσματα, υποστηρίζοντας ότι η Gemma 3 “επιδεικνύει ανταγωνιστικές επιδόσεις σε σύγκριση με τα κλειστά μοντέλα Gemini”.
Τα μοντέλα των δίδυμων είναι πολύ μεγαλύτερα στον αριθμό των παραμέτρων από την Jamma.
Η κύρια πρόοδο του Gemma 3 Aper Gemma 2 είναι ένα μακρύτερο “παράθυρο περιβάλλοντος”, ο αριθμός των σημάτων εισόδου που μπορούν να διατηρηθούν στη μνήμη έτσι ώστε το μοντέλο να λειτουργεί ανά πάσα στιγμή.
Το Gemma 2 ήταν μόνο 8.000 μάρκες, ενώ το Gemma 3 είναι 128.000, το οποίο θεωρείται ένα “μακρύ” πλαίσιο που είναι καλύτερα κατάλληλο για την εργασία σε ολόκληρα έγγραφα ή βιβλία. (Οι Gemini και άλλα μοντέλα με κλειστό πηγαίο κώδικα εξακολουθούν να είναι πολύ πιο ικανά, με ένα παράθυρο πλαισίου 2 εκατομμυρίων μάρκες για το Gemini 2.0 Pro.)
Το Gemma 3 είναι επίσης πολυτροπικό, το οποίο δεν ήταν το Gemma 2.
Τέλος, η Gemma 3 υποστηρίζει περισσότερες από 140 γλώσσες και όχι μόνο την αγγλική υποστήριξη στο Gemma 2.
Επίσης: Τι σημαίνει ένα μακρύ παράθυρο περιβάλλοντος για το μοντέλο AI, όπως το Gemini;
Η ποικιλία άλλων ενδιαφερόντων λειτουργιών είναι θαμμένη σε μικρή γραμματοσειρά.
Για παράδειγμα, ένα καλά γνωστό πρόβλημα με όλα τα μεγάλα γλωσσικά μοντέλα είναι ότι μπορούν να θυμούνται τα μέρη των συνόλων δεδομένων κατάρτισης, τα οποία μπορούν να οδηγήσουν στην παροχή πληροφοριών και παραβιάσεων εμπιστευτικότητας εάν τα μοντέλα επιβάλλονται χρησιμοποιώντας κακόβουλο λογισμικό.
Οι ερευνητές της Google έλεγξαν τη διαρροή πληροφοριών επιλέγοντας δείγματα κατάρτισης και, βλέποντας πόσο μπορεί να απομακρυνθεί απευθείας από το Gemma 3 σε σύγκριση με τα άλλα μοντέλα της. “Διαπιστώνουμε ότι τα μοντέλα Gemma 3 θυμούνται ένα κείμενο μακράς μορφής με πολύ χαμηλότερη ταχύτητα από τα προηγούμενα μοντέλα”, σημειώνουν ότι θεωρητικά σημαίνει ότι το μοντέλο είναι λιγότερο ευάλωτο στη διαρροή πληροφοριών.
Όσοι επιθυμούν να αποκτήσουν περισσότερες τεχνικές λεπτομέρειες μπορούν να διαβάσουν το τεχνικό έγγραφο Gemma 3.