Qwen: Αυτός είναι αντίπαλος του DeepSeek με την υπογραφή της Alibaba

Μετά τη μεγάλη απήχηση που είχε τέλη Ιανουαρίου το τελευταίο μοντέλο συλλογισμού R1 της DeepSeek στην παγκόσμια αγορά της τεχνητής νοημοσύνης (ΑΙ), η Alibaba παρουσίασε αυτήν την εβδομάδα αντίστοιχη εφαρμογή, επίσης, ανοικτού κώδικα. Και οι δυο κινεζικές εταιρείες ανεβάζουν τον πήχη στην παγκόσμια αρένα της τεχνητής νοημοσύνης (ΑΙ) και εντείνουν τον εγχώριο ανταγωνισμό στην δεύτερη ισχυρότερη οικονομία του κόσμου.

Το νέο μοντέλο συλλογισμού QwQ-32b (Quan-with-Questions) της Alibaba απαιτεί λιγότερους πόρους αλλά έχει ανάλογες επιδόσεις με το R1 της DeepSeek ή το ο1-mini της OpenAI, σύμφωνα με την εξειδικευμένη ιστοσελίδα Digital Trends. Το QwQ-32b ανήκει στην «οικογένεια» των μεγάλων γλωσσικών μοντέλων της Alibaba, η οποία πειραματίζεται με την ΑΙ επίσημα από πέρσι το καλοκαίρι.

Το R1 προκάλεσε μεγάλο προβληματισμό στη Σίλικον Βάλεϊ και κινητοποίησε ένα κύμα ρευστοποιήσεων από τους επενδυτές των αμερικανικών κολοσσών της ψηφιακής τεχνολογίας από την Meta Platforms μέχρι την Alphabet. Επειδή η DeepSeek ισχυρίστηκε πως ο σχεδιασμός του R1 κόστισε περίπου 6 εκατ. δολάρια, οι επενδυτές των ψηφιακών ομίλων στις ΗΠΑ άρχισαν να αμφισβητούν εάν θα είναι ωφέλιμη η δαπάνη εκατοντάδων δισ. δολαρίων σε εφαρμογές και υποδομές για την τεχνητή νοημοσύνη (ΑΙ). Στην Κίνα, παράλληλα, έχει εκδηλωθεί μεγάλο ενδιαφέρον στην υιοθέτηση των μεγάλων γλωσσικών μοντέλων (LLM) μετά τις επιτυχίες της DeepSeek από τουλάχιστον έξι κατασκευαστές αυτοκινήτων, νοσοκομεία, κρατικές επιχειρήσεις και παρόχους υπηρεσιών υπολογιστικού νέφους (cloud computing).

Το χαμηλό κόστος των μοντέλων της DeepSeek έχει συμβάλει στην ταχεία υιοθέτηση των μεγάλων γλωσσικών μοντέλων. Όπως τονίζουν ειδήμονες του κλάδου στους Financial Times, η DeepSeek αλλάζει το τοπίο στον κλάδο τεχνολογίας της Κίνας καθώς χαμήλωσε τα εμπόδια στην ανάπτυξη μοντέλων ΑΙ, στην εφαρμογή της στρατηγικής του ανοικτού κώδικα και στις μεθόδους εκπαίδευσης των μηχανημάτων σε χαμηλό κόστος.

Ο ανταγωνισμός, όμως, για την DeepSeek γίνεται εντονότερος μετά το QwQ-32b της Alibaba. Όπως εξηγεί η εταιρεία αναλύσεων VentureBeat, το R1 της DeepSeek απαιτεί 672 δισ. παραμέτρους για να είναι λειτουργικό, εκ των οποίων οι 37 δισ. είναι ενεργοποιημένοι. Το QwQ-32b της Alibaba μπορεί να είναι λειτουργικό με 32 δισ. παραμέτρους. Στα μοντέλα τεχνητής νοημοσύνης, οι παράμετροι είναι οι μεταβλητές που μαθαίνει το μοντέλο κατά τη διάρκεια της εκπαίδευσής του. Αποτελούν ουσιαστικά τους “ρυθμιστικούς διακόπτες” που καθορίζουν τη συμπεριφορά και τις προβλέψεις του μοντέλου. Οι παράμετροι καθορίζουν τον τρόπο με τον οποίο το μοντέλο επεξεργάζεται τα δεδομένα εισόδου και παράγει αποτελέσματα. Ενώ το DeepSeek χρειάζεται 1.600.

Βέβαια υπάρχουν περιορισμοί. Το QwQ-32b απαντά σαν τον R1 της DeepSeek πως δεν είναι κατάλληλο για ερωτήσεις με πολιτικό περιεχόμενο. Εντούτοις, ο επενδυτικός ενθουσιασμός για το QwQ-32b οδήγησε την Πέμπτη τη μετοχή της Alibaba σε άνοδο 8% στη συνεδρίαση του Χονγκ Κονγκ. Μια ημέρα πριν έγινε ανακοινώθηκε από την, επίσης, κινεζική Monica η πρώτη εκδοχή ενός μοντέλου γενικής ΑΙ που θα κυκλοφορήσει αργότερα και αποκαλείται Manus.

Όπως και στις ΗΠΑ, όπου έχουν ανακοινωθεί μεγαλόπνοα επενδυτικά σχέδια στην τεχνητή νοημοσύνη, στην Κίνα η Alibaba δεσμεύτηκε πως θα επενδύσει τουλάχιστον 52 δισ. δολάρια σε υποδομές και νέα μοντέλα εντός της επόμενης τριετίας. Προσφάτως, μάλιστα, Κινέζοι ηγέτες υποσχέθηκαν πως θα στηρίξουν τις βιομηχανίες του μέλλοντος. Ανάλογες προθέσεις έχει η κυβέρνηση του Ντόναλντ Τραμπ. Αρχές Φεβρουαρίου, ο Αμερικανός πρόεδρος ανήγγειλε μαζί με τους επικεφαλής της SoftBank, OpenAI και Intel το επενδυτικό σχέδιο «Stargate» για την τεχνητή νοημοσύνη, με την προοπτική άντλησης κεφαλαίων έως και 500 δισ. δολαρίων για την αποπεράτωση έργων στην ΑΙ.