4 βαθιές σκέψεις για τη βαθιά μάθηση το 2022

4 βαθιές σκέψεις για τη βαθιά μάθηση το 2022

November 29, 2022 0 Von admin

Ρίξτε μια ματιά στις συνεδρίες κατ‘ απαίτηση από τη Σύνοδο Κορυφής Low-Code/No-Code για να μάθετε πώς να καινοτομείτε με επιτυχία και να επιτύχετε αποτελεσματικότητα, αναβαθμίζοντας και κλιμακώνοντας τους πολίτες προγραμματιστές. Παρακολουθήσετε τώρα.


Αφήνουμε πίσω μας άλλη μια χρονιά συναρπαστικών εξελίξεων στη βαθιά μάθηση της τεχνητής νοημοσύνης (AI) – μια χρονιά γεμάτη με αξιοσημείωτη πρόοδο, διαμάχες και, φυσικά, διαφωνίες. Καθώς ολοκληρώνουμε το 2022 και προετοιμαζόμαστε να αγκαλιάσουμε αυτό που επιφυλάσσει το 2023, εδώ είναι μερικές από τις πιο αξιοσημείωτες γενικές τάσεις που σημάδεψαν φέτος τη βαθιά μάθηση.

1. Η κλίμακα εξακολουθεί να είναι ένας σημαντικός παράγοντας

Ένα θέμα που παρέμεινε σταθερό στη βαθιά μάθηση τα τελευταία χρόνια είναι η προσπάθεια δημιουργίας μεγαλύτερων νευρωνικών δικτύων. Η διαθεσιμότητα πόρων υπολογιστών καθιστά δυνατή την κλιμάκωση νευρωνικών δικτύων, καθώς και εξειδικευμένο υλικό τεχνητής νοημοσύνης, μεγάλα σύνολα δεδομένων και την ανάπτυξη αρχιτεκτονικών φιλικών προς την κλίμακα, όπως ο μετασχηματιστής μοντέλο.

Προς το παρόν, οι εταιρείες επιτυγχάνουν καλύτερα αποτελέσματα κλιμακώνοντας τα νευρωνικά δίκτυα σε μεγαλύτερα μεγέθη. Τον περασμένο χρόνο, η DeepMind ανακοίνωσε Γεωμύξ, ένα μοντέλο μεγάλης γλώσσας 280 δισεκατομμυρίων παραμέτρων (LLM). Η Google ανακοίνωσε το μοντέλο γλώσσας Pathways (Παλάμη), με 540 δισεκατομμύρια παραμέτρους, και Generalist Language Model (GLaM), με έως και 1,2 τρισεκατομμύρια παραμέτρους. και η Microsoft και η Nvidia κυκλοφόρησαν το Megatron-Turing NLGένα LLM 530 δισεκατομμυρίων παραμέτρων.

Μία από τις ενδιαφέρουσες πτυχές της κλίμακας είναι αναδυόμενες ικανότητες, όπου μεγαλύτερα μοντέλα πετυχαίνουν να ολοκληρώσουν εργασίες που ήταν αδύνατες με μικρότερες. Αυτό το φαινόμενο ήταν ιδιαίτερα ενδιαφέρον στα LLM, όπου τα μοντέλα παρουσιάζουν πολλά υποσχόμενα αποτελέσματα σε ένα ευρύτερο φάσμα εργασιών και σημείων αναφοράς καθώς μεγαλώνουν σε μέγεθος.

Εκδήλωση

Ευφυής Σύνοδος Ασφάλειας

Μάθετε τον κρίσιμο ρόλο του AI & ML στην ασφάλεια στον κυβερνοχώρο και τις ειδικές περιπτωσιολογικές μελέτες του κλάδου στις 8 Δεκεμβρίου. Εγγραφείτε για το δωρεάν πάσο σας σήμερα.

Κάνε εγγραφή τώρα

Αξίζει να σημειωθεί, ωστόσο, ότι ορισμένα από τα θεμελιώδη προβλήματα της βαθιάς μάθησης παραμένουν άλυτα, ακόμη και στα μεγαλύτερα μοντέλα (περισσότερα για αυτό σε λίγο).

2. Η μάθηση χωρίς επίβλεψη συνεχίζει να αποδίδει

Πολλές επιτυχημένες εφαρμογές βαθιάς μάθησης απαιτούν από τους ανθρώπους να επισημαίνουν παραδείγματα εκπαίδευσης, γνωστή και ως εποπτευόμενη μάθηση. Αλλά τα περισσότερα δεδομένα που είναι διαθέσιμα στο διαδίκτυο δεν συνοδεύονται από τις καθαρές ετικέτες που απαιτούνται για την εποπτευόμενη μάθηση. Και ο σχολιασμός δεδομένων είναι ακριβός και αργός, δημιουργώντας σημεία συμφόρησης. Αυτός είναι ο λόγος για τον οποίο οι ερευνητές αναζητούν εδώ και καιρό την πρόοδο στην μάθηση χωρίς επίβλεψη, όπου τα μοντέλα βαθιάς μάθησης εκπαιδεύονται χωρίς να χρειάζονται δεδομένα σχολιασμένα από τον άνθρωπο.

Έχει σημειωθεί τεράστια πρόοδος σε αυτόν τον τομέα, τα τελευταία χρόνια, ειδικά σε LLMs, τα οποία εκπαιδεύονται κυρίως σε μεγάλα σύνολα ακατέργαστων δεδομένων που συλλέγονται από όλο το διαδίκτυο. Ενώ τα LLM συνέχισαν να σημειώνουν πρόοδο το 2022, είδαμε επίσης άλλες τάσεις στις τεχνικές εκμάθησης χωρίς επίβλεψη να αποκτούν έλξη.

Για παράδειγμα, υπήρξαν εκπληκτικές πρόοδοι στα μοντέλα κειμένου σε εικόνα φέτος. Μοντέλα όπως το DALL-E 2 του OpenAI, το Google Εικόνακαι Stability AI Σταθερή Διάχυση έχουν δείξει τη δύναμη της μάθησης χωρίς επίβλεψη. Σε αντίθεση με τα παλαιότερα μοντέλα κειμένου σε εικόνα, τα οποία απαιτούσαν ζεύγη εικόνων και περιγραφών με καλά σχολιασμούς, αυτά τα μοντέλα χρησιμοποιούν μεγάλα σύνολα δεδομένων εικόνων με χαλαρούς υπότιτλους που υπάρχουν ήδη στο διαδίκτυο. Το τεράστιο μέγεθος των συνόλων δεδομένων εκπαίδευσης (το οποίο είναι δυνατό μόνο επειδή δεν χρειάζεται χειροκίνητη επισήμανση) και η μεταβλητότητα των σχημάτων υπότιτλων επιτρέπει σε αυτά τα μοντέλα να βρίσκουν κάθε είδους περίπλοκα μοτίβα μεταξύ κειμενικών και οπτικών πληροφοριών. Ως αποτέλεσμα, είναι πολύ πιο ευέλικτοι στη δημιουργία εικόνων για διάφορες περιγραφές.

3. Η πολυτροπικότητα κάνει μεγάλα βήματα

Οι γεννήτριες κειμένου σε εικόνα έχουν ένα άλλο ενδιαφέρον χαρακτηριστικό: συνδυάζουν πολλούς τύπους δεδομένων σε ένα μόνο μοντέλο. Η δυνατότητα επεξεργασίας πολλαπλών τρόπων επιτρέπει στα μοντέλα βαθιάς μάθησης να αναλαμβάνουν πολύ πιο περίπλοκες εργασίες.

Η πολυτροπικότητα είναι πολύ σημαντική για το είδος της νοημοσύνης που βρίσκεται σε ανθρώπους και ζώα. Για παράδειγμα, όταν βλέπετε ένα δέντρο και ακούτε το θρόισμα του ανέμου στα κλαδιά του, το μυαλό σας μπορεί γρήγορα να τα συνδέσει μεταξύ τους. Ομοίως, όταν βλέπετε τη λέξη «δέντρο», μπορείτε να δημιουργήσετε γρήγορα την εικόνα ενός δέντρου, να θυμηθείτε τη μυρωδιά του πεύκου μετά από μια βροχόπτωση ή να ανακαλέσετε άλλες εμπειρίες που είχατε στο παρελθόν.

Προφανώς, η πολυτροπικότητα έπαιξε σημαντικό ρόλο στο να γίνουν πιο ευέλικτα τα συστήματα βαθιάς μάθησης. Αυτό φάνηκε ίσως καλύτερα από το DeepMind’s Γκάτο, ένα μοντέλο βαθιάς μάθησης που εκπαιδεύεται σε μια ποικιλία τύπων δεδομένων, συμπεριλαμβανομένων εικόνων, κειμένου και δεδομένων ιδιοδεκτικότητας. Ο Gato έδειξε αξιοπρεπή απόδοση σε πολλαπλές εργασίες, συμπεριλαμβανομένων των λεζάντων εικόνων, των διαδραστικών διαλόγων, του ελέγχου ενός ρομποτικού βραχίονα και του παιχνιδιού. Αυτό έρχεται σε αντίθεση με τα κλασικά μοντέλα βαθιάς μάθησης, τα οποία έχουν σχεδιαστεί για να εκτελούν μία μόνο εργασία.

Μερικοί ερευνητές έχουν φτάσει στο σημείο να προτείνουν ότι ένα σύστημα όπως το Gato είναι το μόνο που χρειαζόμαστε για να επιτύχουμε την τεχνητή γενική νοημοσύνη (AGI). Ενώ πολλοί επιστήμονες διαφωνούν με αυτή την άποψη, αυτό που είναι σίγουρο είναι ότι η πολυτροπικότητα έχει φέρει σημαντικά επιτεύγματα για τη βαθιά μάθηση.

4. Τα θεμελιώδη προβλήματα βαθιάς μάθησης παραμένουν

Παρά τα εντυπωσιακά επιτεύγματα της βαθιάς μάθησης, ορισμένα από τα προβλήματα του κλάδου παραμένουν άλυτα. Ανάμεσά τους είναι αιτιότητασύνθεση, κοινή λογική, συλλογισμός, προγραμματισμός, διαισθητική φυσική και αφαίρεση και δημιουργία αναλογιών.

Αυτά είναι μερικά από τα μυστήρια της νοημοσύνης που εξακολουθούν να μελετώνται από επιστήμονες σε διαφορετικούς τομείς. Οι καθαρές προσεγγίσεις βαθιάς μάθησης που βασίζονται σε κλίμακα και δεδομένα έχουν βοηθήσει να σημειωθεί σταδιακή πρόοδος σε ορισμένα από αυτά τα προβλήματα, ενώ απέτυχαν να δώσουν μια οριστική λύση.

Για παράδειγμα, τα μεγαλύτερα LLM μπορούν να διατηρήσουν τη συνοχή και τη συνέπεια σε μεγαλύτερες εκτάσεις κειμένου. Αλλά αυτοί αποτυχία στα καθήκοντα που απαιτούν σχολαστικό συλλογισμό και προγραμματισμό βήμα προς βήμα.

Ομοίως, οι γεννήτριες κειμένου σε εικόνα δημιουργούν εκπληκτικά γραφικά, αλλά κάνουν βασικά λάθη όταν τους ζητείται να σχεδιάσουν εικόνες που απαιτούν σύνθεση ή έχουν πολύπλοκες περιγραφές.

Αυτές οι προκλήσεις συζητούνται και διερευνώνται από διάφορους επιστήμονες, συμπεριλαμβανομένων ορισμένων από τους πρωτοπόρους της βαθιάς μάθησης. Εξέχων ανάμεσά τους είναι ο Yann LeCun, ο βραβευμένος με Turing εφευρέτης των συνελικτικών νευρωνικών δικτύων (CNN), ο οποίος έγραψε πρόσφατα ένα μεγάλο δοκίμιο για τα όρια του LLM που μαθαίνουν μόνο από το κείμενο. Ο LeCun κάνει έρευνα για μια αρχιτεκτονική βαθιάς μάθησης που μαθαίνει παγκόσμια μοντέλα και μπορεί να αντιμετωπίσει μερικές από τις προκλήσεις από τις οποίες υποφέρει αυτή τη στιγμή το πεδίο.

Η βαθιά μάθηση έχει προχωρήσει πολύ. Αλλά όσο περισσότερη πρόοδο σημειώνουμε, τόσο περισσότερο συνειδητοποιούμε τις προκλήσεις της δημιουργίας πραγματικά ευφυών συστημάτων. Το επόμενο έτος θα είναι σίγουρα το ίδιο συναρπαστικό με αυτό.

Η αποστολή του VentureBeat πρόκειται να αποτελέσει μια ψηφιακή πλατεία της πόλης για τους τεχνικούς λήπτες αποφάσεων ώστε να αποκτήσουν γνώσεις σχετικά με τη μετασχηματιστική επιχειρηματική τεχνολογία και να πραγματοποιήσουν συναλλαγές. Ανακαλύψτε τις Ενημερώσεις μας.