Πώς το MIT εκπαιδεύει μοντέλα γλώσσας τεχνητής νοημοσύνης σε μια εποχή έλλειψης ποιοτικών δεδομένων

Πώς το MIT εκπαιδεύει μοντέλα γλώσσας τεχνητής νοημοσύνης σε μια εποχή έλλειψης ποιοτικών δεδομένων

Dezember 6, 2022 0 Von admin

Ρίξτε μια ματιά στις συνεδρίες κατ‘ απαίτηση από τη Σύνοδο Κορυφής Low-Code/No-Code για να μάθετε πώς να καινοτομείτε με επιτυχία και να επιτύχετε αποτελεσματικότητα, αναβαθμίζοντας και κλιμακώνοντας τους πολίτες προγραμματιστές. Παρακολουθήσετε τώρα.


Η βελτίωση της ευρωστίας των μοντέλων μηχανικής μάθησης (ML) για εργασίες φυσικής γλώσσας έχει γίνει ένα σημαντικό θέμα τεχνητής νοημοσύνης (AI) τα τελευταία χρόνια. Τα μοντέλα μεγάλων γλωσσών (LLM) ήταν ανέκαθεν ένας από τους πιο δημοφιλείς τομείς στην έρευνα της τεχνητής νοημοσύνης, υποστηριζόμενες από την άνοδο της γενετικής τεχνητής νοημοσύνης και τις εταιρείες που αγωνίζονται να κυκλοφορήσουν αρχιτεκτονικές που μπορούν να δημιουργήσουν εντυπωσιακά αναγνώσιμο περιεχόμενο, ακόμη και κώδικα υπολογιστή.

Τα μοντέλα γλώσσας εκπαιδεύονται παραδοσιακά χρησιμοποιώντας διαδικτυακά κείμενα από πηγές όπως η Wikipedia, ειδήσεις, επιστημονικές εργασίες και μυθιστορήματα. Ωστόσο, τα τελευταία χρόνια, η τάση ήταν να εκπαιδεύονται αυτά τα μοντέλα σε αυξανόμενες ποσότητες δεδομένων προκειμένου να βελτιωθεί η ακρίβεια και η ευελιξία τους.

Όμως, σύμφωνα με μια ομάδα προγνωστικών τεχνητής νοημοσύνης, υπάρχει μια ανησυχία στον ορίζοντα: μπορεί να ξεμείνουμε από δεδομένα για να τους εκπαιδεύσουμε. Ερευνητές από την Εποχ τονίζουν σε μια μελέτη ότι τα δεδομένα υψηλής ποιότητας που χρησιμοποιούνται γενικά για την εκπαίδευση μοντέλων γλωσσών ενδέχεται να εξαντληθούν ήδη από το 2026. Καθώς οι προγραμματιστές δημιουργούν πιο εξελιγμένα μοντέλα με ανώτερες δυνατότητες, πρέπει να συγκεντρώσουν περισσότερα κείμενα για να τα εκπαιδεύσουν και οι ερευνητές LLM ανησυχούν τώρα ολοένα και περισσότερο μήπως εξαντληθούν ποιοτικά δεδομένα.

Kalyan Veeramachaneniκύριος ερευνητής στο εργαστήριο Information and Decision Systems του MIT και επικεφαλής του εργαστηρίου Data-to-AI ομάδα, μπορεί να έχει βρει τη λύση. Σε ένα χαρτί για Ξαναγράψτε και επαναφέρετε («R&R: Metric-Guided Adversarial Sentence Generation») που δημοσιεύτηκε πρόσφατα στα ευρήματα του AACL-IJCNLP 2022το προτεινόμενο πλαίσιο μπορεί να τροποποιήσει και να μετατρέψει δεδομένα χαμηλής ποιότητας (από πηγές όπως το Twitter και το 4Chan) σε δεδομένα υψηλής ποιότητας (όπως αυτά από πηγές με φίλτρα σύνταξης, όπως η Wikipedia και οι ιστότοποι του κλάδου), αυξάνοντας τον αριθμό των σωστών τύπος δεδομένων για δοκιμή και εκπαίδευση γλωσσικών μοντέλων.

Εκδήλωση

Ευφυής Σύνοδος Ασφάλειας

Μάθετε τον κρίσιμο ρόλο του AI & ML στην ασφάλεια στον κυβερνοχώρο και τις ειδικές περιπτωσιολογικές μελέτες του κλάδου στις 8 Δεκεμβρίου. Εγγραφείτε για το δωρεάν πάσο σας σήμερα.

Κάνε εγγραφή τώρα

Η έλλειψη δεδομένων είναι μεγάλη

Οι ερευνητές τεχνητής νοημοσύνης γλωσσών γενικά χωρίζουν τα δεδομένα που χρησιμοποιούν για την εκπαίδευση μοντέλων σε δεδομένα υψηλής ποιότητας και χαμηλής ποιότητας. Τα δεδομένα υψηλής ποιότητας γενικά ορίζονται ως προέρχονται από πηγές που «έχουν περάσει από φίλτρα χρησιμότητας ή ποιότητας», όπως σημειώνεται από τη μελέτη Epoch. Με άλλα λόγια, έχει αξιολογηθεί ως προς την ποιότητα της σύνταξης, είτε επαγγελματικά είτε μέσω αξιολόγησης από ομοτίμους (στην περίπτωση επιστημονικών εργασιών, δημοσιευμένων μυθιστορημάτων, Wikipedia κ.λπ.) ή θετικής δέσμευσης από πολλούς χρήστες (όπως για φιλτραρισμένο περιεχόμενο ιστού).

Τα δεδομένα από κατηγορίες χαμηλής ποιότητας περιλαμβάνουν μη φιλτραρισμένο κείμενο που δημιουργείται από χρήστες, όπως αναρτήσεις μέσων κοινωνικής δικτύωσης ή σχόλια σε ιστότοπους όπως το 4chan, και αυτές οι περιπτώσεις υπερβαίνουν κατά πολύ εκείνες που έχουν αξιολογηθεί με υψηλή ποιότητα.

Η εκπαίδευση LLM με ελαττωματικά, χαμηλής ποιότητας σύνολα δεδομένων μπορεί να οδηγήσει σε πολλά ζητήματα:

  • Παραδείγματα εσφαλμένης επισήμανσης στο σύνολο δεδομένων εισάγουν θόρυβο στην εκπαίδευση, ο οποίος μπορεί να προκαλέσει σύγχυση στο μοντέλο και να μειώσει την ποιότητα του μοντέλου.
  • Οι ψεύτικοι συσχετισμοί (π.χ. προτάσεις με συγκεκριμένες λέξεις που παίρνουν πάντα μια συγκεκριμένη ετικέτα) ενθαρρύνουν το μοντέλο να επιλέξει λανθασμένες συντομεύσεις και να το οδηγήσει σε λάθη σε πραγματικά σενάρια.
  • Η μεροληψία δεδομένων (π.χ. ένα σύνολο δεδομένων που περιέχει κείμενο μόνο από μια συγκεκριμένη ομάδα ατόμων) κάνει το μοντέλο να έχει κακή απόδοση σε συγκεκριμένες εισόδους. Σύνολα δεδομένων υψηλής ποιότητας μπορούν να μετριάσουν αυτά τα προβλήματα.

Δεδομένου ότι τα μοντέλα ML βασίζονται σε δεδομένα εκπαίδευσης για να μάθουν πώς να κάνουν προβλέψεις, η ποιότητα των δεδομένων επηρεάζει δραματικά την ποιότητα του μοντέλου. Ως αποτέλεσμα, οι ερευνητές συχνά εκπαιδεύουν μοντέλα μόνο με δεδομένα υψηλής ποιότητας, καθώς θέλουν τα μοντέλα τους να δημιουργούν εκ νέου ανώτερη γλωσσική ευχέρεια. Η εκπαίδευση LLM χρησιμοποιώντας δείγματα κειμένου υψηλής ποιότητας επιτρέπει στο μοντέλο να κατανοήσει τις περιπλοκές και την πολυπλοκότητα που είναι εγγενείς σε κάθε γλώσσα. Αυτή η μέθοδος έχει αποφέρει εξαιρετικά αποτελέσματα για πολύπλοκα γλωσσικά μοντέλα όπως το GPT-3.

Ο Veeramachaneni λέει ότι η επιδίωξη μιας πιο έξυπνης και πιο ευφυούς δημιουργίας κειμένου μπορεί επίσης να είναι χρήσιμη για την εκπαίδευση των LLM σχετικά με τον ανθρώπινο λόγο της πραγματικής ζωής.

«Το κείμενο από τη μέση ανάρτησή σας στα μέσα κοινωνικής δικτύωσης, το ιστολόγιό σας κ.λπ., ενδέχεται να μην επιτύχει αυτήν την υψηλή ποιότητα, γεγονός που μειώνει τη συνολική ποιότητα του προπονητικού σετ», είπε ο Veeramachaneni στο VentureBeat. «Σκεφτήκαμε, θα μπορούσαμε να χρησιμοποιήσουμε υπάρχοντα δεδομένα υψηλής ποιότητας για να εκπαιδεύσουμε LLM (που τώρα έχουμε ήδη πρόσβαση σε LLM που έχουν εκπαιδευτεί σε δεδομένα υψηλής ποιότητας) και να χρησιμοποιήσουμε αυτά τα LLM για να βελτιώσουμε την ποιότητα των άλλων δεδομένων;»

Το MIT αντιμετωπίζει τις τρέχουσες προκλήσεις στην ανάπτυξη LLM

Ο Veeramachaneni εξήγησε ότι η εκπαίδευση LLM απαιτεί τεράστιες ποσότητες δεδομένων εκπαίδευσης και υπολογιστικών πόρων, οι οποίοι είναι διαθέσιμοι μόνο σε τεχνολογικούς γίγαντες. Αυτό σημαίνει ότι οι περισσότεροι μεμονωμένοι ερευνητές πρέπει να εξαρτώνται από τα LLM που δημιουργούνται και κυκλοφορούν από τεχνολογικούς γίγαντες αντί να κάνουν δικά τους.

Είπε ότι παρά το γεγονός ότι τα LLM γίνονται μεγαλύτερα και απαιτούν περισσότερα δεδομένα εκπαίδευσης, το σημείο συμφόρησης εξακολουθεί να είναι η υπολογιστική ισχύς τις περισσότερες φορές.

«Σχολιασμένα δεδομένα υψηλής ποιότητας για εργασίες κατάντη [is] δύσκολο να αποκτηθεί. Ακόμα κι αν σχεδιάσουμε μια μέθοδο για τη δημιουργία προτάσεων υψηλότερης ποιότητας από προτάσεις χαμηλότερης ποιότητας, πώς θα ξέραμε ότι η μέθοδος έκανε τη δουλειά σωστά; Το να ζητάμε από τον άνθρωπο να σχολιάζουν δεδομένα είναι ακριβό και δεν μπορεί να κλιμακωθεί».

«Έτσι, το R&R παρέχει μια μέθοδο αξιόπιστης χρήσης των LLM για τη βελτίωση της ποιότητας των προτάσεων», είπε.

Η Veeramachaneni πιστεύει ότι, όσον αφορά την ποιότητα του μοντέλου, οι τρέχοντες LLMs πρέπει να βελτιώσουν την ικανότητά τους να δημιουργούν μεγάλα έγγραφα.

«Τα σημερινά μοντέλα μπορούν να απαντήσουν σε ερωτήσεις με λίγες προτάσεις, αλλά δεν μπορούν να γράψουν μια φανταστική ιστορία με ένα θέμα και μια λογική πλοκή. Η βελτίωση της αρχιτεκτονικής είναι απαραίτητη για τα LM να χειρίζονται μεγαλύτερο κείμενο», δήλωσε ο Veeramachaneni. «Υπάρχουν επίσης όλο και περισσότερες ανησυχίες σχετικά με τις πιθανές αρνητικές επιπτώσεις των LLM. Για παράδειγμα, οι LLM μπορεί να θυμούνται προσωπικές πληροφορίες από τα δεδομένα εκπαίδευσης και να τις διαρρέουν κατά τη δημιουργία κειμένου. Αυτό το ζήτημα είναι δύσκολο να εντοπιστεί, καθώς τα περισσότερα LLM είναι μαύρα κουτιά.“

Η Veeramachaneni και η ερευνητική ομάδα της ομάδας Data-to-AI του MIT στοχεύουν στην επίλυση τέτοιων ζητημάτων μέσω του πλαισίου Rewrite and Rollback.

Μια νέα μέθοδος δημιουργίας αντιπάλων από την ομάδα του MIT

Στην εργασία «R&R: Metric-Guided Adversarial Sentence Generation», η ερευνητική ομάδα προτείνει ένα ανταγωνιστικό πλαίσιο που μπορεί να δημιουργήσει δεδομένα κειμένου υψηλής ποιότητας βελτιστοποιώντας μια βαθμολογία κριτικής που συνδυάζει μετρήσεις ευχέρειας, ομοιότητας και εσφαλμένης ταξινόμησης. Το R&R δημιουργεί υψηλής ποιότητας παραδείγματα αντιπαράθεσης συλλέγοντας δεδομένα κειμένου από διαφορετικές πηγές και αναδιατυπώνοντάς τα, όπως τροποποιώντας μια πρόταση με διάφορους τρόπους για να αναπτύξετε ένα σύνολο εναλλακτικών προτάσεων.

«Δεδομένων 30.000 λέξεων στο λεξιλόγιό του, μπορεί να παράγει έναν αυθαίρετο αριθμό προτάσεων. Έπειτα, τις κατατάσσει στις προτάσεις της υψηλότερης ποιότητας όσον αφορά τη γραμματική ποιότητα, την ευχέρεια και τη σημασιολογική ομοιότητα με την αρχική πρόταση», είπε ο Veeramachaneni στο VentureBeat.

Το πλαίσιο R&R, Πηγή εικόνας: MIT.

Για να γίνει αυτό, χρησιμοποιεί ένα LLM εκπαιδευμένο σε προτάσεις υψηλής ποιότητας για να αφαιρέσει προτάσεις που πρέπει να είναι γραμματικά σωστές ή άπταιστα. Πρώτον, επιχειρεί να ξαναγράψει ολόκληρη την πρόταση, χωρίς περιορισμό στο πόσες λέξεις αλλάζουν. στη συνέχεια προσπαθεί να επαναφέρει κάποιες επεξεργασίες για να επιτύχει ένα ελάχιστο σύνολο τροποποιήσεων.

«Επειδή οι ταξινομητές κειμένου γενικά πρέπει να εκπαιδεύονται σε δεδομένα που φέρουν ανθρώπινη ετικέτα, συχνά εκπαιδεύονται με μικρά σύνολα δεδομένων, που σημαίνει ότι μπορούν εύκολα να εξαπατηθούν και να ταξινομήσουν εσφαλμένες προτάσεις. Χρησιμοποιήσαμε το R&R για να δημιουργήσουμε πολλές από αυτές τις προτάσεις που θα μπορούσαν να ξεγελάσουν έναν ταξινομητή κειμένου και επομένως θα μπορούσαν να χρησιμοποιηθούν για να τον εκπαιδεύσουμε και να τον βελτιώσουμε», εξήγησε ο Veeramachaneni.

Είναι επίσης δυνατό να χρησιμοποιήσετε R&R για να μετατρέψετε μια πρόταση χαμηλής ποιότητας ή κακώς γραμμένη σε μια πρόταση καλύτερης ποιότητας. Μια τέτοια μέθοδος μπορεί να έχει πολλές εφαρμογές, από τη βοήθεια επεξεργασίας για ανθρώπινη γραφή έως τη δημιουργία περισσότερων δεδομένων για LLM.

Πηγή εικόνας: MIT.

Η δυνατότητα στοχαστικής επανεγγραφής επιτρέπει στο εργαλείο να εξερευνήσει έναν μεγαλύτερο χώρο κειμένου και η δυνατότητα επαναφοράς του επιτρέπει να κάνει ουσιαστικές αλλαγές με ελάχιστες επεξεργασίες. Αυτή η δυνατότητα είναι ισχυρή επειδή εξερευνά πολλές επιλογές και μπορεί να βρει πολλά διαφορετικά παραδείγματα αντιπάλου για την ίδια πρόταση. Ως αποτέλεσμα, η R&R μπορεί να δημιουργήσει ρέουσες προτάσεις που είναι σημασιολογικά παρόμοιες με μια πρόταση-στόχο χωρίς ανθρώπινη παρέμβαση.

„Η κύρια περίπτωση χρήσης του R&R είναι η διεξαγωγή επιθέσεων αντιπάλου σε ταξινομητές κειμένου“, δήλωσε ο Veeramachaneni. «Δεδομένης μιας πρότασης, μπορεί να βρει παρόμοιες προτάσεις όπου ο ταξινομητής έκανε λάθος ταξινόμηση. Οι προτάσεις που δημιουργούνται από R&R μπορούν να βοηθήσουν στην επέκταση αυτών των συνόλων εκπαίδευσης, βελτιώνοντας έτσι την ποιότητα των ταξινομητών κειμένου, γεγονός που μπορεί επίσης να αυξήσει τις πιθανές εφαρμογές τους.

Μιλώντας για τις προκλήσεις που αντιμετωπίστηκαν κατά την ανάπτυξη του μοντέλου R&R, ο Veeramachaneni είπε στο VentureBeat ότι οι παραδοσιακές μέθοδοι για την εύρεση εναλλακτικών προτάσεων μένουν στην αλλαγή μιας λέξης τη φορά. Κατά το σχεδιασμό του βήματος επανεγγραφής, η ομάδα ανέπτυξε αρχικά την τεχνική για να κρύψει μόνο μία λέξη — δηλαδή να αλλάξει μία λέξη τη φορά. Κάνοντας αυτό, διαπίστωσαν ότι αυτό οδήγησε σε αλλαγή νοήματος από αυτό της αρχικής πρότασης.

«Ένα τέτοιο σχέδιο οδήγησε στο να κολλήσει το μοντέλο επειδή δεν υπάρχουν πολλές επιλογές για μία μόνο μασκοφόρο θέση», είπε. «Το ξεπερνάμε αυτό καλύπτοντας πολλές λέξεις σε κάθε βήμα. Αυτή η νέα σχεδίαση επέτρεψε επίσης στο μοντέλο να αλλάξει το μήκος του κειμένου. Ως εκ τούτου, εισαγάγαμε το βήμα επαναφοράς, το οποίο εξαλείφει τις περιττές διαταραχές/αλλαγές.»

Η ερευνητική ομάδα λέει ότι η Ε&R μπορεί επίσης να βοηθήσει τους ανθρώπους να αλλάξουν τη γραφή τους επιδιώκοντας έναν συγκεκριμένο στόχο: για παράδειγμα, μπορεί να χρησιμοποιηθεί για να κάνει μια πρόταση πιο πειστική, πιο συνοπτική κ.λπ. Τόσο η αυτόματη όσο και η ανθρώπινη αξιολόγηση του πλαισίου Ε&R έδειξε ότι η προτεινόμενη μέθοδος πετυχαίνει να βελτιστοποιήσει τις αυτόματες μετρήσεις ομοιότητας και ευχέρειας για να δημιουργήσει αντίθετα παραδείγματα υψηλότερης ποιότητας από τις προηγούμενες μεθόδους.

Το μέλλον των LLM και της γενετικής τεχνητής νοημοσύνης

Η Veeramachaneni πιστεύει ότι τα LLMs θα ωθήσουν τα όρια του ανθρώπινου λόγου στο εγγύς μέλλον και ελπίζει να δει περισσότερες εφαρμογές του LLM το 2023.

«Οι LLM θα μπορούν γρήγορα και εύκολα να συνοψίζουν και να παρέχουν τις υπάρχουσες πληροφορίες. Ως αποτέλεσμα, αυτά που γράφουμε και οι αλληλεπιδράσεις μας μεταξύ μας θα πρέπει να είναι πιο ουσιαστικά και διορατικά. Είναι πρόοδος», είπε.

Ο Veeramachaneni εξήγησε περαιτέρω ότι τα LLM προς το παρόν χρησιμοποιούνται μόνο για τη σύνοψη κειμένου ή την απάντηση ερωτήσεων, αλλά υπάρχουν πολλές περισσότερες πιθανές εφαρμογές.

«Καθώς οι δυνατότητες αυτών των εργαλείων αξιοποιούνται συνεχώς, αναμένουμε μια έκρηξη χρήσης. Η πρόσφατη κυκλοφορία του ChatGPT από την OpenAI έχει δείξει καλή ικανότητα δημιουργίας κειμένου. Μπορούμε να περιμένουμε από τους τεχνολογικούς γίγαντες να ανταγωνιστούν σε μεγαλύτερα μοντέλα και να κυκλοφορήσουν μεγαλύτερα μοντέλα με καλύτερες επιδόσεις», δήλωσε ο Veeramachaneni.

«Ταυτόχρονα, αναμένουμε σοβαρές αξιολογήσεις των περιορισμών και των τρωτών σημείων των LLMs. Είναι σαφές ότι τα LLM μπορούν να παράγουν ουσιαστικές, ευανάγνωστες προτάσεις. Τώρα, αναμένουμε από τους ανθρώπους να αρχίσουν να εστιάζουν στην αξιολόγηση των πραγματικών πληροφοριών που περιέχονται στο κείμενο που δημιουργείται».

Η αποστολή του VentureBeat πρόκειται να αποτελέσει μια ψηφιακή πλατεία της πόλης για τους τεχνικούς λήπτες αποφάσεων ώστε να αποκτήσουν γνώσεις σχετικά με τη μετασχηματιστική επιχειρηματική τεχνολογία και να πραγματοποιήσουν συναλλαγές. Ανακαλύψτε τις Ενημερώσεις μας.