Η Meta AI ανακοινώνει το πρώτο σύστημα μετάφρασης ομιλίας με τεχνητή νοημοσύνη για μια άγραφη γλώσσα

Η Meta AI ανακοινώνει το πρώτο σύστημα μετάφρασης ομιλίας με τεχνητή νοημοσύνη για μια άγραφη γλώσσα

November 29, 2022 0 Von admin

Ρίξτε μια ματιά στις συνεδρίες κατ‘ απαίτηση από τη Σύνοδο Κορυφής Low-Code/No-Code για να μάθετε πώς να καινοτομείτε με επιτυχία και να επιτύχετε αποτελεσματικότητα, αναβαθμίζοντας και κλιμακώνοντας τους πολίτες προγραμματιστές. Παρακολουθήσετε τώρα.


Η τεχνητή μετάφραση ομιλίας είναι μια ταχέως αναδυόμενη τεχνολογία τεχνητής νοημοσύνης (AI). Αυτή η τεχνολογία μετάφρασης ομιλίας σε ομιλία (S2ST) που δημιουργήθηκε αρχικά για να βοηθήσει την επικοινωνία μεταξύ ανθρώπων που μιλούν διαφορετικές γλώσσες, έχει βρει το δρόμο της σε πολλούς τομείς. Για παράδειγμα, οι παγκόσμιοι όμιλοι τεχνολογίας χρησιμοποιούν τώρα το S2ST για απευθείας μετάφραση κοινόχρηστων εγγράφων και ηχητικών συνομιλιών στο μετασύμπαντο.

Στο Cloud Next ’22 Την περασμένη εβδομάδα, η Google ανακοίνωσε το δικό της μοντέλο μετάφρασης τεχνητής νοημοσύνης ομιλίας σε ομιλία, το „Translation Hub“, χρησιμοποιώντας API μετάφρασης cloud και μετάφραση AutoML. Τώρα, ο Μέτα δεν είναι πολύ πίσω.

Η Meta AI ανακοίνωσε σήμερα την έναρξη του έργου καθολικού μεταφραστή ομιλίας (UST), το οποίο στοχεύει στη δημιουργία συστημάτων τεχνητής νοημοσύνης που επιτρέπουν τη μετάφραση ομιλίας σε ομιλία σε πραγματικό χρόνο σε όλες τις γλώσσες, ακόμη και σε εκείνες που ομιλούνται αλλά δεν γράφονται συνήθως.

«Η Meta AI δημιούργησε τον πρώτο μεταφραστή ομιλίας που λειτουργεί για γλώσσες που κυρίως ομιλούνται παρά γραπτές. Το χρησιμοποιούμε ανοιχτού κώδικα, ώστε οι άνθρωποι να μπορούν να το χρησιμοποιούν για περισσότερες γλώσσες», δήλωσε ο Mark Zuckerberg, συνιδρυτής και διευθύνων σύμβουλος της Meta.

Εκδήλωση

Ευφυής Σύνοδος Ασφάλειας

Μάθετε τον κρίσιμο ρόλο του AI & ML στην ασφάλεια στον κυβερνοχώρο και τις ειδικές περιπτωσιολογικές μελέτες του κλάδου στις 8 Δεκεμβρίου. Εγγραφείτε για το δωρεάν πάσο σας σήμερα.

Κάνε εγγραφή τώρα

Σύμφωνα με το Meta, το μοντέλο είναι το πρώτο σύστημα μετάφρασης ομιλίας με τεχνητή νοημοσύνη για την άγραφη γλώσσα Hokkien, μια κινεζική γλώσσα που ομιλείται στη νοτιοανατολική Κίνα και την Ταϊβάν και από πολλούς στην κινεζική διασπορά σε όλο τον κόσμο. Το σύστημα επιτρέπει στους ομιλητές του Hokkien να πραγματοποιούν συνομιλίες με αγγλόφωνους, ένα σημαντικό βήμα προς την κατάρριψη του παγκόσμιου γλωσσικού φραγμού και τη συγκέντρωση των ανθρώπων όπου κι αν βρίσκονται — ακόμη και στο μετασύμπαν.

Αυτό είναι ένα δύσκολο έργο, καθώς, σε αντίθεση με τα Μανδαρινικά, τα Αγγλικά και τα Ισπανικά, τα οποία είναι γραπτά και προφορικά, το Hokkien είναι κυρίως προφορικό.

Πώς η τεχνητή νοημοσύνη μπορεί να αντιμετωπίσει τη μετάφραση ομιλίας σε ομιλία

Η Meta λέει ότι τα σημερινά μοντέλα μετάφρασης AI επικεντρώνονται σε ευρέως ομιλούμενες γραπτές γλώσσες και ότι περισσότερο από το 40% των κυρίως προφορικών γλωσσών δεν καλύπτονται από τέτοιες μεταφραστικές τεχνολογίες. Το έργο UST βασίζεται στην πρόοδο που μοιράστηκε ο Zuckerberg κατά τη διάρκεια της εκδήλωσης AI Inside the Lab της εταιρείας που πραγματοποιήθηκε τον Φεβρουάριο, σχετικά με την καθολική μετάφραση ομιλίας σε ομιλία του Meta AI έρευνα για γλώσσες που είναι ασυνήθιστες στο διαδίκτυο. Αυτή η εκδήλωση επικεντρώθηκε στη χρήση τέτοιων καθηλωτικών τεχνολογιών τεχνητής νοημοσύνης για την κατασκευή του μετασύμπαντος.

Για την κατασκευή του UST, το Meta AI επικεντρώθηκε στην υπέρβαση τριών κρίσιμων προκλήσεων του συστήματος μετάφρασης. Αντιμετώπισε την έλλειψη δεδομένων αποκτώντας περισσότερα εκπαιδευτικά δεδομένα σε περισσότερες γλώσσες και βρίσκοντας νέους τρόπους αξιοποίησης των ήδη διαθέσιμων δεδομένων. Αντιμετώπισε τις προκλήσεις μοντελοποίησης που προκύπτουν καθώς τα μοντέλα αναπτύσσονται για να εξυπηρετούν πολλές περισσότερες γλώσσες. Και αναζήτησε νέους τρόπους αξιολόγησης και βελτίωσης των αποτελεσμάτων της.

Η ερευνητική ομάδα της Meta AI εργάστηκε στο Hokkien ως μελέτη περίπτωσης για μια λύση από άκρο σε άκρο, από τη συλλογή δεδομένων εκπαίδευσης και τις επιλογές μοντελοποίησης έως τη συγκριτική αξιολόγηση συνόλων δεδομένων. Η ομάδα επικεντρώθηκε στη δημιουργία δεδομένων σχολιασμένων από τον άνθρωπο, στην αυτόματη εξόρυξη δεδομένων από μεγάλα σύνολα δεδομένων ομιλίας χωρίς ετικέτα και στην υιοθέτηση ψευδο-ετικέτας για την παραγωγή ασθενώς εποπτευόμενων δεδομένων.

«Η ομάδα μας μετέφρασε αρχικά την ομιλία Αγγλικά ή Χόκιεν σε κείμενο Μανδαρινικά και στη συνέχεια τη μετέφρασε σε Χόκιεν ή Αγγλικά», δήλωσε ο Χουάν Πίνο, ερευνητής στο Meta. «Στη συνέχεια πρόσθεσαν τις ζευγαρωμένες προτάσεις στα δεδομένα που χρησιμοποιήθηκαν για την εκπαίδευση του μοντέλου AI».

Για τη μοντελοποίηση, η Meta AI εφάρμοσε πρόσφατες εξελίξεις στη χρήση αυτοεποπτευόμενων διακριτών αναπαραστάσεων ως στόχων πρόβλεψης στη μετάφραση ομιλίας σε ομιλία και έδειξε την αποτελεσματικότητα της μόχλευσης πρόσθετης επίβλεψης κειμένου από τα Mandarin, μια γλώσσα παρόμοια με την Hokkien, στην εκπαίδευση μοντέλων. Η Meta AI λέει ότι θα κυκλοφορήσει επίσης ένα σημείο αναφοράς μετάφρασης ομιλίας σε ομιλία που θα διευκολύνει τη μελλοντική έρευνα σε αυτόν τον τομέα.

William Falcon, ερευνητής AI και Διευθύνων Σύμβουλος/συνιδρυτής του Lightning AIείπε ότι η τεχνητή μετάφραση ομιλίας θα μπορούσε να παίξει σημαντικό ρόλο στο μετασύμπαν καθώς βοηθά στην τόνωση των αλληλεπιδράσεων και της δημιουργίας περιεχομένου.

«Για τις αλληλεπιδράσεις, θα επιτρέψει στους ανθρώπους από όλο τον κόσμο να επικοινωνούν μεταξύ τους πιο ρευστά, κάνοντας το κοινωνικό γράφημα πιο διασυνδεδεμένο. Επιπλέον, η χρήση τεχνητής μετάφρασης ομιλίας για περιεχόμενο σάς επιτρέπει να προσαρμόζετε εύκολα περιεχόμενο για κατανάλωση σε πολλές γλώσσες», είπε ο Falcon στο VentureBeat.

Η Falcon πιστεύει ότι μια συρροή παραγόντων, όπως η πανδημία που αύξησε μαζικά τον όγκο της εξ αποστάσεως εργασίας, καθώς και η εξάρτηση από εργαλεία εξ αποστάσεως εργασίας, έχουν οδηγήσει σε ανάπτυξη σε αυτόν τον τομέα. Αυτά τα εργαλεία μπορούν να επωφεληθούν σημαντικά από τις δυνατότητες μετάφρασης ομιλίας.

«Σύντομα, μπορούμε να ανυπομονούμε να φιλοξενήσουμε podcast, Reddit AMA ή εμπειρίες που μοιάζουν με Clubhouse στο metaverse. Η δυνατότητα πολλαπλής μετάδοσης σε πολλές γλώσσες διευρύνει το δυνητικό κοινό σε τεράστια κλίμακα», είπε.

Το μοντέλο χρησιμοποιεί S2UT για να μετατρέψει την ομιλία εισόδου σε μια ακολουθία ακουστικών μονάδων απευθείας στο μονοπάτι, μια υλοποίηση που είχε πρωτοπορήσει στο παρελθόν η Meta. Η παραγόμενη έξοδος αποτελείται από κυματομορφές από τις μονάδες εισόδου. Επιπλέον, η Meta AI υιοθέτησε το UnitY για έναν μηχανισμό αποκωδικοποίησης δύο περασμάτων όπου ο αποκωδικοποιητής πρώτου διελεύματος δημιουργεί κείμενο σε μια σχετική γλώσσα (μανταρίνια) και ο αποκωδικοποιητής δεύτερου περασμάτων δημιουργεί μονάδες.

Για να ενεργοποιήσει την αυτόματη αξιολόγηση για το Hokkien, η Meta AI ανέπτυξε ένα σύστημα που μεταγράφει την ομιλία Hokkien σε μια τυποποιημένη φωνητική σημειογραφία που ονομάζεται „Tâi-lô“. Αυτό επέτρεψε στην ομάδα της επιστήμης δεδομένων να υπολογίσει τις βαθμολογίες BLEU (μια τυπική μέτρηση μηχανικής μετάφρασης) σε επίπεδο συλλαβής και να συγκρίνει γρήγορα την ποιότητα μετάφρασης διαφορετικών προσεγγίσεων.

Η αρχιτεκτονική του μοντέλου του UST με αποκωδικοποιητές single-pass και two-pass. Τα μπλοκ στη σκιά απεικονίζουν τις ενότητες που ήταν προεκπαιδευμένες. Πηγή εικόνας: Meta AI.

Εκτός από την ανάπτυξη μιας μεθόδου για την αξιολόγηση μεταφράσεων ομιλίας Hokkien-Αγγλικά, η ομάδα δημιούργησε το πρώτο σύνολο δεδομένων αναφοράς αμφίδρομης μετάφρασης ομιλίας σε ομιλία Hokkien-Αγγλικά, με βάση ένα σώμα ομιλίας Hokkien που ονομάζεται Taiwanese Across Taiwan.

Η Meta AI ισχυρίζεται ότι οι τεχνικές που πρωτοστάτησε με το Hokkien μπορούν να επεκταθούν σε πολλές άλλες άγραφες γλώσσες — και τελικά να λειτουργήσουν σε πραγματικό χρόνο. Για το σκοπό αυτό, η Meta κυκλοφορεί το Speech Matrix, ένα μεγάλο σύνολο μεταφράσεων ομιλίας σε ομιλία που εξορύσσεται με την καινοτόμο τεχνική εξόρυξης δεδομένων της Meta που ονομάζεται LASER. Αυτό θα επιτρέψει σε άλλες ερευνητικές ομάδες να δημιουργήσουν τα δικά τους συστήματα S2ST.

Το LASER μετατρέπει προτάσεις διαφόρων γλωσσών σε μια ενιαία πολυτροπική και πολύγλωσση αναπαράσταση. Το μοντέλο χρησιμοποιεί μια μεγάλης κλίμακας πολυγλωσσική αναζήτηση ομοιότητας για να εντοπίσει παρόμοιες προτάσεις στο σημασιολογικό χώρο, δηλαδή αυτές που είναι πιθανό να έχουν το ίδιο νόημα σε διαφορετικές γλώσσες.

Τα δεδομένα που εξορύσσονται από το Speech Matrix παρέχουν παράλληλη ομιλία 418.000 ωρών για την εκπαίδευση του μοντέλου μετάφρασης, καλύπτοντας 272 γλωσσικές κατευθύνσεις. Μέχρι στιγμής, περισσότερες από 8.000 ώρες ομιλίας Hokkien έχουν εξορυχθεί μαζί με τις αντίστοιχες αγγλικές μεταφράσεις.

Ένα μέλλον ευκαιριών και προκλήσεων στη μετάφραση ομιλίας

Η τρέχουσα εστίαση της Meta AI είναι η ανάπτυξη ενός συστήματος μετάφρασης ομιλίας σε ομιλία που δεν βασίζεται στη δημιουργία μιας ενδιάμεσης αναπαράστασης κειμένου κατά τη διάρκεια της εξαγωγής συμπερασμάτων. Αυτή η προσέγγιση έχει αποδειχθεί ότι είναι ταχύτερη από ένα παραδοσιακό σύστημα κλιμάκωσης που συνδυάζει ξεχωριστά μοντέλα αναγνώρισης ομιλίας, μηχανικής μετάφρασης και σύνθεσης ομιλίας.

Yashar Behzadi, Διευθύνων Σύμβουλος και ιδρυτής της Synthesis AIπιστεύει ότι η τεχνολογία πρέπει να επιτρέψει πιο καθηλωτικές και φυσικές εμπειρίες για να πετύχει το μετασύμπαν.

Είπε ότι μία από τις τρέχουσες προκλήσεις για τα μοντέλα UST είναι η υπολογιστικά δαπανηρή εκπαίδευση που απαιτείται λόγω του εύρους, της πολυπλοκότητας και των αποχρώσεων των γλωσσών.

«Για να εκπαιδεύσουμε ισχυρά μοντέλα τεχνητής νοημοσύνης απαιτούνται τεράστιες ποσότητες αντιπροσωπευτικών δεδομένων. Ένα σημαντικό εμπόδιο στην κατασκευή αυτών των μοντέλων τεχνητής νοημοσύνης στο εγγύς μέλλον θα είναι η συλλογή, η επιμέλεια και η επισήμανση των δεδομένων εκπαίδευσης σύμφωνα με το απόρρητο», είπε. «Η αδυναμία καταγραφής αρκετά διαφορετικών δεδομένων μπορεί να οδηγήσει σε μεροληψία, επηρεάζοντας διαφορετικά ομάδες ανθρώπων. Οι αναδυόμενες τεχνολογίες συνθετικής φωνής και NLP μπορεί να διαδραματίσουν σημαντικό ρόλο στη δημιουργία ικανότερων μοντέλων».

Σύμφωνα με τη Meta, με βελτιωμένη απόδοση και απλούστερες αρχιτεκτονικές, η άμεση ομιλία σε ομιλία θα μπορούσε να ξεκλειδώσει τη μετάφραση σε πραγματικό χρόνο σχεδόν ανθρώπινης ποιότητας για μελλοντικές συσκευές όπως τα γυαλιά AR. Επιπλέον, οι πρόσφατες εξελίξεις της εταιρείας στην αναγνώριση ομιλίας χωρίς επίβλεψη (wav2vec-U) και την μη εποπτευόμενη αυτόματη μετάφραση (mBART) θα βοηθήσουν στο μελλοντικό έργο της μετάφρασης περισσότερων ομιλούμενων γλωσσών στο μετασύμπαντο.

Με τέτοια πρόοδο στην μάθηση χωρίς επίβλεψη, το Meta στοχεύει να σπάσει τα γλωσσικά εμπόδια τόσο στον πραγματικό κόσμο όσο και στο μετασύμπαν για όλες τις γλώσσες, είτε γραπτές είτε άγραφες.

Η αποστολή του VentureBeat πρόκειται να αποτελέσει μια ψηφιακή πλατεία της πόλης για τους τεχνικούς λήπτες αποφάσεων ώστε να αποκτήσουν γνώσεις σχετικά με τη μετασχηματιστική επιχειρηματική τεχνολογία και να πραγματοποιήσουν συναλλαγές. Ανακαλύψτε τις Ενημερώσεις μας.