Γιατί τα δεδομένα παραμένουν η μεγαλύτερη πρόκληση για έργα μηχανικής μάθησης

Γιατί τα δεδομένα παραμένουν η μεγαλύτερη πρόκληση για έργα μηχανικής μάθησης

November 28, 2022 0 Von admin

Για να ενισχύσουμε περαιτέρω τη δέσμευσή μας να παρέχουμε κορυφαία στον κλάδο κάλυψη της τεχνολογίας δεδομένων, η VentureBeat είναι ενθουσιασμένη που καλωσορίζει τον Andrew Brust και τον Tony Baer ως τακτικούς συνεισφέροντες. Παρακολουθήστε τα άρθρα τους στο Data Pipeline.

Τα ποιοτικά δεδομένα βρίσκονται στο επίκεντρο της επιτυχίας της επιχειρηματικής τεχνητής νοημοσύνης (AI). Και κατά συνέπεια, παραμένει η κύρια πηγή προκλήσεων για τις εταιρείες που θέλουν να εφαρμόσουν μηχανική μάθηση (ML) στις εφαρμογές και τις λειτουργίες τους.

Ο κλάδος έχει κάνει εντυπωσιακές προόδους βοηθώντας τις επιχειρήσεις να ξεπεράσουν τα εμπόδια στην προμήθεια και προετοιμασία των δεδομένων τους, σύμφωνα με Η πιο πρόσφατη εφαρμογή Έκθεση κατάστασης AI. Ωστόσο, υπάρχουν ακόμη πολλά που πρέπει να γίνουν σε διαφορετικά επίπεδα, συμπεριλαμβανομένης της οργανωτικής δομής και των εταιρικών πολιτικών.

Το κόστος των δεδομένων

Ο κύκλος ζωής της επιχειρησιακής τεχνητής νοημοσύνης μπορεί να χωριστεί σε τέσσερα στάδια: Προέλευση δεδομένων, προετοιμασία δεδομένων, δοκιμή και ανάπτυξη μοντέλων και αξιολόγηση μοντέλου.

Οι πρόοδοι στους υπολογιστές και τα εργαλεία ML βοήθησαν στην αυτοματοποίηση και την επιτάχυνση εργασιών όπως η εκπαίδευση και η δοκιμή διαφορετικών μοντέλων ML. Οι πλατφόρμες υπολογιστικού νέφους καθιστούν δυνατή την εκπαίδευση και τη δοκιμή δεκάδων διαφορετικών μοντέλων διαφορετικών μεγεθών και δομών ταυτόχρονα. Αλλά καθώς τα μοντέλα μηχανικής μάθησης αυξάνονται σε αριθμό και μέγεθος, θα απαιτούν περισσότερα δεδομένα εκπαίδευσης.

Εκδήλωση

Ευφυής Σύνοδος Ασφάλειας

Μάθετε τον κρίσιμο ρόλο του AI & ML στην ασφάλεια στον κυβερνοχώρο και τις ειδικές περιπτωσιολογικές μελέτες του κλάδου στις 8 Δεκεμβρίου. Εγγραφείτε για το δωρεάν πάσο σας σήμερα.

Κάνε εγγραφή τώρα

Δυστυχώς, η απόκτηση δεδομένων εκπαίδευσης και ο σχολιασμός εξακολουθεί να απαιτεί σημαντική χειροκίνητη προσπάθεια και είναι σε μεγάλο βαθμό συγκεκριμένη εφαρμογή. Σύμφωνα με την αναφορά του Appen, «έλλειψη επαρκών δεδομένων για μια συγκεκριμένη περίπτωση χρήσης, νέες τεχνικές μηχανικής εκμάθησης που απαιτούν μεγαλύτερο όγκο δεδομένων ή οι ομάδες δεν έχουν τις σωστές διαδικασίες για να λάβουν εύκολα και αποτελεσματικά τα δεδομένα που χρειάζονται».

«Απαιτούνται δεδομένα εκπαίδευσης υψηλής ποιότητας για την ακριβή απόδοση του μοντέλου. και τα μεγάλα, χωρίς αποκλεισμούς σύνολα δεδομένων είναι ακριβά», δήλωσε στο VentureBeat η επικεφαλής προϊόντων της Appen, Sujatha Sagiraju. «Ωστόσο, είναι σημαντικό να σημειωθεί ότι τα πολύτιμα δεδομένα τεχνητής νοημοσύνης μπορούν να αυξήσουν τις πιθανότητες το έργο σας να μεταβεί από το πιλοτικό στην παραγωγή. Άρα, το κόστος χρειάζεται».

Οι ομάδες ML μπορούν να ξεκινήσουν με προεπισημασμένα σύνολα δεδομένων, αλλά τελικά θα χρειαστεί να συλλέξουν και να επισημάνουν τα δικά τους προσαρμοσμένα δεδομένα για να κλιμακώσουν τις προσπάθειές τους. Ανάλογα με την εφαρμογή, η επισήμανση μπορεί να γίνει εξαιρετικά δαπανηρή και έντασης εργασίας.

Σε πολλές περιπτώσεις, οι εταιρείες έχουν αρκετά δεδομένα, αλλά δεν μπορούν να αντιμετωπίσουν θέματα ποιότητας. Τα μεροληπτικά, εσφαλμένα χαρακτηρισμένα, ασυνεπή ή ελλιπή δεδομένα μειώνουν την ποιότητα των μοντέλων ML, γεγονός που με τη σειρά του βλάπτει την απόδοση επένδυσης (ROI) των πρωτοβουλιών τεχνητής νοημοσύνης.

„Εάν εκπαιδεύσετε μοντέλα ML με κακά δεδομένα, οι προβλέψεις μοντέλων θα είναι ανακριβείς“, είπε ο Sagiraju. «Για να διασφαλίσουν ότι η τεχνητή νοημοσύνη τους λειτουργεί καλά σε σενάρια πραγματικού κόσμου, οι ομάδες πρέπει να έχουν ένα συνδυασμό συνόλων δεδομένων υψηλής ποιότητας, συνθετικών δεδομένων και αξιολόγησης ανθρώπινης ροής στο κιτ εκπαίδευσης τους».

Το χάσμα μεταξύ των επιστημόνων δεδομένων και των ηγετών επιχειρήσεων

Σύμφωνα με τον Appen, οι ηγέτες των επιχειρήσεων είναι πολύ λιγότερο πιθανό από το τεχνικό προσωπικό να θεωρούν την προμήθεια και την προετοιμασία δεδομένων ως τις κύριες προκλήσεις των πρωτοβουλιών τους AI. «Υπάρχουν ακόμη κενά μεταξύ των τεχνολόγων και των ηγετών επιχειρήσεων κατά την κατανόηση των μεγαλύτερων σημείων συμφόρησης στην εφαρμογή δεδομένων για τον κύκλο ζωής της τεχνητής νοημοσύνης. Αυτό οδηγεί σε κακή ευθυγράμμιση στις προτεραιότητες και τον προϋπολογισμό εντός του οργανισμού», σύμφωνα με την έκθεση Appen.

«Αυτό που γνωρίζουμε είναι ότι μερικά από τα μεγαλύτερα σημεία συμφόρησης για πρωτοβουλίες τεχνητής νοημοσύνης έγκεινται στην έλλειψη τεχνικών πόρων και απόκτησης στελεχών», είπε ο Sagiraju. «Αν ρίξετε μια ματιά σε αυτές τις κατηγορίες, θα δείτε ότι οι επιστήμονες δεδομένων, οι μηχανικοί μηχανικής μάθησης, οι προγραμματιστές λογισμικού και τα στελέχη είναι διασκορπισμένοι σε διαφορετικούς τομείς, επομένως δεν είναι δύσκολο να φανταστεί κανείς έλλειψη ευθυγραμμισμένης στρατηγικής λόγω αντικρουόμενων προτεραιοτήτων μεταξύ των διαφόρων ομάδων μέσα στον οργανισμό».

Η ποικιλία των ανθρώπων και των ρόλων που εμπλέκονται σε πρωτοβουλίες τεχνητής νοημοσύνης καθιστά δύσκολη την επίτευξη αυτής της ευθυγράμμισης. Από τους προγραμματιστές που διαχειρίζονται τα δεδομένα, μέχρι τους επιστήμονες δεδομένων που ασχολούνται με επιτόπια ζητήματα και τα στελέχη που λαμβάνουν στρατηγικές επιχειρηματικές αποφάσεις, όλοι έχουν διαφορετικούς στόχους στο μυαλό τους και επομένως διαφορετικές προτεραιότητες και προϋπολογισμούς.

Ωστόσο, ο Sagiraju βλέπει ότι το χάσμα μειώνεται σιγά-σιγά χρόνο με το χρόνο, όσον αφορά την κατανόηση των προκλήσεων της τεχνητής νοημοσύνης. Και αυτό συμβαίνει επειδή οι οργανισμοί κατανοούν καλύτερα τη σημασία των δεδομένων υψηλής ποιότητας για την επιτυχία των πρωτοβουλιών AI.

„Η έμφαση στο πόσο σημαντικά δεδομένα – ειδικά δεδομένα υψηλής ποιότητας που ταιριάζουν με σενάρια εφαρμογών – είναι για την επιτυχία ενός μοντέλου τεχνητής νοημοσύνης, έχει συγκεντρώσει τις ομάδες για να λύσουν αυτές τις προκλήσεις“, είπε ο Sagiraju.

Οι προκλήσεις δεδομένων δεν είναι νέες στον τομέα της εφαρμοσμένης ML. Αλλά καθώς τα μοντέλα ML μεγαλώνουν και τα δεδομένα γίνονται πιο άφθονα διαθέσιμα, υπάρχει ανάγκη να βρεθούν επεκτάσιμες λύσεις για τη συγκέντρωση ποιοτικών δεδομένων εκπαίδευσης.

Ευτυχώς, μερικές τάσεις βοηθούν τις εταιρείες να ξεπεράσουν ορισμένες από αυτές τις προκλήσεις και η αναφορά AI του Appen δείχνει ότι ο μέσος χρόνος που δαπανάται για τη διαχείριση και την προετοιμασία δεδομένων μειώνεται.

Ένα παράδειγμα είναι η αυτοματοποιημένη επισήμανση. Για παράδειγμα, τα μοντέλα ανίχνευσης αντικειμένων απαιτούν τον καθορισμό των πλαισίων οριοθέτησης κάθε αντικειμένου στα παραδείγματα εκπαίδευσης, κάτι που απαιτεί σημαντική χειροκίνητη προσπάθεια. Τα αυτοματοποιημένα και ημι-αυτοματοποιημένα εργαλεία επισήμανσης χρησιμοποιούν ένα μοντέλο βαθιάς μάθησης για την επεξεργασία των παραδειγμάτων εκπαίδευσης και την πρόβλεψη των πλαισίων οριοθέτησης. Οι αυτοματοποιημένες ετικέτες δεν είναι τέλειες και ένας ανθρώπινος ετικετογράφος πρέπει να τις εξετάσει και να τις προσαρμόσει, αλλά επιταχύνουν σημαντικά τη διαδικασία. Επιπλέον, το αυτοματοποιημένο σύστημα σήμανσης μπορεί να εκπαιδευτεί περαιτέρω και να βελτιωθεί καθώς λαμβάνει ανατροφοδότηση από ανθρώπους που ετικετοποιούν.

„Ενώ πολλές ομάδες ξεκινούν με τη μη αυτόματη επισήμανση των συνόλων δεδομένων τους, περισσότερες στρέφονται σε μεθόδους εξοικονόμησης χρόνου για να αυτοματοποιήσουν εν μέρει τη διαδικασία“, δήλωσε ο Sagiraju.

Ταυτόχρονα, υπάρχει μια αυξανόμενη αγορά για συνθετικά δεδομένα. Οι εταιρείες χρησιμοποιούν τεχνητά δημιουργημένα δεδομένα για να συμπληρώσουν τα δεδομένα που συλλέγουν από τον πραγματικό κόσμο. Τα συνθετικά δεδομένα είναι ιδιαίτερα χρήσιμα σε εφαρμογές όπου η λήψη δεδομένων από τον πραγματικό κόσμο είναι δαπανηρή ή επικίνδυνη. Ένα παράδειγμα είναι οι εταιρείες αυτοοδηγούμενων αυτοκινήτων, οι οποίες αντιμετωπίζουν ρυθμιστικές, ασφαλείς και νομικές προκλήσεις όσον αφορά τη λήψη δεδομένων από πραγματικούς δρόμους.

«Τα αυτοοδηγούμενα αυτοκίνητα απαιτούν απίστευτες ποσότητες δεδομένων για να είναι ασφαλή και προετοιμασμένα για οτιδήποτε μόλις βγουν στο δρόμο, αλλά μερικά από τα πιο περίπλοκα δεδομένα δεν είναι άμεσα διαθέσιμα», είπε ο Sagiraju. «Τα συνθετικά δεδομένα επιτρέπουν στους επαγγελματίες να λογοδοτούν για περιπτώσεις αιχμής ή επικίνδυνα σενάρια όπως ατυχήματα, διέλευση πεζών και οχήματα έκτακτης ανάγκης για να εκπαιδεύσουν αποτελεσματικά τα μοντέλα τεχνητής νοημοσύνης τους. Τα συνθετικά δεδομένα μπορούν να δημιουργήσουν περιπτώσεις για την εκπαίδευση δεδομένων όταν δεν υπάρχουν αρκετά δεδομένα ανθρώπινης προέλευσης. Είναι κρίσιμο να καλυφθούν τα κενά».

Ταυτόχρονα, η εξέλιξη της αγοράς Mlops βοηθά τις εταιρείες να αντιμετωπίσουν πολλές προκλήσεις του αγωγού μηχανικής μάθησης, συμπεριλαμβανομένης της επισήμανσης και της έκδοσης συνόλων δεδομένων. εκπαίδευση, δοκιμή και σύγκριση διαφορετικών μοντέλων ML. ανάπτυξη μοντέλων σε κλίμακα και παρακολούθηση της απόδοσής τους· και τη συλλογή φρέσκων δεδομένων και την ενημέρωση των μοντέλων με την πάροδο του χρόνου.

Αλλά καθώς η ML παίζει μεγαλύτερο ρόλο στις επιχειρήσεις, ένα πράγμα που θα γίνει πιο σημαντικό είναι ο ανθρώπινος έλεγχος.

«Οι αξιολογήσεις Human-in-the-Loop (HITL) είναι επιτακτικές για την παροχή ακριβών, σχετικών πληροφοριών και την αποφυγή μεροληψίας», δήλωσε ο Sagiraju. «Παρά το τι πιστεύουν πολλοί ότι οι άνθρωποι όντως παίρνουν πίσω θέση στην εκπαίδευση τεχνητής νοημοσύνης, νομίζω ότι θα δούμε μια τάση προς περισσότερες αξιολογήσεις HITL σε μια προσπάθεια να ενδυναμώσουμε την υπεύθυνη τεχνητή νοημοσύνη και να έχουμε περισσότερη διαφάνεια σχετικά με το τι τοποθετούν οι οργανισμοί στα μοντέλα τους για να εξασφαλίσουν μοντέλα αποδίδει καλά στον πραγματικό κόσμο».

Η αποστολή του VentureBeat πρόκειται να αποτελέσει μια ψηφιακή πλατεία της πόλης για τους τεχνικούς λήπτες αποφάσεων ώστε να αποκτήσουν γνώσεις σχετικά με τη μετασχηματιστική επιχειρηματική τεχνολογία και να πραγματοποιήσουν συναλλαγές. Ανακαλύψτε τις Ενημερώσεις μας.