Πώς η τεχνολογία επισήμανσης δεδομένων ανοιχτού κώδικα μπορεί να μετριάσει την προκατάληψη

Πώς η τεχνολογία επισήμανσης δεδομένων ανοιχτού κώδικα μπορεί να μετριάσει την προκατάληψη

Dezember 1, 2022 0 Von admin

Ρίξτε μια ματιά στις συνεδρίες κατ‘ απαίτηση από τη Σύνοδο Κορυφής Low-Code/No-Code για να μάθετε πώς να καινοτομείτε με επιτυχία και να επιτύχετε αποτελεσματικότητα, αναβαθμίζοντας και κλιμακώνοντας τους πολίτες προγραμματιστές. Παρακολουθήσετε τώρα.


Η επισήμανση δεδομένων είναι μια από τις πιο θεμελιώδεις πτυχές της μηχανικής μάθησης. Είναι επίσης συχνά ένας τομέας όπου οι οργανισμοί αγωνίζονται – τόσο για την ακριβή κατηγοριοποίηση των δεδομένων όσο και για τη μείωση της πιθανής μεροληψίας.

Με την τεχνολογία επισήμανσης δεδομένων, ένα σύνολο δεδομένων που χρησιμοποιείται για την εκπαίδευση ενός μοντέλου μηχανικής μάθησης αναλύεται πρώτα και δίνεται μια ετικέτα που παρέχει μια κατηγορία και έναν ορισμό του τι αφορούν στην πραγματικότητα τα δεδομένα. Ενώ η επισήμανση δεδομένων είναι ένα κρίσιμο συστατικό της διαδικασίας μηχανικής μάθησης, πρόσφατα αποδείχθηκε επίσης ότι είναι εξαιρετικά ασυνεπής, σύμφωνα με πολλές μελέτες. Η ανάγκη για ακριβή επισήμανση δεδομένων έχει τροφοδοτήσει μια πολυσύχναστη αγορά πωλητών ετικετών δεδομένων.

Μεταξύ των πιο δημοφιλών τεχνολογιών σήμανσης δεδομένων είναι η Label Studio ανοιχτού κώδικα, η οποία υποστηρίζεται από τη startup Heartex με έδρα το Σαν Φρανσίσκο. Η νέα ενημέρωση Label Studio 1.6 που κυκλοφόρησε σήμερα θα παρέχει στους χρήστες νέες δυνατότητες που θα βοηθήσουν στην καλύτερη ανάλυση και την επισήμανση δεδομένων μέσα στα βίντεο.

Σύμφωνα με τον Michael Malyuk, συνιδρυτή και διευθύνοντα σύμβουλο της Heartex, η πρόκληση για τις περισσότερες εταιρείες με τεχνητή νοημοσύνη (AI) είναι να έχουν καλά δεδομένα για να συνεργαστούν.

Εκδήλωση

Ευφυής Σύνοδος Ασφάλειας

Μάθετε τον κρίσιμο ρόλο του AI & ML στην ασφάλεια στον κυβερνοχώρο και τις ειδικές περιπτωσιολογικές μελέτες του κλάδου στις 8 Δεκεμβρίου. Εγγραφείτε για το δωρεάν πάσο σας σήμερα.

Κάνε εγγραφή τώρα

«Σκεφτόμαστε την επισήμανση ως μια ευρύτερη κατηγορία εξελίξεων δεδομένων και το Label Studio είναι μια λύση που τελικά σας δίνει τη δυνατότητα να κάνετε οποιοδήποτε είδος ανάπτυξης δεδομένων», είπε ο Malyuk.

Ο καθορισμός κατηγοριών επισήμανσης δεδομένων είναι μια πρόκληση

Ενώ η έκδοση 1.6 του Label Studio έχει τη δυνατότητα αναπαραγωγής βίντεο ως το κύριο νέο χαρακτηριστικό, ο Malyuk τόνισε ότι η τεχνολογία είναι χρήσιμη για κάθε τύπο δεδομένων, συμπεριλαμβανομένων κειμένου, ήχου, χρονοσειρών και βίντεο.

Μεταξύ των μεγαλύτερων ζητημάτων με οποιαδήποτε προσέγγιση επισήμανσης για όλους τους τύπους δεδομένων είναι στην πραγματικότητα ο καθορισμός των κατηγοριών που χρησιμοποιούνται για τις ετικέτες δεδομένων.

«Μερικοί άνθρωποι μπορούν να ονομάσουν τα πράγματα με έναν τρόπο, κάποιοι άνθρωποι μπορούν να ονομάσουν τα πράγματα με διαφορετικό τρόπο, αλλά ουσιαστικά εννοούν το ίδιο πράγμα», είπε ο Malyuk.

Εξήγησε ότι το Label Studio παρέχει ταξινομίες για ετικέτες από τις οποίες οι χρήστες μπορούν να επιλέξουν για να περιγράψουν ένα κομμάτι δεδομένων, είτε πρόκειται για αρχείο κειμένου, ήχου ή εικόνας. Εάν δύο ή περισσότερα άτομα στον ίδιο οργανισμό επισημαίνουν διαφορετικά τα ίδια δεδομένα, το σύστημα Label Studio θα εντοπίσει τη σύγκρουση, ώστε να μπορεί να αναλυθεί και να αποκατασταθεί. Το Label Studio παρέχει τόσο ένα σύστημα μη αυτόματης επίλυσης συγκρούσεων όσο και μια αυτοματοποιημένη προσέγγιση.

Διανυσματική βάση δεδομένων έναντι επισήμανσης δεδομένων;

Η διαδικασία της επισήμανσης δεδομένων μπορεί συχνά να περιλαμβάνει χειρωνακτική εργασία, με τους ανθρώπους να αποδίδουν μια ετικέτα ή να επικυρώνουν ότι μια ετικέτα είναι ακριβής.

Υπάρχουν διάφορες προσεγγίσεις για την αυτοματοποίηση της διαδικασίας, η startup Lightly AI χρησιμοποιεί ένα αυτο-εποπτευόμενο μοντέλο μηχανικής εκμάθησης που μπορεί να ενσωματωθεί με το Label Studio. Έπειτα, υπάρχουν προμηθευτές που θα χρησιμοποιήσουν μια διανυσματική βάση δεδομένων για να μετατρέψουν δεδομένα σε μαθηματικά, αντί να χρησιμοποιούν την επισήμανση δεδομένων για τον προσδιορισμό των δεδομένων και των σχέσεών τους.

Ο Malyuk είπε ότι οι διανυσματικές βάσεις δεδομένων έχουν τις χρήσεις τους και μπορούν να είναι αποτελεσματικές για την εκτέλεση εργασιών όπως οι αναζητήσεις ομοιότητας. Το πρόβλημα, κατά την άποψή του, είναι ότι η διανυσματική προσέγγιση δεν είναι τόσο αποτελεσματική με μη δομημένους τύπους δεδομένων όπως ο ήχος και το βίντεο. Σημείωσε ότι μια διανυσματική βάση δεδομένων μπορεί να κάνει χρήση τύπων αναγνώρισης για κοινά αντικείμενα.

«Μόλις αρχίσετε να αποκλίνετε από αυτή την κοινή γνώση σε κάτι που είναι λίγο διαφορετικό, θα γίνει πολύ περίπλοκο χωρίς χειροκίνητη σήμανση», είπε ο Malyuk.

Πώς η επισήμανση δεδομένων μπορεί να εντοπίσει και να μετριάσει την προκατάληψη της τεχνητής νοημοσύνης

Η μεροληψία στην τεχνητή νοημοσύνη είναι μια συνεχής πρόκληση που πολλοί στον κλάδο προσπαθούν να καταπολεμήσουν. Στη ρίζα της μηχανικής εκμάθησης βρίσκονται τα πραγματικά δεδομένα και ο τρόπος με τον οποίο επισημαίνονται τα δεδομένα μπορεί επίσης να οδηγήσει σε προκατάληψη. Η προκατάληψη μπορεί να είναι σκόπιμη και μπορεί επίσης να είναι περιστασιακή.

«Αν επισημαίνετε ένα πολύ υποκειμενικό σύνολο δεδομένων το πρωί πριν τον καφέ και μετά ξανά μετά τον καφέ, μπορεί να λάβετε πολύ διαφορετικές απαντήσεις», είπε ο Malyuk.

Αν και δεν είναι πάντα δυνατό να βεβαιωθείτε ότι οι διαδικασίες επισήμανσης δεδομένων εκτελούνται μόνο από εκείνες που έχουν πλήρη καφεΐνη, υπάρχουν διαδικασίες που μπορούν να βοηθήσουν. Ο Malyuk είπε ότι αυτό που κάνει το Label Studio από την πλευρά του λογισμικού είναι ότι παρέχει έναν τρόπο δημιουργίας μιας διαδικασίας ώστε ο καθένας να συνεισφέρει ξεχωριστά. Το σύστημα προσδιορίζει και δημιουργεί όλους τους πίνακες όπου αντιστοιχίζει τα άτομα μεταξύ τους και πώς επισημαίνουν τα ίδια αντικείμενα. Είναι μια προσέγγιση που είπε ο Malyuk μπορεί ενδεχομένως να εντοπίσει μεροληψία για μια συγκεκριμένη ετικέτα.

Η τεχνολογία ανοιχτού κώδικα Label Studio προορίζεται να χρησιμοποιηθεί από άτομα και μικρές ομάδες, ενώ το εμπορικό έργο παρέχει επιχειρηματικές δυνατότητες για μεγαλύτερες ομάδες γύρω από την ασφάλεια, τη συνεργασία και την επεκτασιμότητα.

«Με τον ανοιχτό κώδικα, εστιάζουμε στον χρήστη και προσπαθούμε να κάνουμε τη ζωή του μεμονωμένου χρήστη όσο το δυνατόν πιο εύκολη από την άποψη της επισήμανσης», είπε ο Malyuk. «Με την επιχείρηση, εστιάζουμε στην οργάνωση και ό,τι χρειάζεται η επιχείρηση, υπάρχει».

Η αποστολή του VentureBeat πρόκειται να αποτελέσει μια ψηφιακή πλατεία της πόλης για τους τεχνικούς λήπτες αποφάσεων ώστε να αποκτήσουν γνώσεις σχετικά με τη μετασχηματιστική επιχειρηματική τεχνολογία και να πραγματοποιήσουν συναλλαγές. Ανακαλύψτε τις Ενημερώσεις μας.