Αποτελεσματική διακυβέρνηση δεδομένων με τμηματοποίηση AI

Αποτελεσματική διακυβέρνηση δεδομένων με τμηματοποίηση AI

November 27, 2022 0 Von admin

Ρίξτε μια ματιά στις συνεδρίες κατ‘ απαίτηση από τη Σύνοδο Κορυφής Low-Code/No-Code για να μάθετε πώς να καινοτομείτε με επιτυχία και να επιτύχετε αποτελεσματικότητα, αναβαθμίζοντας και κλιμακώνοντας τους πολίτες προγραμματιστές. Παρακολουθήσετε τώρα.


Ο ψηφιακός μετασχηματισμός έχει αλλάξει ριζικά τον τρόπο με τον οποίο οι επιχειρήσεις αλληλεπιδρούν με τους συνεργάτες, τις αλυσίδες εφοδιασμού και τους πελάτες τους. Έχει επίσης αυξήσει εκθετικά τον όγκο των δεδομένων που παράγονται και αποθηκεύονται από οργανισμούς.

Το αίνιγμα των δεδομένων μας

Οι σύγχρονες επιχειρήσεις έχουν γενικά εκατοντάδες terabyte, αν όχι petabyte, δεδομένων, μεγάλο μέρος των οποίων δεν είναι δομημένα. Αυτός ο τύπος δεδομένων μπορεί να αποτελεί το 80 έως 90% του συνολικού αποτυπώματος δεδομένων μιας επιχείρησης και επειδή δεν είναι δομημένο, αγνοείται σε μεγάλο βαθμό. Ωστόσο, ορισμένα στοιχεία μη δομημένων δεδομένων περιέχουν ευαίσθητες πληροφορίες που μπορεί να πέσουν θύματα παραβιάσεων.

Το αίνιγμα: Δεν γνωρίζουμε ποια δεδομένα είναι ευαίσθητα. είναι σαν να προσπαθείς να βρεις μια βελόνα σε μια θημωνιά.

Νέα εργαλεία ενδέχεται να αντικαταστήσουν τις δυσκίνητες μεθόδους διακυβέρνησης δεδομένων

Με μια πληθώρα δεδομένων που έχουν συσσωρευτεί εδώ και πολλά χρόνια, ερωτήματα από ρυθμιστικές αρχές και εντολές ανακάλυψης από νομικές αρχές εμφανίζονται συχνά.

Εκδήλωση

Ευφυής Σύνοδος Ασφάλειας

Μάθετε τον κρίσιμο ρόλο του AI & ML στην ασφάλεια στον κυβερνοχώρο και τις ειδικές περιπτωσιολογικές μελέτες του κλάδου στις 8 Δεκεμβρίου. Εγγραφείτε για το δωρεάν πάσο σας σήμερα.

Κάνε εγγραφή τώρα

Μια τυπική αντίδραση από τους διαχειριστές δεδομένων μπορεί να είναι να θέσουν σε εφαρμογή μια άμεση διαδικασία – ίσως να υπογράψουν οι υπάλληλοι μια δήλωση που υπόσχονται να μην αποθηκεύουν ευαίσθητα δεδομένα και στη συνέχεια να διεξάγουν εκπαίδευση σχετικά με πληροφορίες προσωπικής ταυτοποίησης (PII). Αλλά αυτή είναι μια απλή λύση „Band-Aid“ που τοποθετείται στη διαδικασία καθώς ελπίζουν για το καλύτερο.

Εναλλακτικά, οι διαχειριστές δεδομένων μπορούν να περάσουν από σωρούς δεδομένων. Σαρώνουν κάθε έγγραφο, προσπαθώντας να αποκαλύψουν ευαίσθητα δεδομένα. Αλλά η σάρωση των petabyte μη δομημένων δεδομένων θα χρειαζόταν χρόνια. Είναι επίσης αρκετά δαπανηρό και πολύ χρονοβόρο για να επιτευχθούν τα επιθυμητά αποτελέσματα, γεγονός που κάνει πολλούς διαχειριστές δεδομένων να αποφεύγουν αυτήν την προσέγγιση.

Ευαίσθητα δεδομένα και η άνοδος της τμηματοποίησης δεδομένων που βασίζεται σε AI

Μια αποτελεσματική και αποδοτική τεχνολογία είναι διαθέσιμη για να αντικαταστήσει τέτοιες αρχαϊκές μεθόδους και να μειώσει τον κίνδυνο γρήγορα, με ένα κλάσμα του κόστους: τμηματοποίηση τεχνητής νοημοσύνης (AI).

Με την τμηματοποίηση που βασίζεται σε AI, εξακριβώνουμε ποια χαρακτηριστικά ενός αρχείου δείχνουν ότι είναι πιο πιθανό να περιέχει ευαίσθητα δεδομένα μετά τη σάρωση ενός μικρού στατιστικού δείγματος αρχείων. Αυτό μας παρέχει σημαντικές πληροφορίες για να δώσουμε προτεραιότητα στην αναζήτησή μας για δεδομένα υψηλού κινδύνου. Για παράδειγμα, τα έγγραφα του Word διατρέχουν μεγαλύτερο κίνδυνο από τις παρουσιάσεις του PowerPoint; Υπάρχει κάποιος συγκεκριμένος φάκελος που είναι πιο πιθανό να περιέχει ευαίσθητα δεδομένα;

Μόλις επισημάνουμε τα πιο επικίνδυνα δεδομένα μας, μπορούμε να ξεκινήσουμε αμέσως μια πλήρη διαδικασία σάρωσης και αποκατάστασης, εξαλείφοντας τον υψηλότερο κίνδυνο όσο το δυνατόν νωρίτερα στη διαδικασία. Έτσι, έχουμε δώσει προτεραιότητα στη διαδικασία αποκατάστασης για να επιτύχουμε τη μεγαλύτερη μείωση του κινδύνου στο ελάχιστο χρονικό διάστημα.

Για παράδειγμα, ας υποθέσουμε ότι έχουμε πολλά terabyte δεδομένων χωρισμένα σε κομμάτια των 100 terabyte. Η ευρετηρίαση ή η σάρωση 100 terabyte κάθε φορά θα μπορούσε να απαιτήσει αρκετούς μήνες εργασίας και χρειάζεται ακόμη περισσότερος χρόνος για να το διαβάσετε.

Ωστόσο, εάν αντ‘ αυτού, πάρω ένα στατιστικό δείγμα (δηλαδή κοιτάζοντας περίπου 9.500 από ένα σύνολο 1 εκατομμυρίου αρχείων), μπορώ να είμαι 95% σίγουρος για τα αποτελέσματά μου.

Εάν στα πρώτα 100 terabyte, τα αποτελέσματά μου λένε ότι το 5% των δεδομένων περιέχει προσωπικές πληροφορίες, θα ήξερα ότι αν έκανα το ίδιο τεστ άλλες 100 φορές, 95 φορές από τις εκατό, θα ήμουν εντός του 1% του αυτό το επίπεδο 5% (δηλαδή, το 4–6% είναι PII ή πληροφορίες ή αρχεία που περιέχουν PII). Μπορώ να εκτελέσω αυτήν την επανάληψη σε ένα κλάσμα του χρόνου – ώρες αντί για μήνες – και να έχω μια καλή ιδέα για το πόσο μεγάλο είναι το ζήτημα.

Στη συνέχεια, αν κοιτάξω ένα δεύτερο κομμάτι 100 terabyte και το 20% περιέχει PII, έχω τώρα μια ιεράρχηση. Ξέρω ότι ο χρόνος μου εξυπηρετείται καλύτερα κοιτάζοντας πρώτα αυτό το δεύτερο κομμάτι δεδομένων.

Μπορούμε όμως ακόμα καλύτερα. Για αυτό το δεύτερο κομμάτι δεδομένων, μπορούμε να εφαρμόσουμε μοντέλα τεχνητής νοημοσύνης για να τμηματοποιήσουμε περαιτέρω το κομμάτι των 100 terabyte σε κάδους με βάση την αναμενόμενη πιθανότητα ένα αρχείο να έχει PII. Μπορεί να διαπιστώσουμε ότι μόνο ένα terabyte από τα συνολικά 100 terabyte έχει πιθανότητα μεγαλύτερη από 50% να περιέχει PII.

Στη συνέχεια, θα σαρώσω όλα τα terabyte και θα επιλύσω τα προβλήματα. Στη συνέχεια, μπορώ να προχωρήσω στην επόμενη πιο επικίνδυνη περιοχή και μετά στην επόμενη πιο επικίνδυνη περιοχή. Η πρόοδος έχει βελτιωθεί με άλματα και όρια σε σύγκριση με το κοσκίνισμα και των 200 terabyte από την αρχή μέχρι το τέλος. Αυτή η προσέγγιση είναι ένα αποτελεσματικό, αποδοτικό, αξιόπιστο και αποδεκτό μέσο επικύρωσης δεδομένων.

Οι ρυθμιστικές αρχές και οι νομικές αρχές αναζητούν πάντα τις εταιρείες να λαμβάνουν εύλογα μέτρα για τη συμμόρφωση. Αυτή η προσέγγιση είναι ρεαλιστική και έχει ως αποτέλεσμα την ταχύτερη δυνατή μείωση των αρχείων που περιέχουν ευαίσθητα δεδομένα.

Εξοικονομήστε χρόνο και μειώστε το κόστος καθώς εργάζεστε για τη συμμόρφωση

Η χρήση μιας προσέγγισης με προτεραιότητα στη διακυβέρνηση δεδομένων έχει νόημα. Η κατάτμηση και η σάρωση της τεχνητής νοημοσύνης, με βάση στατιστική δειγματοληψία με εύλογο διάστημα εμπιστοσύνης, συμβάλλει στην αποτελεσματική και αποτελεσματική αναγνώριση ευαίσθητων δεδομένων. Αν και έχω επικεντρωθεί κυρίως σε περιπτώσεις χρήσης απορρήτου, αυτή η ίδια διαδικασία για τον προσδιορισμό δεδομένων μπορεί να εφαρμοστεί σε πολλές άλλες περιπτώσεις χρήσης, συμπεριλαμβανομένης της επισήμανσης εταιρικής IP, δεδομένων που σχετίζονται με την εκποίηση και ρυθμιζόμενων δεδομένων. Μπορούμε να σας βοηθήσουμε να βρείτε τις βελόνες στα άχυρα σας πολύ πιο γρήγορα μέσω της χρήσης δειγματοληψίας και τμηματοποίησης.

Ο Will Jaibaji είναι συνιδρυτής και SVP της στρατηγικής προϊόντων στο Λύσεις κυματοθραύστη στο Ώστιν του Τέξας.

DataDecisionMakers

Καλώς ήρθατε στην κοινότητα του VentureBeat!

Το DataDecisionMakers είναι όπου οι ειδικοί, συμπεριλαμβανομένων των τεχνικών που ασχολούνται με τα δεδομένα, μπορούν να μοιράζονται πληροφορίες και καινοτομίες που σχετίζονται με δεδομένα.

Εάν θέλετε να διαβάσετε για ιδέες αιχμής και ενημερωμένες πληροφορίες, τις βέλτιστες πρακτικές και το μέλλον των δεδομένων και της τεχνολογίας δεδομένων, ελάτε μαζί μας στο DataDecisionMakers.

Ίσως ακόμη και να σκεφτείτε να συνεισφέρετε ένα δικό σας άρθρο!

Διαβάστε περισσότερα από το DataDecisionMakers