Ρώσοι επιστήμονες έχουν προτείνει νέα μέθοδοςαναγνώριση ατόμων σε βίντεο χρησιμοποιώντας ένα βαθύ νευρωνικό δίκτυο. Η προσέγγιση δεν απαιτεί ένας μεγάλος αριθμόςφωτογραφίες, μπορεί να βελτιώσει σημαντικά την ακρίβεια αναγνώρισης σε σύγκριση με παλαιότερα γνωστά ανάλογα, ακόμα κι αν είναι διαθέσιμη μόνο μία μετωπική φωτογραφία ενός ατόμου. Τα αποτελέσματα της εργασίας δημοσιεύτηκαν στα περιοδικά Expert Systems with Applications () και Optical Memory and Neural Networks ().

Πρόσφατα, τα εξαιρετικά ακριβή νευρωνικά δίκτυα ήταν τα καλύτερα στην αναγνώριση προσώπου. Για ένα τέτοιο σύστημα καλύτερη δουλειάΩ, πρέπει να της δείξουν όσο το δυνατόν περισσότερες δείγματα φωτογραφιών. Στη διαδικασία μάθησης, το σύστημα απομονώνει βασικά χαρακτηριστικά και δημιουργεί σχέσεις μεταξύ τους και στη συνέχεια χρησιμοποιεί τη γνώση που αποκτήθηκε για να αναγνωρίσει άγνωστες εικόνες. Για ελεγχόμενα δεδομένα, δηλαδή με την ίδια θέση στο πλαίσιο, τον ίδιο φωτισμό κ.λπ., η ακρίβεια των αλγορίθμων έχει φτάσει από καιρό σε αποτελέσματα συγκρίσιμα με τα ανθρώπινα. Ωστόσο, η επίτευξη υψηλής ακρίβειας στην αναγνώριση δεδομένων βίντεο που συλλέγονται σε ανεξέλεγκτες συνθήκες με διαφορετικό φωτισμό, γωνία και μέγεθος εξακολουθεί να μην είναι εύκολη.

Για να λύσουν αυτό το πρόβλημα, ερευνητές από την Ανώτατη Οικονομική Σχολή χρησιμοποίησαν τη θεωρία ασαφών συνόλων και τη θεωρία πιθανοτήτων. Ανέπτυξαν έναν αλγόριθμο που βελτιώνει την ακρίβεια της αναγνώρισης προσώπου από βίντεο κατά 2-6% σε σύγκριση με προηγούμενα πειράματα.

Ως βάση δοκιμών, οι ερευνητές χρησιμοποίησαν διάφορα παραδοσιακά σύνολα δεδομένων για την αξιολόγηση μεθόδων αναγνώρισης προσώπου βίντεο - IJB-A (IARPA Janus Benchmark A) και YTF (YouTube Faces). Αυτά τα σετ περιλαμβάνουν ελεύθερα διαθέσιμες εικόνες διάσημων προσώπων (ηθοποιών, πολιτικών, δημοσίων προσώπων) που έχουν συλλεχθεί από ανοιχτές πηγές υπό ανεξέλεγκτες συνθήκες σε διαφορετικές χρονικές στιγμές. Ο αλγόριθμος υποτίθεται ότι αναγνωρίζει πρόσωπα σε βίντεο YouTube χρησιμοποιώντας πολλές φωτογραφίες των ίδιων ατόμων από ένα άλλο σύνολο δεδομένων - LFW (Ετικέτες Πρόσωπα στην Άγρια φύση) ως δείγματα. Το LFW χρησιμοποιήθηκε πάνω υψηλή ανάλυση, και οι ίδιες οι φωτογραφίες τραβήχτηκαν σε διαφορετικές χρονικές στιγμές, από τη δεκαετία του 1970 έως τη δεκαετία του 2010.

Η νέα προσέγγιση χρησιμοποιεί πληροφορίες σχετικά με το πώς οι φωτογραφίες αναφοράς σχετίζονται μεταξύ τους, δηλαδή πόσο κοντά ή μακριά βρίσκονται σε ένα μαθηματικό μοντέλο. Σε αυτή την περίπτωση, η σύνδεση μεταξύ ομοίων ανθρώπων είναι μικρότερη, μεταξύ ανόμοιων - περισσότερο. Η γνώση του πόσο διαφορετικοί είναι οι άνθρωποι μεταξύ τους επιτρέπει στο σύστημα να διορθώνει σφάλματα στη διαδικασία αναγνώρισης καρέ βίντεο.

«Ο αλγόριθμος αξιολογεί πόσο το ένα καρέ είναι πιο κοντά σε ένα άτομο, το άλλο σε ένα άλλο. Στη συνέχεια συγκρίνει πόσο μοιάζουν αυτοί οι δύο άνθρωποι μεταξύ τους. Στη συνέχεια προσθέτει ένα τρίτο πρόσωπο και αξιολογεί με ποιον είναι πιο κοντά - με το πρώτο ή το δεύτερο. Με βάση αυτή την εγγύτητα, διορθώνει τα σφάλματα αναγνώρισης για άλλη μια φορά», λέει ο καθηγητής Savchenko.

Οι ερευνητές HSE έχουν προτείνει μια νέα μέθοδο για την αναγνώριση ανθρώπων σε βίντεο χρησιμοποιώντας ένα βαθύ νευρωνικό δίκτυο. Η προσέγγιση δεν απαιτεί μεγάλο αριθμό φωτογραφιών, μπορεί να βελτιώσει σημαντικά την ακρίβεια αναγνώρισης σε σύγκριση με παλαιότερα γνωστά ανάλογα, ακόμη και αν είναι διαθέσιμη μόνο μία μετωπική φωτογραφία ενός ατόμου. Τα αποτελέσματα της εργασίας δημοσιεύονται στα άρθρα "Fuzzy Analysis and Deep Convolution Neural Networks in Still-to-video Recognition" και "Unconstrained Face Identification Using Maximum Likelihood of Distances Between Deep Off-the-shelf Features".

Τα συστήματα αναγνώρισης προσώπου έχουν γνωρίσει ραγδαία ανάπτυξη τα τελευταία χρόνια. Παρόμοιες τεχνολογίες επαλήθευσης και ταυτοποίησης χρησιμοποιούνται σήμερα σε διάφορους τομείς - από την καταπολέμηση της τρομοκρατίας μέχρι τα κοινωνικά δίκτυα και τις εφαρμογές για κινητά.

Η αναγνώριση μπορεί να γίνει διαφορετικοί τρόποι, αλλά πρόσφατα τα καλύτερα αποτελέσματα παρουσιάζονται από εξαιρετικά ακριβή νευρωνικά δίκτυα. Ταυτόχρονα, όσο περισσότερο το νευρωνικό δίκτυο εμφανίζει δείγματα εικόνων, τόσο καλύτερα θα λειτουργεί. Στη διαδικασία της μάθησης, το σύστημα απομονώνει βασικά χαρακτηριστικά και δημιουργεί δεσμούς μεταξύ τους και στη συνέχεια χρησιμοποιεί τη γνώση που αποκτήθηκε για την αναγνώριση άγνωστων προτύπων.

Όλα είναι διαθέσιμα δωρεάν περισσότερα σετφωτογραφίες στις οποίες εκπαιδεύονται τα νευρωνικά δίκτυα. Για ελεγχόμενα δεδομένα (με την ίδια θέση στο πλαίσιο, φωτισμό κ.λπ.), η ακρίβεια των αλγορίθμων έχει φτάσει εδώ και καιρό σε αποτελέσματα συγκρίσιμα με τα ανθρώπινα. Ωστόσο, η επίτευξη υψηλής ακρίβειας στην αναγνώριση δεδομένων βίντεο που συλλέγονται σε ανεξέλεγκτες συνθήκες με διαφορετικό φωτισμό, γωνία και μέγεθος εξακολουθεί να μην είναι εύκολη.

«Το δίκτυο μπορεί να αναγνωρίσει με 100% ακρίβεια, για παράδειγμα, έναν διάσημο ηθοποιό (ο αριθμός των εικόνων του οποίου στο δίκτυο είναι σε εκατομμύρια). Αλλά αυτό δεν σημαίνει καθόλου ότι κατά τη μεταφορά της γνώσης που συσσωρεύεται στο νευρωνικό δίκτυο, προσαρμόζεται και αναγνωρίζει ένα άτομο για το οποίο είναι διαθέσιμη μόνο μία φωτογραφία ως δείγμα», εξηγεί ο καθηγητής του τμήματος. πληροφοριακά συστήματα and Technology Higher of Economics στο Nizhny Novgorod Andrey Savchenko.

Για να λύσουν αυτό το πρόβλημα, οι ερευνητές της HSE χρησιμοποίησαν τη θεωρία ασαφών συνόλων και τη θεωρία πιθανοτήτων. Ανέπτυξαν έναν αλγόριθμο που μπορεί να βελτιώσει σημαντικά την ακρίβεια (κατά 2-6% σε σύγκριση με προηγούμενα πειράματα) της αναγνώρισης προσώπου από βίντεο σε πραγματικό χρόνο παρουσία περιορισμένου αριθμού εικόνων. Αυτή η λύση λειτουργεί με αρχιτεκτονικές νευρωνικών δικτύων VGGFace, VGGFace2, ResFace και LightCNN.

Ως βάση δοκιμών, οι ερευνητές χρησιμοποίησαν διάφορα παραδοσιακά σύνολα δεδομένων για την αξιολόγηση μεθόδων αναγνώρισης προσώπου βίντεο - IJB-A (IARPA Janus Benchmark A) και YTF (YouTube Faces). Αυτά τα σετ περιελάμβαναν δημόσια διαθέσιμες εικόνες διάσημων προσώπων (ηθοποιών, πολιτικών, δημοσίων προσώπων) που συλλέχθηκαν από ανοιχτές πηγές σε ανεξέλεγκτες συνθήκες σε διαφορετικές χρονικές στιγμές. Ο αλγόριθμος υποτίθεται ότι αναγνωρίζει πρόσωπα σε βίντεο YouTube χρησιμοποιώντας πολλές φωτογραφίες των ίδιων ατόμων από ένα άλλο σύνολο δεδομένων - LFW (Ετικέτες Πρόσωπα στην Άγρια φύση) ως δείγματα. Το LFW χρησιμοποιούσε υψηλότερη ανάλυση και οι ίδιες οι φωτογραφίες τραβήχτηκαν σε διάφορες χρονικές στιγμές, από τη δεκαετία του 1970 έως τη δεκαετία του 2010.

Η ουσία αυτής της προσέγγισης είναι η χρήση πληροφοριών σχετικά με το πώς οι φωτογραφίες αναφοράς σχετίζονται μεταξύ τους, δηλαδή πόσο κοντά ή μακριά βρίσκονται μεταξύ τους. Η σύνδεση (απόσταση στο μαθηματικό μοντέλο) μεταξύ παρόμοιων ανθρώπων είναι μικρότερη, μεταξύ ανόμοιων ανθρώπων - περισσότερη. Η γνώση του πόσο διαφορετικοί είναι οι άνθρωποι μεταξύ τους επιτρέπει στο σύστημα να διορθώνει σφάλματα στη διαδικασία αναγνώρισης καρέ βίντεο.

«Ο αλγόριθμος αξιολογεί πόσο κοντά είναι το ένα καρέ σε ένα άτομο, το άλλο σε ένα άλλο. Στη συνέχεια συγκρίνει πόσο μοιάζουν αυτοί οι δύο άνθρωποι μεταξύ τους. Στη συνέχεια προσθέτει ένα τρίτο πρόσωπο και αξιολογεί με ποιον είναι πιο κοντά - με το πρώτο ή το δεύτερο. Με βάση αυτή την εγγύτητα, διορθώνει τα σφάλματα αναγνώρισης για άλλη μια φορά», λέει ο καθηγητής Savchenko.

Αυτός ο αλγόριθμος έχει ήδη εφαρμοστεί για επιτραπέζιους υπολογιστέςστο Python, το οποίο σας επιτρέπει να βρίσκετε και να ομαδοποιείτε πρόσωπα διαφορετικών ατόμων σε άλμπουμ φωτογραφιών, να αξιολογείτε το έτος γέννησης, το φύλο και άλλες παραμέτρους. Έχει αναπτυχθεί ένα πρωτότυπο μιας εφαρμογής Android που καθορίζει την ηλικία και το φύλο των ατόμων σε φωτογραφίες και βίντεο. Η ανάλυση της συλλογής φωτογραφιών καθιστά δυνατή την αυτόματη αξιολόγηση του βαθμού κοινωνικής δραστηριότητας του χρήστη, την ανάδειξη των στενών φίλων και συγγενών του. Για σύγχρονα smartphonesτο πρωτότυπο της εφαρμογής επεξεργάζεται 15 καρέ ανά δευτερόλεπτο. Οι ερευνητές υποστηρίζουν ότι χάρη στον αναπτυγμένο αλγόριθμο, η αναγνώριση προσώπου μπορεί να είναι πιο ακριβής.

Η αναζήτηση ρούχων με φωτογραφία από το τηλέφωνό σας είναι για κορίτσια, λέτε. Αυτό δεν είναι για σοβαρούς ανθρώπους πληροφορικής, λέτε. Και γενικά, πού είναι οι άκρως επιστημονικές τεχνολογίες, και πού είναι μμμ... ο κόσμος της μόδας και της αίγλης της βανίλιας;

Όταν στα 11 γίναμε κάτοικος του Skolkovo IT cluster και λίγο αργότερα υπογράψαμε συμβόλαιο με την Odnoklassniki για την ανάπτυξη ενός συγκροτήματος υπολογιστικό πρόγραμμασχετικά με την ανίχνευση προσώπου, σκεφτήκαμε επίσης με αυτόν τον τρόπο. Όπως, όλη μας τη ζωή θα εργαζόμαστε σε δροσερά επιστημονικά πεδία, χωρίς αγάπη για εσάς.

Αλλά λίγο καιρό αργότερα, μελετώντας τα παγκόσμια στατιστικά στοιχεία για την οπτική αναζήτηση, στο διαδίκτυο και κινητό εμπόριο, τις γενικές τάσεις στην παγκόσμια αγορά λιανικής, συνειδητοποιήσαμε ότι το επιχειρηματικό ενδιαφέρον για την αναγνώριση ρούχων, παπουτσιών και αξεσουάρ για φορητές συσκευές (μέσα στην ομάδα που ονομάζουμε αυτή η κοινή λέξη μόδα) αυξάνεται ραγδαία.

Ας εικονογραφήσουμε.

Μερικοί αριθμοί

Οι βιομηχανίες ένδυσης, μόδας και ειδών πολυτελείας είναι μια πολλά υποσχόμενη αγορά. Οι έμποροι και οι χρηματοδότες της McKinsey στη μελέτη τους υποστηρίζουν ότι μεταξύ 2014 και 2020 η παγκόσμια βιομηχανία ένδυσης θα αναπτυχθεί διψήφια. Επιπλέον, η ανάπτυξη θα συμβεί εις βάρος των αναδυόμενων αγορών (η Ρωσία, φυσικά, ανήκει και εδώ) και σε μεγάλο βαθμό σε βάρος των Ασιατών αγοραστών (η αστικοποίηση της Κίνας είναι τώρα 10 φορές ταχύτερη από την παρόμοια διαδικασία στη Μεγάλη Βρετανία τον 19ο αιώνας).

Αν μιλάμε μόνο για την αγορά Γυναικείος ρουχισμός, τότε στα επόμενα 12 χρόνια η ανάπτυξή του θα είναι πάνω από 50% παγκοσμίως (σύμφωνα με το McKinsey - Unleashing Fashion Growth City by City).

Ασχολήθηκε με τα ρούχα. Συνειδητοποιήσαμε ότι η αγορά αναπτύσσεται, πράγμα που σημαίνει ότι υπάρχουν ευκαιρίες για ανάπτυξη τεχνολογίας. Καλός.

Μετά αρχίσαμε να μελετάμε τις τάσεις των online αγορών. Κοιτάξαμε την Αμερική. Το 2015, 205 εκατομμύρια Αμερικανοί (σε πληθυσμό 325 εκατομμυρίων - δηλαδή πάνω από το 60%) τουλάχιστον μία φορά αναζήτησαν αγαθά στο Διαδίκτυο, συνέκριναν τιμές ή αγόρασαν κάτι στο Διαδίκτυο. Ο αριθμός αυτός αναμένεται να φτάσει τα 224 εκατομμύρια μέχρι το 2019.

Μια παρόμοια τάση παρατηρείται παγκοσμίως: μια μελέτη για τη Διάσκεψη των Ηνωμένων Εθνών για το Εμπόριο και την Ανάπτυξη (Διάσκεψη των Ηνωμένων Εθνών για το Εμπόριο και την Ανάπτυξη) αναφέρει ότι έως το 2018, περίπου 1,623 δισεκατομμύρια άνθρωποι σε όλο τον κόσμο θα αγοράζουν αγαθά και υπηρεσίες στο Διαδίκτυο (έναντι 1,039 δισεκατομμύρια το 2013).

Ταυτόχρονα, είναι ενδιαφέρον να δούμε ότι το τμήμα του mobile commerce (δηλαδή οι αγορές που γίνονται από κινητές συσκευές) αυξάνεται επίσης. Μόνο στην Αμερική, σύμφωνα με τις προβλέψεις του eMarketer, τα έσοδα λιανικής από κινητές συσκευές θα φτάσουν τα 130,12 δισεκατομμύρια δολάρια έως το 2018 (από 56,67 δισεκατομμύρια δολάρια το 2014), υπερδιπλασιάζοντας.

παγκόσμια τάσηστην «κινητοποίηση» των διαδικτυακών αγορών είναι επίσης προφανής. Η Goldman Sachs δημοσίευσε μια έκθεση ότι σε 5 χρόνια το τμήμα του m-commerce ως προς τον αριθμό των χρηστών θα αυξηθεί 5 φορές: από 379 εκατομμύρια χρήστες το 2013 σε περισσότερους από 1 δισεκατομμύριο αγοραστές το 2018 (θα πρέπει να σημειωθεί ότι η έκθεση δεν λάβετε υπόψη τις ηλεκτρονικές αγορές στο τμήμα "Ταξίδια").

Τα ρούχα, πρέπει να πούμε, σύμφωνα με την έρευνα της Nielsen, είναι η κατηγορία που αγοράζεται πιο συχνά στο διαδίκτυο. Την συναγωνίζονται μόνο βιβλία, χαρτικά και μουσική.

Στην πραγματικότητα, αυτό συμβαίνει: μέχρι την εποχή μας, η αγορά πρόσβασης στο Διαδίκτυο έχει φτάσει στο σημείο κορεσμού της, η ανάπτυξη των χρηστών έχει επιβραδυνθεί σημαντικά (προβλέπεται σε επίπεδο 5-10% τα επόμενα χρόνια). Η ανάπτυξη της αγοράς smartphone τείνει επίσης στο μηδέν.

Δείτε, για παράδειγμα, την παρουσίαση της ομιλίας του Mark Zuckerberg στο συνέδριο του Facebook F8.

Αυτό σημαίνει ότι το Διαδίκτυο και η αγορά των smartphone έχουν γίνει αυτό που ονομάζεται εμπόρευμα, καταναλωτικά αγαθά, μέρος της καθημερινότητας. Όμως οι αγορές μέσω φορητών συσκευών είναι νέα πρότυπα συμπεριφοράς που δίνουν χώρο για την ανάπτυξη νέων τεχνολογιών.

Όλα αυτά τα γεγονότα λειτούργησαν ως βάση για να σκεφτούμε πώς μπορούμε να εφαρμόσουμε την τεχνολογία των νευρωνικών μας δικτύων και να κάνουμε κάτι ενδιαφέρον και απαραίτητο σε αυτόν τον τομέα. Έτσι, το 2014, ξεκινήσαμε να αναπτύσσουμε ένα κινητό σύστημα αναγνώρισης ρούχων.

Πώς και γιατί να διδάξετε το σύστημα να αναγνωρίζει φορέματα;

Η ίδια η ιδέα της αναγνώρισης κινητού είναι απλή: ο χρήστης βλέπει κάποιο αντικείμενο μόδας που του αρέσει (σε ​​ένα άτομο στο δρόμο, σε μια βιτρίνα ή στο εξώφυλλο ενός περιοδικού), το φωτογραφίζει κινητή συσκευή, ανεβάζει μια φωτογραφία στο εγκατεστημένο εφαρμογή για κινητό, το οποίο αναγνωρίζει το προϊόν στην εικόνα και επιλέγει παρόμοια προϊόντα από τη συλλογή του καταστήματος. Τα αγαθά, φυσικά, μπορείτε να αγοράσετε αμέσως. Τα παντα.

Με άλλα λόγια, οι προσδοκίες των χρηστών από τη δουλειά της υπηρεσίας μπορούν να μειωθούν σε τρία βήματα: είδα - φωτογράφισα - αγόρασα.

Για να αναπτύξουμε και να φτιάξουμε ένα τέτοιο σύστημα, χρειάστηκε να επεξεργαστούμε περισσότερες από 30.000.000 εικόνες, να κατανοήσουμε τη διαφορά μεταξύ πουλόβερ και πουλόβερ (υπάρχουν επίσης πουλόβερ και πουλόβερ, και όλα αυτά είναι διαφορετικά πράγματα), μπότες και μοναχοί ντέρμπι, ντουλάπες και τσάντες τσάντες, ανοίξτε το “Kunstkamera” μας, για να νοικιάσετε μανεκέν, να νιώθετε νέοι (καλά, όχι πολύ νέοι, εντάξει) σχεδιαστές μόδας - και πολλά άλλα. Πρώτα όμως πρώτα.

Αποφασίσαμε να δημιουργήσουμε το σύστημα αναγνώρισης κινητών νευρωνικά δίκτυα είναι η πεμπτουσία της τεχνολογίας βαθιάς μάθησης. Τα δίκτυα μιμούνται το έργο των νευρώνων του ανθρώπινου εγκεφάλου όσον αφορά τη μάθηση και τη διόρθωση σφαλμάτων: το δίκτυο μαθαίνει μόνο του (δεδομένων επαρκών δεδομένων εκπαίδευσης) και ενεργεί με βάση την προηγούμενη εμπειρία, κάνοντας όλο και λιγότερα λάθη με κάθε νέα εκπαίδευση.

Ένας νευρώνας είναι ένα ξεχωριστό υπολογιστικό στοιχείο ενός δικτύου. κάθε νευρώνας συνδέεται με τους νευρώνες του προηγούμενου και του επόμενου στρώματος του δικτύου. Όταν ένα αρχείο εικόνας, βίντεο ή ήχου λαμβάνεται ως είσοδος, επεξεργάζεται διαδοχικά από όλα τα επίπεδα του δικτύου. Ανάλογα με τα αποτελέσματα, το δίκτυο μπορεί να αλλάξει τη διαμόρφωσή του (τις παραμέτρους κάθε νευρώνα).

Για την αποστολή μας, τα νευρωνικά δίκτυα είναι καλά γιατί, με τον απαραίτητο όγκο δεδομένων εκπαίδευσης, μπορούν να μάθουν να αναγνωρίζουν σχεδόν κάθε τύπο αντικειμένου.

Βήμα 1: Μάθετε τα πάντα για τη μόδα

Έτσι, από τεχνολογική άποψη, το σύστημα θα πρέπει να λειτουργεί με την ακόλουθη σειρά: ανάλυση φωτογραφίας που έχει φορτωθεί από το σύστημα - επιλογή περιοχών που ενδεχομένως περιέχουν ένα προϊόν - ορισμός κατηγορίας προϊόντος - διαχωρισμός ενός αντικειμένου από το φόντο - δημιουργία ψηφιακού δακτυλικού αποτυπώματος εικόνας προϊόντος - αναζήτηση για παρόμοια προϊόντα σε μια δεδομένη κατηγορία.

Το πρώτο στοιχείο στο σχέδιο Ε&Α ήταν να δημιουργηθεί μια σωστή, πλήρης και ακριβής ταξινόμηση της μόδας.

Αποφασίσαμε να ξεκινήσουμε με την ταξινόμηση των παπουτσιών. Επιπλέον, ήταν θηλυκό - μας φαινόταν ότι ήταν πιο εύκολο (άξιζε αμέσως να διασταυρωθεί, αφελείς ανόητοι). Κατανοητό: για να αναγνωρίσει σωστά το σύστημα τις κατηγορίες, χρειαζόμαστε μια λεπτομερή ταξινόμηση των τύπων γυναικείων παπουτσιών. Η Wikipedia μπήκε σε δράση, επεξηγηματικά λεξικά, ιστότοποι διαδικτυακών καταστημάτων υποδημάτων και εικόνες από την Google όπως αυτό:

Παράλληλα με την αναζήτηση εικόνων ανά κατηγορία και σήμανση, ξεκινήσαμε έναν εσωτερικό φάκελο "Kunstkamera", ο οποίος άρχισε να γεμίζει με παραδείγματα ασυνήθιστων (ή ακόμα και ειλικρινά περίεργων) παπουτσιών, μερικά από τα οποία θέλαμε να "αποκαλύψουμε" αμέσως. Για παράδειγμα, έχουμε τα ακόλουθα εκθέματα:

Φυσικά, δεν τραβήξαμε τέτοιες εικόνες για εκπαίδευση δικτύου. Αυτό είναι για τον εαυτό σας - "καθαρά να γειτονέψετε" (γ).

Και καταλάβαμε ότι υπάρχουν παπούτσια unisex. Για παράδειγμα, οι κατηγορίες υποδημάτων όπως οι εσπαντρίγιες, τα μοκασίνια ή τα ξύλα μπορεί να είναι πολύ παρόμοιες στην εμφάνιση - τόσο για άνδρες όσο και για γυναίκες.

Συνολικά, ταξινομήσαμε 10 κατηγορίες ως unisex.

Έτσι, συνολικά, εντοπίσαμε λίγο λιγότερες από 100 κατηγορίες παπουτσιών, μετά από τις οποίες συνοψίσαμε τις προκλήσεις που έπρεπε να αντιμετωπίσουμε σε αυτό το βήμα.

Πρώταείναι μια ταξινόμηση από μόνη της. Ποιες κατηγορίες να ξεχωρίσετε; Θα είναι πολύ μικρά; Ή, αντίθετα, υπερβολικά διευρυμένη;

Εδώ μας βοήθησε η δομή των καταλόγων των τελικών πελατών μας - ηλεκτρονικά καταστήματα. Λάβαμε ως βάση την κατηγοριοποίησή τους, φέρνοντάς τη στη μορφή που θα μπορούσε να ικανοποιήσει τις απαιτήσεις μας (να είναι καθολική για ρωσικά και αμερικανικά καταστήματα, όχι πολύ γενική και όχι πολύ λεπτομερή).

Δεύτερος- η διαμάχη για την απόδοση ορισμένων αγαθών σε μια συγκεκριμένη κατηγορία. Για παράδειγμα, τι είναι; Μποτάκια ή αθλητικά παπούτσια;

Εξωτερικά, φυσικά, οι μπότες αστραγάλου, αλλά στις ιστοσελίδες ορισμένων διαδικτυακών καταστημάτων, τέτοια παπούτσια ανήκουν στην κατηγορία των αθλητικών παπουτσιών. Πώς ξέρετε σε ποια κατηγορία θέλει να ψάξει ένας πελάτης για παρόμοια παπούτσια;

Τρίτος- τη λεπτομέρεια του ταξινομητή. Μερικές φορές έπρεπε να «βαριέμαι» και, για πιο ακριβή αναζήτηση, να επιλέξω πρόσθετες κατηγορίες που δεν συσχετίζονται πάντα με τις κατηγορίες καταστημάτων (για να μην συγχέονται με τα φίλτρα αναζήτησης!), προκειμένου να επιτύχω καλύτερα αποτελέσματα αναγνώρισης.

Πήραμε λοιπόν wedge ankle boots, μποτάκια στιλέτο με τακούνι, μποτάκια με φαρδύ τακούνι, γούνινα μποτάκια κ.λπ.

τέταρτος– δυσκολία στην επιλογή εικόνων σε ορισμένες κατηγορίες. Υπήρξε μια εποχή που, για παράδειγμα, οι εικόνες των topsiders μπορούσαν να βρεθούν μόνο σε ξένους πόρους - αυτά τα παπούτσια δεν είχαν ακόμη εκπροσωπηθεί ευρέως στα καταστήματά μας.

Και το τελευταίο πράγμα. Δεν καταλάβαμε πώς θα συμπεριφερόταν ο νευρώνας με τον ορισμό του υλικού του παπουτσιού. Δηλαδή, το δίκτυο θα αναζητήσει ψηλές δερμάτινες μπότες ειδικά για δερμάτινες μπότες ή τα αποτελέσματα αναζήτησης θα περιέχουν όλες τις μπότες παρόμοιου σχήματος, αλλά διαφορετικό υλικό?

Και ως αποτέλεσμα, δεν ξέραμε αν έπρεπε να κατηγοριοποιήσουμε ανά υλικό: δερμάτινα παπούτσια, σουέντ παπούτσια, υφασμάτινα παπούτσια κ.λπ.

Για τη δοκιμή, έφτιαξαν 2 κατηγορίες: "Σουέντ μπότες" και "Δερμάτινες μπότες" (φυσικά, διασταυρώνονται με άλλες κατηγορίες - ψηλές μπότες, μπότες σφηνών και άλλες). Το δίκτυο τα αναγνωρίζει σωστά. Αλλά τελικά, δεν αρχίσαμε να χωρίζουμε όλα τα είδη παπουτσιών ανά υλικό σε μη επικαλυπτόμενες κατηγορίες - θα ήταν περιττό. Και αυτές οι δύο «ιστορικά ανεπτυγμένες» κατηγορίες έμειναν. Σωστή δουλειάδεν παρεμβαίνουν.

Σε γενικές γραμμές, αφού ετοιμάσαμε τον ταξινομητή παπουτσιών, αρχίσαμε να θεωρούμε τους εαυτούς μας κάτι σαν ένα μείγμα των Alexander Vasiliev, Vyacheslav Zaitsev και Valentin Yudashkin.

Η εσωτερική μας αλληλογραφία

Στη συνέχεια, σύμφωνα με την ίδια αρχή, αρχίσαμε να ξεχωρίζουμε γυναικείες και ανδρικές τσάντες, και στη συνέχεια - γυναικεία και ανδρικά ρούχα.

Βήμα 2: Εκπαιδεύστε τα νευρωνικά δίκτυα για να ξεχωρίζουν τους μοναχούς από τους αργόσχολους και ένα πουλόβερ από έναν άλτη

Έτσι, έχουμε ορίσει τις κατηγορίες μόδας με τις οποίες θα πρέπει να συνεργαστεί το σύστημά μας. Τώρα πρέπει να εκπαιδεύσουμε τα νευρωνικά δίκτυα ώστε να αναγνωρίζουν τις κατηγορίες στη φωτογραφία: δηλαδή να προσδιορίζουν πού βρίσκεται το επιθυμητό αντικείμενο στην εικόνα και να το ταξινομούν σωστά.

Να εκπαιδεύσει νευρικό σύστημαΓια να αναγνωρίσετε μια κατηγορία, το πρώτο βήμα είναι να επιλέξετε και να ανεβάσετε στο δίκτυο (αυτή τη διαδικασία ονομάζουμε «τροφοδοσία των δικτύων») έναν σημαντικό αριθμό εικόνων: από χίλιες έως αρκετές εκατοντάδες χιλιάδες.

Δηλαδή, για να διδάξετε το σύστημα να αναγνωρίζει την κατηγορία "Παπούτσια με τακούνια", πρέπει να κάνετε λήψη από το Διαδίκτυο από δύο ή περισσότερες χιλιάδες διαφορετικές εικόνες παπουτσιών με τακούνια. Η αρχή είναι απλή: περισσότερα δεδομένα εκπαίδευσης - καλύτερη απόδοση δικτύου (ακριβέστερη αναγνώριση).

Η λήψη εικόνων για εκπαίδευση πραγματοποιείται μισή αυτόματα από τους εσωτερικούς μας αλγόριθμους, μισή χειροκίνητα. Μετά από αυτό, ελέγχεται η σειρά των φωτογραφιών, ώστε να μην υπάρχουν διπλότυπες και τυχαίες ακατάλληλες εικόνες. Επιπλέον, σε όλα τα αρχεία δίνονται ομοιόμορφα ονόματα και μία μορφή (επέκταση).

Και τότε αρχίζει το πιο δύσκολο μέρος: χειροκίνητη σήμανση των προϊόντων στην εικόνα. Οι υπάλληλοί μας κυκλώνουν το προϊόν στη φωτογραφία και καθορίζουν την κατηγορία του.

Για παράδειγμα:

Αυτό είναι απαραίτητο για να καταλάβει το σύστημα: αυτό ακριβώς είναι στο ορθογώνιο - αυτό είναι προϊόν μιας συγκεκριμένης κατηγορίας. Η εργασία σήμανσης παίρνει τον περισσότερο χρόνο: η εργασία είναι επίπονη και δεν κινείται πολύ γρήγορα. Αν μετρήσουμε τις ανθρωποώρες που δαπανήθηκαν για τη σήμανση σε φλιτζάνια καφέ, τότε η παραγωγή θα είναι περισσότερο από έναν τόνο ενός αναζωογονητικού ποτού.

Τι παλεύεις εδώ;

Στο στάδιο της επισήμανσης, προέκυψε έλλειψη εμπειρίας και προνοητικότητας: μετά την επιλογή νέων κατηγοριών τσαντών και ρούχων, έπρεπε να επανατοποθετήσουμε τις φωτογραφίες των παπουτσιών που είχαν ήδη επισημανθεί για νέα προϊόντα. Λόγω της έλλειψης σήμανσης για νέες κατηγορίες, το σύστημα βρήκε ρούχα, αλλά θεώρησε ότι ήταν λάθος και εισήγαγε τα προϊόντα που βρέθηκαν στο "φόντο".

Δηλαδή, αν πρώτα προσδιορίζαμε όλες τις πιθανές κατηγορίες παπουτσιών, ρούχων και αξεσουάρ (φέρναμε τον ταξινομητή στη μορφή που είναι τώρα) και μόνο τότε επισημάναμε τις εικόνες στο όλακατηγορίες ταυτόχρονα, θα εξοικονομούσαμε πολλούς πόρους.

Ένα άλλο σημείο συμφόρησης ήταν ότι αρκετοί υπάλληλοι συμμετείχαν στη σήμανση. Και έτυχε ο καθένας να καταλάβει με τον τρόπο του ποιο ρούχο σε ποια κατηγορία να αποδώσει (γράψαμε για αμφιλεγόμενες περιπτώσεις παραπάνω). Ως εκ τούτου, διορίστηκε ένας υπεύθυνος υπάλληλος που δεχόταν σημειωμένες φωτογραφίες από τους συναδέλφους του και έκανε διπλό έλεγχο σε όλους τους φακέλους και τις εικόνες για σωστή σήμανση.

Δείτε πώς φαίνεται ο ταξινομητής μόδας στο παράδειγμα των γυναικείων παπουτσιών (μία από τις σελίδες):

Τα νευρωνικά δίκτυα χρησιμοποιούνται πλέον ευρέως για την επεξεργασία και την αναγνώριση εικόνας, σε συστήματα αναγνώρισης ομιλίας, ανάλυση βίντεο και πνευματική ασφάλεια. Τα δίκτυα κάνουν μουσική Jukedeck). Δεν είναι μακριά η στιγμή που θα εμφανιστούν τα bots νευρωνικών δικτύων, τα οποία θα αντικαταστήσουν την ανθρώπινη νοημοσύνη σε μια σειρά από δραστηριότητες (για παράδειγμα, σε ένα τηλεφωνικό κέντρο που συμβουλεύει έναν πελάτη για στοιχειώδη θέματα).

Γενικά, πρέπει να πούμε ότι πολλοί άνθρωποι ασχολούνται με τα δίκτυα. Αυτοί είναι οι καρχαρίες της αγοράς του Διαδικτύου: "Yandex"(για παράδειγμα, η πρόσφατη λειτουργία τους για το Auto.ru - αναγνώριση της μάρκας και του μοντέλου ενός αυτοκινήτου με εικόνα), Microsoft(υπηρεσία What-Dog.net, που καθορίζει τη ράτσα των σκύλων από τη φωτογραφία), Mail.ruκαι Facebook(τμήμα του Facebook AI Research) και, φυσικά, Google.Αλλά είναι επίσης νέες νεοφυείς επιχειρήσεις (μόνο αυτές που έχουν αρκετά κεφάλαια για υπολογιστική ισχύ).

Τα δίκτυα μελετώνται επιμελώς σε τεχνικά πανεπιστήμια σε όλο τον κόσμο, ιδίως σε MIPT Ίσως τώρα θέλετε να ασχοληθείτε και με τα δίκτυα. Δροσερός!

Στη συνέχεια θα ανακοινώσουμε αμέσως δύο σημεία για τα οποία πρέπει να είστε προετοιμασμένοι.

Για άλλη μια φορά, θα πούμε ότι σημαντικό μέρος της τεχνολογίας είναι τα δεδομένα εκπαίδευσης. Αυτό είναι το πρώτο «αλλά». Για να μπορέσει το δίκτυο να διακρίνει επιτυχώς έναν τύπο αντικειμένου, είναι απαραίτητο να συλλεχθούν αρκετές χιλιάδες παραδείγματα αυτού του αντικειμένου, στα οποία θα πραγματοποιηθεί εκπαίδευση. Συχνά ο αριθμός των αντικειμένων είναι εκατοντάδες. Οι προκύπτουσες βάσεις δεδομένων εκπαίδευσης μπορούν να έχουν εκατοντάδες χιλιάδες, εκατομμύρια αντικείμενα.

Επομένως, η προετοιμασία της βάσης είναι μια πολύ χρονοβόρα διαδικασία. Οι νεοφυείς επιχειρήσεις έρχονται μερικές φορές σε εμάς, λένε, εδώ, θέλουμε να κάνουμε αναγνώριση, όπως το Pinterest, με συνδέσμους σε προϊόντα από την Amazon. «Τέλεια», λέμε, «μπορούμε να το κανονίσουμε. Χρειάζεστε όμως πολλές φωτογραφίες για κάθε προϊόν για να λειτουργήσει το δίκτυο. Μπορούμε να το σηκώσουμε;» Μετά από αυτό, οι πελάτες κατά κάποιο τρόπο διαλύονται στο διάστημα.

Αν και πρέπει να σημειωθεί ότι πλέον υπάρχουν διάφορες τεχνολογίες για ταχεία μάθηση. Για παράδειγμα, μια δημόσια σειρά από ήδη εκπαιδευμένες εικόνες imagenet; προεκπαιδευμένα νευρωνικά δίκτυα που μπορούν να αναγνωρίσουν μοτίβα και δεν απαιτούν μακρά προετοιμασία του δικτύου για εργασία.

Από την πλευρά του υλικού, η πρόοδος είναι επίσης ορατή - υπάρχουν κάρτες γραφικών υψηλής απόδοσης που σας επιτρέπουν να εκπαιδεύετε και να χρησιμοποιείτε δίκτυα αρκετές εκατοντάδες φορές πιο γρήγορα.

Και δεύτερον, η αποθήκευση και η επεξεργασία μεγάλων ποσοτήτων δεδομένων απαιτεί σημαντική υπολογιστική ισχύ και κεφάλαια για υποδομές. Για εκπαίδευση και λειτουργία δικτύων χρειάζονται κάρτες με τουλάχιστον 3-4 GB μνήμης και για ορισμένες αρχιτεκτονικές απαιτούνται και τα 11 gigs. Οι κάρτες δεν είναι φθηνές: ένα μικρό έργο παίρνει μια κάρτα αξίας περίπου 100.000 ρούβλια. Επιπλέον θέλει πολλά χώρος στο δισκοκάτω από τα ίδια τα δεδομένα.

Έτσι, η τεχνολογία των νευρωνικών δικτύων αναπτύσσεται ευρέως και η ζήτηση για αυτήν είναι μεγάλη. Στο Διαδίκτυο μπορείτε να βρείτε πολλή βιβλιογραφία και έρευνα για το θέμα, ακόμη και διαθέσιμη κώδικα προγραμματισμούδίκτυα. Δηλαδή, από τη μια πλευρά, η τεχνολογία είναι κάπως διαθέσιμη στο κοινό, αλλά, από την άλλη, συνεχίζεται αυτή τη στιγμήπαραμένει πολύπλοκο και ελάχιστα κατανοητό. Οι μεγάλες εταιρείες πραγματοποιούν τακτικά κάθε είδους διαγωνισμούς για τους καλύτερους αλγόριθμους και συχνά η μάχη είναι μόνο για τα δέκατα και τα εκατοστά της ακρίβειας των αλγορίθμων.

Έτσι, με την εργασία μας για την αναγνώριση κινητών στον χώρο της μόδας, περάσαμε στον τελικό KDD, το μεγαλύτερο συνέδριο στον κόσμο στον τομέα της Ανακάλυψης Γνώσης και της Εξόρυξης Δεδομένων. Το κείμενο της έκθεσης είναι διαθέσιμο στον σύνδεσμο.

Συνεχίζουμε να οργώνουμε για να αναπτύξουμε την τεχνολογία.

Σε επαφή με

Αναγνώσεις Ρεσέτνιεφ. 2017

ΛΥΣΗ ΠΡΟΒΛΗΜΑΤΩΝ ΑΝΑΓΝΩΡΙΣΗΣ ΠΡΟΣΩΠΟΥ ΚΑΙ ΜΙΜΗΣ ΜΕ ΧΡΗΣΗ ΣΥΝΑΠΛΕΚΤΩΝ ΝΕΥΡΩΝ ΔΙΚΤΥΩΝ

D. V. Plotnikov*, E. A. Sopov

Κρατικό Πανεπιστήμιο Επιστήμης και Τεχνολογίας της Σιβηρίας που πήρε το όνομά του από τον Ακαδημαϊκό M. F. Reshetnev Ρωσική Ομοσπονδία, 660037, Krasnoyarsk, λεωφ. τους. αέριο. "Εργάτης Κρασνογιάρσκ", 31

ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ: [email προστατευμένο]

Πραγματοποιήθηκε μια πειραματική μελέτη της αποτελεσματικότητας των συνελικτικών νευρωνικών δικτύων στην επίλυση προβλημάτων αναγνώρισης προσώπου και εκφράσεων του ανθρώπου.

Λέξεις-κλειδιά: συνελικτικό νευρωνικό δίκτυο, αναγνώριση προσώπου, αναγνώριση εκφράσεων προσώπου.

ΕΠΙΛΥΣΗ ΕΡΓΑΣΙΩΝ ΑΝΑΓΝΩΡΙΣΗΣ ΤΗΣ ΕΚΦΡΑΣΗΣ ΠΡΟΣΩΠΟΥ ΚΑΙ ΠΡΟΣΩΠΟΥ ΜΕ ΧΡΗΣΗ ΣΥΝΕΛΠΙΚΩΝ ΝΕΥΡΩΝ ΔΙΚΤΥΩΝ

D. V. Plotnikov*, E. A. Sopov

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation Е-mail: [email προστατευμένο]

Αυτή η εργασία εκτελεί πειραματική έρευνα της απόδοσης συνελικτικών νευρωνικών δικτύων που λειτουργούν με εργασίες αναγνώρισης προσώπου και προσώπου.

Λέξεις κλειδιά: συνελικτικό νευρωνικό δίκτυο, αναγνώριση προσώπου, αναγνώριση εκφράσεων προσώπου.

Εισαγωγή. Η ανθρώπινη ανάγκη για την ανάπτυξη τεχνολογιών αναγνώρισης προσώπου έχει διαμορφωθεί εδώ και πολύ καιρό. Σήμερα, τέτοιοι αλγόριθμοι βρίσκουν την εφαρμογή τους σε πολλούς τομείς - συστήματα ασφαλείας, επαλήθευση κλπ. Φυσικά βελτιώνονται συνεχώς και δείχνουν όλα τα καλύτερα αποτελέσματα. Ένας από αυτούς τους αλγόριθμους είναι ένα συνελικτικό νευρωνικό δίκτυο, το οποίο, λόγω της δομής του και των αλγορίθμων που χρησιμοποιούνται σε αυτό, μπορεί να λειτουργήσει με οποιεσδήποτε εικόνες και ροές βίντεο.

Σε αυτή την εργασία, αναλύουμε την αποτελεσματικότητα του CNN με διάφορες εργασίες αναγνώρισης, και συγκεκριμένα: αναγνώριση του προσώπου και των εκφράσεων του προσώπου ενός ατόμου. Δεδομένου ότι κάθε εργασία αναγνώρισης έχει μοναδικά χαρακτηριστικά(αυτές μπορεί να είναι: ο αριθμός των περιπτώσεων εκπαίδευσης και δοκιμής, η διάσταση, ο αριθμός των τάξεων, κ.λπ.), προκύπτει το ακόλουθο ερώτημα: είναι πάντα δυνατό να αποκτήσετε έναν αλγόριθμο υψηλής απόδοσης (CNN) χρησιμοποιώντας μόνο κλασικές διαμορφώσεις; Και η αύξηση των υπερπαραμέτρων του μοντέλου οδηγεί πάντα σε αύξηση της απόδοσης;

Ως δοκιμαστικές εργασίες επιλέχθηκαν τα ακόλουθα: "The ORL Database of Faces" και "The Facial Expression Recognition 2013".

Βάση δεδομένων "The ORL Database of Faces". Η πρώτη δοκιμαστική εργασία ήταν το πρόβλημα της αναγνώρισης προσώπου. Η βάση δεδομένων αποτελείται από 400 φωτογραφίες σαράντα διαφορετικών ανθρώπων (Εικ. 1). Όλες οι φωτογραφίες είναι σε κλίμακα του γκρι. Το δείγμα δοκιμής σχηματίζεται ως εξής: είναι απαραίτητο να επιλεγεί τυχαία μία φωτογραφία από κάθε άτομο. Ο αλγόριθμος που αναπτύχθηκε θα πρέπει να ταξινομήσει τις υπόλοιπες 40 με βάση 360 φωτογραφίες εκπαίδευσης, δηλαδή να προσδιορίσει τα άτομα που απεικονίζονται σε αυτές.

Βάση δεδομένων "The Facial Expression Recognition 2013". Η δεύτερη δοκιμαστική εργασία ήταν το πρόβλημα της αναγνώρισης συναισθημάτων. Η βάση δεδομένων είναι ένα σύνολο εικόνων ανθρώπων με διαφορετικές εκφράσεις του προσώπου. Το άτομο στην εικόνα μπορεί να είναι: θυμωμένο, αηδιασμένο, φοβισμένο, χαρούμενο, λυπημένο, έκπληκτο ή ήρεμο.

Ρύζι. 1. Παραδείγματα φωτογραφιών που λαμβάνονται από την ORL Database of Faces

Μαθηματικές Μέθοδοι Μοντελοποίησης, Ελέγχου και Ανάλυσης Δεδομένων

Ρύζι. 2. Παραδείγματα φωτογραφιών από τη βάση δεδομένων "The Facial Expression Recognition 2013"

Η δομή ενός συνελικτικού νευρωνικού δικτύου για εργασία με "The ORL Database of Faces"

Αριθμός επιπέδου Παράμετροι επιπέδου

Αριθμός πυρήνων Μέγεθος πυρήνων Λειτουργία ενεργοποίησης

1 Στρώμα συνέλιξης 1 20 5x5 Υπερβολική εφαπτομένη

3 Στρώμα συνέλιξης 2 50 5x5 Υπερβολική εφαπτομένη

Μέγεθος συνέλιξης Συνάρτηση συνέλιξης

2 Downsampling layer 1 2x2 Maximum function

4 Downsampling layer 2 2x2 Maximum function

Αριθμός νευρώνων Συνάρτηση ενεργοποίησης

5 Πλήρως συνδεδεμένο στρώμα 1 500 Υπερβολική εφαπτομένη

6 Πλήρως συνδεδεμένο στρώμα 2 40 Υπερβολική εφαπτομένη

Δομή 1 Δομή 2

Ρύζι. 3. Δυναμική της αποτελεσματικότητας της εκπαίδευσης του CNN (Δομή 1 και Δομή 2)

Το δείγμα αποτελείται από 28709 προπονήσεις και 7178 δοκιμαστικές περιπτώσεις. Κάθε εικόνα έχει ανάλυση 48x48 pixel.

Πειραματικά αποτελέσματα. Βάση δεδομένων "The ORL Database of Faces". Η αρχή λειτουργίας του CNN βρίσκεται στο.

Κατά τη διάρκεια της εργασίας, χρησιμοποιήθηκαν και άλλες δομές για την εργασία με τη βάση δεδομένων "The ORL Database of Faces". Ωστόσο, αποδείχθηκαν αναποτελεσματικές. Από τη μία πλευρά, οι διαμορφώσεις που είναι πιο περίπλοκες και απαιτούν περισσότερους πόρους για υπολογισμούς δεν έδειξαν καλύτερο αποτέλεσμα. Κι αλλα απλές δομές- δεν μπορούσε να εκπαιδευτεί καθόλου. Έτσι, η καλύτερα εκπαιδευμένη δομή επιτυγχάνει απόδοση ταξινόμησης 97,5%.

Βάση δεδομένων "The Facial Expression Recognition 2013". Δεδομένου ότι η διάσταση αυτού του προβλήματος είναι σχετικά μεγάλη, αποφασίστηκε να μειωθεί η διάσταση (σε 28x28). Σε αυτή την περίπτωση, μια εικόνα μικρότερης διάστασης θα τροφοδοτηθεί στην είσοδο του νευρωνικού δικτύου. Η πρακτική έχει δείξει ότι ο χρόνος εκπαίδευσης του CNN με εικόνες εισόδου 48x48 pixel είναι 4 φορές μεγαλύτερος από ό,τι με εικόνες εισόδου 28x28 pixel. Επιπλέον, η δυναμική εκμάθησης του δικτύου παραμένει σχεδόν αμετάβλητη.

Το επόμενο βήμα είναι να ελέγξουμε την υπόθεση ότι οι τιμές υπερπαραμέτρων CNN επηρεάζουν την ταχύτητα.

μάθηση. Χρησιμοποιήθηκαν δύο δομές για την επίλυση του προβλήματος: Η Δομή 1 είναι πανομοιότυπη με αυτή που χρησιμοποιήθηκε για την εργασία με τη βάση δεδομένων "The ORL Database of Faces".

Η Δομή 2 είναι η Δομή 1 με αυξημένες τιμές υπερπαραμέτρων (τώρα ο αριθμός των πυρήνων του πρώτου συνελικτικού στρώματος = 50, του δεύτερου συνελικτικού στρώματος = 125) (Εικ. 3).

Στο σχ. 3: τετμημένη - επαναλήψεις εκπαίδευσης δικτύου, τεταγμένη - ακρίβεια εκπαίδευσης. Μπορεί να φανεί ότι στην 125η επανάληψη, η Δομή 1 φτάνει στο επίπεδο στασιμότητας, ενώ η Δομή 2 συνεχίζει να αυξάνει την ακρίβεια αναγνώρισης.

συμπεράσματα. Τα αποτελέσματα έδειξαν ότι για την επίλυση διαφορετικών προβλημάτων αναγνώρισης ανθρώπινου προσώπου (ή συναισθημάτων), η χρήση της ίδιας κλασικής δομής μπορεί να είναι αναποτελεσματική. Είναι απαραίτητο να προχωρήσουμε από τον στόχο και να βρούμε έναν συμβιβασμό μεταξύ της αποτελεσματικότητας και υπολογιστική ισχύςυλικού, καθώς ο χρόνος εκτέλεσης ενός CNN είναι εξαιρετικά ευαίσθητος στη διάσταση των δεδομένων εισόδου και το αποτέλεσμα δεν εξαρτάται πάντα από τη διάσταση του δείγματος εκπαίδευσης. Όταν εργάζεστε με πολύπλοκες δομές, απαιτείται προεπεξεργασία δεδομένων και λεπτό συντονισμόδίκτυα.

Η κατεύθυνση αυτή θα αποτελέσει αντικείμενο περαιτέρω έρευνας.

PewemHeecKye umeHUH. 2017

1. Αναγνώριση προσώπου: μια συνελικτική προσέγγιση νευρωνικών δικτύων / S. Lawrence, C. L. Giles, Ah Chung Tsoi και A. D. Back // IEEE Trans. Νευρωνικά δίκτυα. 1997 Vol. 8, Νο. 1. Σ. 98-113.

2. Krizhevsky A., Sutskever I., Hinton G. E. ImageNet Classification with Deep Convolutional Neural Networks, Adv. Neural Inf. επεξεργάζομαι, διαδικασία. Συστ. 2012. Σ. 1-9.

3. LeCun Υ., Boser Β., Denker J. S. et αϊ. Η οπίσθια διάδοση εφαρμόζεται στη χειρόγραφη αναγνώριση ταχυδρομικού κώδικα. Νευρωνικός Υπολογιστής. 1989. Νο. 1 (4). Σ. 541-551.

4. Lin M., Chen Q., Yan S. Network in Network. arXiv Προετ. 2013:10.

5. Sopov E., Ivanov I. Σχεδιάστε αποτελεσματικές τεχνολογίες για ανάλυση εικόνας περιβάλλοντος σε διαλόγου HCI χρησιμοποιώντας αυτορυθμιζόμενο γενετικό αλγόριθμο αναζήτησης καινοτομίας. Informatics Control Autom Robot (ICINCO), 2014. 11th Int Conf. 2014. Αρ. 2. Σ. 832-839.

© nn0THHK0B fl. B., ConoB E.A., 2017