Νέο σύστημα από τη Microsoft μπορείς να προσθέτει αυτόματα λεζάντες σε εικόνες

Η Microsoft Research ανέπτυξε ένα νέο σύστημα μπορεί να αναλύει μία εικόνα, να καταλαβαίνει τι απεικονίζεται σε αυτήν και, στη συνέχεια, να δημιουργεί μια λεζάντα που την περιγράφει, δίχως να απαιτείται ανθρώπινη παρέμβαση.

Microsoft Auto-Captions System

Η προσέγγιση της Microsoft χωρίζει την όλη διαδικασία σε διαφορετικές ενότητες, πρώτα αναγνωρίζοντας το τι απεικονίζεται σε μια φωτογραφία και δημιουργώντας μία λίστα σχετικών λέξεων. Π.χ., Όπως φαίνεται και στην εικόνα, “γυναίκα”, “γάτα”, “κάμερα” κ.λπ.

Στη συνέχεια, ελέγχει τις σχέσεις ανάμεσα στις λέξεις και δημιουργεί προτάσεις με αυτές. “Μια κάμερα κρατά μια γάτα”. “Μια γάτα κρατά μια γυναίκα”.

Μετά, ένα σύστημα βαθμολόγησης εκτιμά τις προτάσεις που δημιουργήθηκαν και επιλέγει αυτήν που θεωρεί πιο σωστή, πιο ταιριαστή στην εικόνα.

Και, για δες, όλως περιέργως το σύστημα όχι μόνο δουλεύει, αλλά σε ορισμένες περιπτώσεις καλύτερα και από τους ανθρώπους! Η Microsoft το δοκίμασε “live”, προσλαμβάνοντας ένα σύνολο τυχαίων ανθρώπων μέσα από την υπηρεσία της Amazon, Mechanical Turk (γνωστότερη ως mTurk) για να βαθμολογήσουν “ποιές λεζάντες τους φαινόταν πιο σωστές” σε εικόνες όπου λεζάντες είχαν δημιουργήσει και άλλοι άνθρωποι, και το σύστημα της Microsoft. Σε ένα 23,3% των περιπτώσεων, οι ερωτηθέντες προτίμησαν τις λεζάντες που είχε δημιουργήσει το σύστημα της Microsoft.

Προφανώς μια λύση σαν αυτή δεν έχει χρήση μόνο ως ένα βοήθημα που θα δημιουργεί αυτόματα λεζάντες για τις… χαζές εικόνες που ανεβάζουμε στο facebook, αλλά περισσότερο στη δημιουργία τεράστιων databases που θα βοηθούν στον εντοπισμό εικόνων βάσει του τι ακριβώς απεικονίζεται σε αυτές.

...γνωστός και ως Οδυσσέας Κουράφαλος, αρχικός υπεύθυνος για το unregistered. Συντάκτης, γραφίστας, "μαλτιμηντιάς", φανατικός της science fiction και των αστείων γατιών στου ιντερνέτ. "Δηλώνω graphics whore" (παίζω Ms. Pac-Man στο MAME με 2xSAL και το πρώτο Max Payne με FXAA antialiasing). Load "unreg*",8,1.