Ας μιλήσουμε, iPhone! Η “επανάσταση” στη σημερινή αποκάλυψη της Apple;

Πριν περίπου ένα χρόνο, η εταιρεία Siri παρουσίασε μια πρωτότυπη… συνονόματη λύση αναγνώρισης φωνής. Σχεδόν αμέσως μετά, η Apple αγόρασε την εταιρεία και τόσο η ίδια όσο και η λύση της εξαφανίστηκαν από το προσκήνιο. Τώρα, η Apple ετοιμάζεται για τη μεγάλη νέα της αποκάλυψη, στο σημερινό event της. Μόνο που, από ό,τι φαίνεται, το “μεγάλο” της υπόθεσης δεν θα είναι ούτε κάποιο νέο iPhone (αν και θα δούμε και τέτοιο), ούτε κάποια νέα χαρακτηριστικά του iOS (αν και σίγουρα θα δούμε και από αυτά), αλλά η νέα έκδοση της τεχνολογίας της Siri.

Το ωραίο της υπόθεσης είναι πως η ίδια η Apple ουσιαστικά είχε αποκαλύψει το “για τι θα μιλήσει σήμερα”, σε σημείο που να… μας το έχει “τρίψει στη μούρη”, χωρίς να το έχουμε καταλάβει! Βλέπετε, ο “υπότιτλος” του event είναι “Let’s talk iPhone”, που στα Ελληνικά αποδίδεται ως “Ας μιλήσουμε (για το) iPhone”. Προσέξτε πως, στα Αγγλικά, δεν είναι υποχρεωτική η χρήση του “για το” ώστε “να βγάζει νόημα” η φράση. Έλα, όμως, που με την προσθήκη ενός απλού… κόμματος, η φράση γίνεται “Let’s talk, iPhone” και αποκτά “όλη την ουσία” της, αφού αποδίδεται όπως και ο τίτλος του θέματος μας: “Ας μιλήσουμε, iPhone”!

“Έξυπνη” αναγνώριση ομιλίας

Η τεχνολογία της Siri, λοιπόν, δεν διέφερε και τόσο από το Google voice search που είδαμε εδώ και καιρό τόσο στο iOS όσο και στο Android: “μιλάς στο κινητό σου” και αυτό “σου απαντά” με κάτι που ως ένα σημείο σχετίζεται με “ό,τι του είπες”. Αυτό γίνεται εφικτό μέσω ενός συνδυασμού αναγνώρισης φωνής και μερικής “τεχνητής ευφυίας”, αφού η συσκευή “ακούει” τη φωνή σου, την αντιστοιχεί σε κάποιες λέξεις, εκτιμά τις πιθανότητες “να είπες το Χ και όχι το Ψ”, “μαντεύει” ποιό είναι το σωστό και καταλήγει να σου παρουσιάζει αποτελέσματα. Δεν είναι κάτι το… συνταρακτικό – το είχαμε δει ως δυνατότητα ακόμη και σε κινητά δεκαετίας! Η σημαντική διαφορά είναι πως η προσέγγιση της Siri δεν “δηλώνει εξειδίκευση”, δεν “κάνει μόνο ένα πράγμα”, όπως είχαμε δει μέχρι σήμερα.

Για παράδειγμα, στα προαναφερθέντα “αρχαία” κινητά, ουσιαστικά ο χρήστης “αντιστοίχιζε φράσεις” σε κάποιες προκαθορισμένες λειτουργίες της συσκευής του. Μπορούσε να “αντιστοιχίσει” το όνομα “Μπάμπης” στο τηλέφωνο του ομώνυμου φίλου του, και τη φράση “κράτα σημείωση” σε ένα σημειωματάριο που ίσως είχε η συσκευή. Αργότερα, εμφανίστηκαν συσκευές που εμπεριείχαν εξαρχής “κανόνες”, αόρατους στο χρήστη, βάσει των οποίων “μάντευαν” το “τι είχε πει”, συγκρίνοντας “τη φωνή” -που μετέτρεπαν σε κείμενο- με “τα γραπτά” εντός του κινητού – είτε ήταν ονόματα, είτε λειτουργίες της συσκευής.

Η Google, με το Google voice search, προχώρησε αυτή την ιδέα ένα βήμα παραπέρα: εκμεταλλευόμενη το ότι το Android ήταν “μόνιμα συνδεδεμένο στο web”, “πάντρεψε” τη συσκευή με το software και τις online υπηρεσίες. Έτσι, κάθε smartphone είχε πρόσβαση σε άπειρους “κανόνες”, που αυτή τη φορά δεν “κατοικούσαν” στις ίδιες τις συσκευές, μα “στο Internet”, “στο cloud”. Αν, για παράδειγμα, πέντε αγγλόφωνοι χρήστες έλεγαν “I’d like to call the Queen” (“Θα ήθελα να καλέσω τη Βασίλισσα”), η “φράση” τους “ανέβαινε” από το smartphone τους στους servers της Google όπου και αναλυόταν.

Ακόμη και αν τα κινητά μόνο των 3 από αυτούς κατέληγαν να “καταλάβουν” το “τι ήθελαν να κάνουν”, αυτή η “στατιστική” σχετικά με την ανάλυση της φωνής, που είχε στη διάθεση της η Google, της επέτρεπε να βελτιώσει τη συγκεκριμένη τεχνολογία για τους επόμενους χρήστες. Έτσι, ακριβώς επειδή τώρα πια αυτή η δυνατότητα δεν “έπαιζε τοπικά”, δηλαδή “μόνο στη συσκευή”, μα στο Internet, στο Cloud, εκμεταλλευόμενη τα συλλογικά δεδομένα του πλήθους χρηστών του Android κατέληγε να αποδίδει εκπληκτικά.

Η Siri, λοιπόν, χρησιμοποιούσε ένα παραπλήσιο μοντέλο λειτουργίας: όπως και η Google voice search, μπορούσε να συγκρίνει τα δεδομένα των φωνητικών εντολών ανάμεσα σε διαφορετικούς χρήστες. Παράλληλα, “μάθαινε” από το “τι τις έλεγαν συχνότερα” και “με τι αντιστοιχούσε, τελικά, αυτό που τις έλεγαν”, ώστε να κάνει σωστότερες κινήσεις στο μέλλον, όσο περισσότερο την χρησιμοποιούσε κανείς.

Μια παλιά ιστορία

Κρατώντας αυτό κατά νου, ας κάνουμε μια μικρή παρένθεση: η Apple είχε παρουσιάσει και στο παρελθόν, πάλι και πάλι, ένα “όνειρο του μέλλοντος”, μια τεχνολογία και τεχνολογική πλατφόρμα που από τότε, και μέχρι σήμερα, δεν μπορούσε να υπάρξει. Έμοιαζε με tablet. Αναγνώριζε τα “αγγίγματα” αλλά και τις “εντολές” του χρήστη. Έμοιαζε “έξυπνη” και ακολουθούσε τις “προσταγές” του, ούτε λίγο ούτε πολύ, σαν ο δικός του, προσωπικός… butler. Με άλλα λόγια, η Apple ήξερε, εδώ και χρόνια, το “τι ήθελε να φτιάξει”, αλλά μέχρι σήμερα δεν είχε ούτε την τεχνολογία, ούτε την “υποδομή” για να το επιτύχει. Εδώ και λίγα χρόνια, με τα iPhone και iPad, απέκτησε το ήμισυ της εξίσωσης: την “τεχνολογία”. Της έλειπε το άλλο μισό, “η υποδομή”. Κρατήσατε “εκείνο που είπαμε”;

Τι άλλο, είπαμε, “ανοίγει τις πύλες του” αυτή την εβδομάδα από την Apple; Τι ήταν “αυτό που είχε η Google μα δεν είχε κάτι αντίστοιχο η Apple”, για να μπορεί να πραγματοποιήσει τα παραπάνω; Ω, ναι: το iCloud. Ένα ιντερνετικό δίκτυο στο οποίο θα μπορούν να αποθηκεύονται και να “κατοικούν” τα δεδομένα των χρηστών. Ένα ιντερνετικό δίκτυο που θα συνδέει όλες τις συσκευές της Apple μεταξύ τους. Ένα ιντερνετικό δίκτυο που αν και “δεν κάνει ό,τι αυτό της Google”, μπορεί να χρησιμοποιηθεί με παραπλήσιους τρόπους. Ένας από αυτούς θα μπορούσε να είναι “η μαζική ανάλυση φωνητικών εντολών των χρηστών με στόχο την καλύτερη αναγνώριση του τι λένε”. Δεν θα μπορούσε;

Case closed…

Source:

Buzz surrounding Apple’s Tuesday event has never been higher, as consumers eagerly await the announcement of the next generation iPhone. But the new hardware could take a back seat to a bigger announcement: a potential voice control software feature that could be released with the latest version of iOS 5.

...γνωστός και ως Οδυσσέας Κουράφαλος, αρχικός υπεύθυνος για το unregistered. Συντάκτης, γραφίστας, "μαλτιμηντιάς", φανατικός της science fiction και των αστείων γατιών στου ιντερνέτ. "Δηλώνω graphics whore" (παίζω Ms. Pac-Man στο MAME με 2xSAL και το πρώτο Max Payne με FXAA antialiasing). Load "unreg*",8,1.