Háblale a Google con tu Iphone

 

Siguiendo adelante con su esfuerzo, que ya lleva una década, por hacer que las computadoras comprendan la voz de los seres humanos, los investigadores de Google agregaron una sofisticada tecnología de reconocimiento de voz al software de búsqueda de la compañía para el iPhone de Apple.

Los usuarios de la aplicación gratuita que, se espera, Apple lance al mercado el viernes en su local iTunes, pueden colocar el teléfono en sus orejas y hacer cualquier pregunta de manera virtual. Entre dichas preguntas, figuran las siguientes: “¿Dónde queda el Starbucks más cercano?” o “¿Qué altura tiene el Monte Everest?” Mediante esta tecnología, el sonido se convierte a un archivo digital y luego se lo envía a los servidores de Google, los cuales tratan de decidir cuáles son las palabras que se dijeron y transmitirlas al motor de búsqueda de Google.

Algunas veces, los resultados de la búsqueda, que se pueden mostrar en apenas segundos en una red inalámbrica veloz, incluirán información local; esto lo harán aprovechando las ventajas que ofrece iPhone para determinar la ubicación.

La capacidad de reconocer prácticamente cualquier frase de cualquier persona ha sido durante mucho tiempo la meta suprema de los investigadores que se dedican a la inteligencia artificial y que buscan maneras de hacer que las interacciones entre el hombre y las máquinas sean más naturales. Los sistemas que pueden hacerlo recientemente se han convertido en productos comerciales.

 

Tanto Yahoo como Microsoft ya ofrecen servicios de voz para teléfonos móviles. El servicio Tellme de Microsoft brinda información en categorías específicas como: direcciones, mapas y películas. Por otro lado, oneSearch, de Yahoo, con Voice, es más flexible pero no parece ser tan preciso como lo que ofrece Google. El sistema de Google está lejos de ser perfecto y puede brindar resultados que pueden parecer poco entendibles. Los ejecutivos de Google se negaron a estimar en cuánto tiempo el servicio funcionará correctamente, pero dijeron que creen que era lo suficientemente preciso como para resultar útil a la gente que desea ingresar sus preguntas mediante el teclado táctil de iPhone.

 

Se puede utilizar el servicio para conocer recomendaciones sobre restaurantes y direcciones al conducir un automóvil y también se pueden buscar contactos en la libreta de direcciones de iPhone o simplemente entablar una discusión en un bar. Para la pregunta: “¿Cuál es la mejor pizzería en Noe Valley?”, aparece una lista de tres pizzerías ubicadas en ese vecindario de San Francisco, cada uno de ellas con reseñas de parte de los usuarios de Google y vínculos para hacer clic y obtener números de teléfono y direcciones.

 

Raj Reddy, un investigador dedicado a la inteligencia artificial, en la Universidad Carnegie Mellon, quien ha sido pionero en los trabajos relacionados con el reconocimiento de la voz, dijo que la ventaja que tiene Google en este campo es la capacidad para almacenar y analizar grandes cantidades de datos. “Cualquier cosa que se introduzca ahora, aumentará ampliamente su precisión en tres o seis meses”, afirmó.

 

“Es importante comprender que el reconocimiento a través de una máquina nunca será perfecto”, agregó Reddy. “La pregunta es ?¿qué tanto es posible acercarse a lo que puede hacer un ser humano??”. Para Google, la tecnología es crucial para su nueva incursión en el mundo de la publicidad. Los ejecutivos de la firma dijeron que las preguntas sobre direcciones harían posible cobrar tarifas más elevadas por avisos de negocios cercanos, por ejemplo, aunque ahora no están vendiendo dichos anuncios.

 

Al igual que con otros productos de Google, el servicio es gratuito para los consumidores y la compañía planea que esté disponible para otros teléfonos que no sean iPhone.

 

“Estamos aumentando drásticamente el valor para los anunciantes a través de la localización y de la voz”, dijo Vic Gundotra, un ex ejecutivo de Google que ahora es jefe de los negocios de telefonía móvil de la firma.

 

Google es la única compañía que trabaja para desarrollar capacidades de reconocimiento de voz más avanzadas. La famosa tecnología de respuesta de voz ahora se utiliza rutinariamente en los sistemas de los contestadores automáticos de los teléfonos y en otros servicios y productos para el consumidor. Estos sistemas, sin embargo, con frecuencia tienen problemas relacionados con las complejidades del lenguaje de forma libre y generalmente ofrecen únicamente una gama limitada de respuestas a las preguntas.

 

Hace algunas semanas, Adobe agregó una tecnología de reconocimiento de voz desarrollada por Autonomy, una firma británica, a su software Creative Suite, la cual le permitió generar transcripciones de grabaciones de audio y video con un alto grado de precisión.

 

Gundotra dijo que Google había estado abordando los problemas de ingresar y recuperar información mediante dispositivos móviles inalámbricos.

 

“Nuestra meta es resolver esos dos problemas con calidad”, dijo.

 

La capacidad de búsqueda del nuevo iPhone no es la primera oferta de Google relacionada con el lenguaje. En marzo, la firma anunció que GOOG-411, un servicio experimental de información sobre directorios telefónicos, se transformó en un producto real. El servicio permite a los usuarios solicitar información acerca de telefonía comercial y direcciones. La empresa afirmó que se había basado en su experiencia y en los datos que reunió a través de GOOG-411 para desarrollar el servicio iPhone.

El nuevo servicio es un ejemplo de la manera en la cual Google trata de combinar la investigación sobre ciencia informática básica con la ingeniería. La empresa contrató a muchos de los mejores investigadores del mundo en el área del reconocimiento de voz y ahora cuenta con equipos que trabajan en diferentes aspectos del problema en Nueva York, Londres y también en sus oficinas centrales, ubicadas en Mountain View, California.

 

Un investigador de Google, en Londres, contribuyó con una parte intrigante del diseño total del servicio. Dicho investigador descubrió una manera de usar el acelerómetro de iPhone (el dispositivo que detecta cómo se sostiene el teléfono) para configurar el software en el modo “escuchar” cuando el usuario lleva el teléfono hacia su oreja.

Los investigadores de Google dijeron que otra de sus ventajas respecto de sus competidores eran los miles de millones de preguntas que sus usuarios han realizado a lo largo de los años.

“Una cosa que ha cambiado es la cantidad de cálculos y la cantidad de datos disponibles”, señaló Mike Cohen, un investigador que fue co-fundador de Nuance Communications antes de trabajar en Google.

Se pueden utilizar las preguntas efectuadas en el pasado para construir un modelo estadístico de la manera en la cual las palabras se unen, relató Cohen. Éste es apenas uno de los componentes del sistema de reconocimiento de voz, el cual también incluye un modelo de análisis del sonido y un mecanismo que sirve para unir los componentes básicos del lenguaje con las palabras reales.

Recientemente, Google publicó un informe técnico sobre la construcción de grandes modelos para la traducción de idiomas por medio de máquinas. Los investigadores escribieron que habían “entrenado” al sistema con dos quintillones de “fichas”, o palabras.

Via| La Nación

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s