El reconocimiento de voz no es nada nuevo. Los electrónicos de consumo, autos y centros de llamadas automatizadas han estado 'escuchando' comandos desde hace años. Google ha estado transcribiendo mensajes de voz desde 2009, y Microsoft incluyó una tecnología similar en Windows Vista tres años antes de eso. Entonces, ¿cuál es la novedad de la nueva asistente personal virtual de Apple llamada Siri?
Ella te comprende.
En otras palabras, Siri no es sólo tecnología de reconocimiento de voz, sino comprensión de voz; y eso está cambiando la forma en que los usuarios interactúan con sus dispositivos móviles. Ahora, muchos predicen que Siri podría proporcionar un importante impulso a una tecnología perpetuamente inminente, de la misma manera en que los controles táctiles de Apple volcaron esa tecnología al uso popular. Eso podría despejar el camino para una amplia gama de aplicaciones innovadoras. La industria de reconocimiento de voz registró un valor de 2,700 millones de dólares este año, según Opus Research. Esta firma prevé un auge post-Siri en 2012.
¿Qué hace a Siri tan diferente? La exactitud, de acuerdo con Tim Bajarin, presidente de estrategia de la firma Creative Strategies. "Lo que realmente ha introducido Siri es la próxima interfaz hombre-máquina, y está teniendo un impacto significativo en el mercado de la comprensión y precisión del lenguaje", dice Bajarin.
Siri no es perfecto, por supuesto. La tecnología todavía tiene dificultades para entender algunos acentos, y Apple ha luchado por solucionar problemas técnicos tempranos. Sin embargo, para ser una pieza de software, lo hace bastante bien. La clave para ello, de acuerdo con los creadores originales del programa (el laboratorio de investigación SRI International con sede en Menlo Park, California) es el procesamiento del lenguaje natural. En esencia, toma señales de voz, las traduce directamente en el texto que los usuarios ven en sus pantallas y acota esos términos contra uno de sus comandos pre-programados, tales como realizar una llamada o escribir un mensaje de texto.
Esa tecnología tiene potencial fuera de las tablets y los teléfonos inteligentes. Nuance, el creador del software de reconocimiento de voz Dragon, ha estado trabajando en el cuidado de la salud desde hace una década. El último programa de Nuance se ejecuta en el escritorio de un médico, grabando voz mediante un micrófono de solapa.
El programa actualiza los registros electrónicos de salud del paciente a medida que las citas se realizan. "Un segundo, el paciente podría estar hablando sobre la historia médica de su madre, y al siguiente, están hablando sobre su padre. Y la aplicación entiende eso", dice Joe Petro, vicepresidente senior de Investigación y Desarrollo en la división de Cuidado de la Salud de Nuance Comunication.
¿Cómo? Al igual que Siri, la aplicación de Nuance -que está siendo utilizada por 450,000 médicos de todo Estados Unidos- extrae significado de las palabras que reconoce, buscando referencias en una base de datos de información médica para luego compararlos con los antecedentes del paciente.
A continuación, utiliza la inferencia estadística para establecer una conexión entre las piezas de información que descubre, e incluso realiza sugerencias sobre el tratamiento. Petro dice que la tecnología es precisa en más del 90% y mejora con el tiempo. Ciertamente ha funcionado para el balance de la empresa, tanto es así que Nuance decidió elevar sus proyecciones de ingresos para el cuarto trimestre en 10 millones de dólares.
Los investigadores tienen esperanzas aún mayores para el futuro. Skip Rizzo, director asociado del Instituto de Tecnologías Creativas de la Universidad Southern California, está trabajando en una tecnología de simulación interactiva diseñada para ayudar a los veteranos militares a buscar asesoría para el trastorno de estrés post-traumático.
Llamado SimCoach, el programa eventualmente intentará leer la emoción detrás de las palabras habladas. "Es un reto muy, muy grande. Porque lo que estamos haciendo es capturar los patrones vocales, entonces debes analizarlos como lo haría un cerebro", dice Rizzo. Mientras que los humanos pueden ser capaces de saber cuando algo está mal con un amigo o un miembro de la familia, debido a que su forma de hablar es más lenta o con menos énfasis, una computadora puede tener dificultades para detectar estas señales, dice Rizzo.
Algunas investigaciones podrían traer resultados más pronto. La primavera pasada, el compañero de investigación de Rizzo, el profesor del MIT Alex Pentland, experimentó con una tecnología de inferencia de voz similar a la del centro de llamadas de Bank of America, analizando cómo la comunicación de los empleados afectaba el éxito del negocio.
Pentland hizo que algunos empleados usaran pequeñas tarjetas de identificación electrónicas alrededor de sus cuellos durante seis semanas, las cuales rastreaban su ubicación física y así como su lenguaje corporal y voz. Los datos mostraron con quién interactuaba una persona, lo cerca que estaba de ella y el tono de su conversación. "Hemos encontrado que las personas más productivas fueron las personas que no sólo hablaban con mucha gente, sino que hablaban con compañeros de trabajo que de igual forma hablaban con mucha gente", dice Pentland. Simplemente al cambiar el horario de comida del empleado para que coincida mejor con el de otro, el centro de llamadas podría ahorrar 15 millones de dólares al año, dice Pentland.
La atención que los consumidores están poniendo en Siri probablemente beneficiará este tipo de investigación. e impulsara aún más su adopción. "El reconocimiento de voz es realmente el Santo Grial de la tecnología", dice Rizzo. "Estamos 90% allí, pero el 10% restante es mucho más difícil de manejar. Y cuando el punto de inflexión se alcance, será un mercado gigante". Parece que Siri bien podría ser el punto de inflexión.
No hay comentarios:
Publicar un comentario