Ciencia y Tecnología

Voces que ordenan y mandan

No sólo acabarán con los mandos a distancia, sino que transformarán por completo la manera mediante la que las personas se relacionan con la tecnología.

La limitación más importante del uso de la voz como interface es la necesidad de entender el contexto para comprender el significado
La limitación más importante del uso de la voz como interface es la necesidad de entender el contexto para comprender el significadolarazon

No sólo acabarán con los mandos a distancia, sino que transformarán por completo la manera mediante la que las personas se relacionan con la tecnología.

La voz sirve para preguntar, buscar, escribir, ordenar, consultar, mandar, dirigir, actuar... Permite, sin mover un dedo, ni necesidad de levantarse, encender y apagar las luces, o la calefacción. Poner música. Subir y bajar el volumen de la televisión. Levantar las persianas. Abrir la puerta. Saber qué tiempo hará. Conocer el tráfico en una carretera concreta a una hora determinada. Descubrir el trayecto más corto. Y un largo etcétera. Siri, Cortana, Alexa o Google Home son buenos ejemplos de su inmenso potencial.

No sólo acabará con los mandos a distancia y con todo tipo de botones para poner en marcha los electrodomésticos o los aparatos electrónicos que se tengan en casa, sino que transformará por completo la manera mediante la que las personas se relacionan con la tecnología. Y si no, véase como cada día se envían por WhatsApp más audios y menos mensajes de texto.

AL volante

Si bien es cierto que en España el 20% de las búsquedas a través de los smartphones ya son por voz, en Estados Unidos, entre los más jóvenes, ese porcentaje escala por encima del 50%. No hay más que observar la forma en que los niños utilizan los teléfonos móviles para comprobar que su uso descansa mucho más en la voz que en el caso de los adultos y que están menos acostumbrados a utilizar los teclados.

Como ejemplo ilustrativo también valdrían las nuevas costumbres y hábitos al volante, ya que cada vez más vehículos incorporan sistemas de control por voz. Muchos coches de Volkswagen, por ejemplo, ya permiten la posibilidad de controlar el navegador a través de la voz para evitar tener que usar las manos a la hora de programarlos –está prohibido cuando el vehículo se encuentra en marcha–, así como la opción de realizar llamadas con comandos de voz.

Por otra parte, los coches de la marca alemana equipan App-Connect, que integra Android Auto y Apple Car Play, para usar el sistema de reconocimiento de voz propio del smartphone del conductor –como Siri, en el caso de Apple– para manejar ambos sistemas, lo que incluye llamadas, programar los sistemas de navegación de Google o Apple o poner música.

Herramienta de interface

Además, Siri se puede usar de la misma manera que en el teléfono, de forma que es posible informarse, por ejemplo, del resultado del Clásico que hoy se disputa entre el Real Madrid y el Barcelona mientras se conduce, sin tener que desviar la atención de la carretera, ni estar obligados a usar las manos.

Nadie duda de que en la medida en que las tecnologías de reconocimiento de voz se generalicen y en que los últimos avances estén disponibles para su uso masivo, la voz crecerá en importancia como herramienta de interface. Y, según Esteve Almirall, profesor del Departamento de Operaciones, Innovación y Data Sciences de ESADE, son dos las razones que apuntan a ello. En primer lugar, destaca la enorme resistencia creada para su masificación, para lo que recuerda el caso de la disposición actual de los teclados, que está pensada para enlentecer la escritura.

Además, añade que aunque los ordenadores sean capaces de transcribir la voz mejor que los humanos, aún no disponen de la capacidad para entender su significado, un factor que limita ampliamente tanto la aplicabilidad como la extensión del uso de la voz. Consecuentemente, Almirall considera que tendremos, pues, el uso de la voz en muchos campos, pero que coexistirá con otros interfaces.

Aplicaciones simples

El experto de ESADE piensa que, dentro de no mucho tiempo, todas aquellas acciones que correspondan a aplicaciones simples y con poco contexto –desde subir o bajar la calefacción hasta escribir artículos, cambiar de canal, buscar una calle o una receta de cocina en Google– podrán realizarse mediante la voz a medida que su disponibilidad se generalice, gracias a la masiva adopción del «cloud computing» y al hecho de que las rutinas de reconocimiento de voz estén disponibles para todos los desarrolladores.

Sin embargo, advierte de que la limitación más importante del uso de la voz como interface es la necesidad de entender el contexto para comprender el significado. «Es sencillo apagar o encender las luces, aminorar su potencia, cambiar de canal, escribir sin teclado o comprar agua embotellada, pero resulta más difícil editar una película, retocar una foto o hacer una presentación de power-point o keynote». Almi-rall sostiene que todas estas operaciones requieren descripciones más complejas y una comprensión del contexto que las primeras no necesitan.