Capítulo 1. Cómo interactúan los humanos con los ordenadores
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En este capítulo, exploramos lo siguiente:
-
Antecedentes de la historia de las modalidades persona-ordenador
-
Una descripción de las modalidades habituales y sus pros y contras
-
Los ciclos de retroalimentación entre humanos y ordenadores
-
Asignación de modalidades a las aportaciones actuales de la industria
-
Una visión holística del ciclo de retroalimentación de un buen diseño inmersivo
Término común Definición
Utilizo los siguientes términos de estas formas específicas que suponen un elemento perceptible por el ser humano:
- Modalidad
-
Un canal de entrada y salida sensorial entre un ordenador y un ser humano
- Asequibilidad
-
Atributos o características de un objeto que definen sus usos potenciales
- Entradas
- Salidas
-
Una reacción perceptible a un acontecimiento; los datos enviados desde el ordenador
- Comentarios
-
Un tipo de salida; una confirmación de que la otra parte se ha dado cuenta de lo que has hecho y ha actuado en consecuencia
Introducción
En el juego Veinte Preguntas, tu objetivo es adivinar en qué objeto está pensando otra persona. Puedes preguntar lo que quieras, y la otra persona debe responder con la verdad; el truco está en que responden a las preguntas utilizando sólo una de las dos opciones: sí o no.
Por una serie de casualidades e interpolaciones, la forma en que nos comunicamos con los ordenadores convencionales es muy parecida a la de Veinte Preguntas. Los ordenadores hablan en binario, unos y ceros, pero los humanos no. Los ordenadores no tienen un sentido inherente del mundo ni, de hecho, de nada fuera del binario o, en el caso de los ordenadores cuánticos, de las probabilidades.
Por eso, comunicamos todo a los ordenadores, desde los conceptos hasta las entradas, mediante niveles crecientes de abstracción amigable para el ser humano que encubren la capa básica de comunicación: unos y ceros, o sí y no.
Así pues, gran parte del trabajo de la informática actual consiste en determinar cómo conseguir que los humanos expliquen fácil y sencillamente a los ordenadores ideas cada vez más complejas. A su vez, los humanos también trabajan para que los ordenadores procesen esas ideas más rápidamente, construyendo esas capas de abstracción sobre los unos y los ceros. Es un ciclo de entrada y salida, asequibilidades y retroalimentación, a través de las modalidades. Las capas de abstracción pueden adoptar muchas formas: las metáforas de una interfaz gráfica de usuario, las palabras habladas del procesamiento del lenguaje natural (PLN), el reconocimiento de objetos de la visión por ordenador y, lo más sencillo y común, las entradas cotidianas del teclado y el puntero, que la mayoría de los humanos utilizamos para interactuar con los ordenadores a diario.
Modalidades a través de los tiempos: Antes del siglo XX
Para empezar, hablemos brevemente de cómo los humanos han dado tradicionalmente instrucciones a las máquinas. Las primeras máquinas protoinformáticas, telares programables, eran famosas por "leer" tarjetas perforadas. Joseph Jacquard creó lo que fue, en efecto, una de las primeras piezas de verdadero arte mecánico, un retrato de sí mismo, utilizando tarjetas perforadas en 1839(Figura 1-1). Por la misma época, en Rusia, Semyon Korsakov se había dado cuenta de que las tarjetas perforadas podían utilizarse para almacenar y comparar conjuntos de datos.
Las tarjetas perforadas pueden contener cantidades significativas de datos, siempre que éstos sean lo suficientemente coherentes como para ser leídos por una máquina. Y aunque los bolígrafos y herramientas manuales similares son fantásticos para tareas específicas, ya que permiten a los humanos expresar información rápidamente, el antebrazo y los tendones de los dedos del ser humano medio carecen de la capacidad de producir de forma coherente formas casi idénticas todo el tiempo.
Esto es un problema conocido desde hace mucho tiempo. De hecho, desde el siglo XVII -es decir, en cuanto se dispuso de la tecnología- la gente empezó a fabricar teclados. La gente inventó y reinventó teclados por todo tipo de razones; por ejemplo, para luchar contra la falsificación, para ayudar a una hermana ciega y para mejorar los libros. Disponer de un plano de apoyo sobre el que apoyar las manos y las muñecas permitía un movimiento inconsistente para obtener resultados consistentes, imposibles de conseguir con el bolígrafo.
Como ya se ha dicho, los protoordenadores tenían una motivación igualmente convincente: los ordenadores necesitan datos físicos muy consistentes, y a los humanos nos resulta incómodo fabricar datos consistentes. Así que, aunque pueda parecer sorprendente en retrospectiva, a principios del siglo XIX, las máquinas de tarjetas perforadas, que aún no eran los monstruos de cálculo en que se convertirían, ya tenían teclados acoplados, como se muestra en la Figura 1-2.
Los teclados han estado unidos a los dispositivos informáticos desde el principio, pero, por supuesto, se extendieron a las máquinas de escribir antes de volver a unirse cuando ambas tecnologías se fusionaron. Lo impetuoso estaba igualmente ligado a la constancia y a la fatiga humana. De Wikipedia:
A mediados del siglo XIX, el ritmo creciente de la comunicación empresarial había creado la necesidad de mecanizar el proceso de escritura. Los taquígrafos y telegrafistas podían anotar información a velocidades de hasta 130 palabras por minuto.
En cambio, escribiendo con un bolígrafo sólo consigues unas 30 palabras por minuto: pulsar un botón era sin duda la mejor solución alfanumérica.
El siglo siguiente lo pasamos intentando perfeccionar el concepto básico. Características posteriores, como la adición de la tecla Mayús, mejoraron sustancialmente y racionalizaron el diseño y el tamaño de las primeras máquinas de escribir.
Quiero detenerme un momento aquí para señalar el problema más general que todo el mundo intentaba resolver con el uso de las máquinas de escribir, y concretamente con el teclado como entrada: al más alto nivel, la gente quería plasmar sus ideas con mayor rapidez y precisión. Recuerda esto; es un tema constante en todas las mejoras de las modalidades.
Modalidades a través de los tiempos: Hasta la Segunda Guerra Mundial
Esto en cuanto a los teclados, que, como acabo de señalar, han estado con nosotros desde que los humanos intentaron comunicarse con sus máquinas. A partir de principios del siglo XX -es decir, tan pronto como la metalurgia y las técnicas de fabricación lo permitieron- ofrecimos a las máquinas una forma de comunicarse, de dialogar con sus operadores antes de la costosa fase de producción física: los monitores y las pantallas, un campo que se benefició de importantes investigaciones y recursos en tiempos de guerra a través de los presupuestos militares.
Las primeras pantallas de ordenador no mostraban palabras: los primeros paneles de ordenador tenían pequeñas bombillas que se encendían y apagaban para reflejar estados específicos, lo que permitía a los ingenieros monitorizar el estado del ordenador -y dio lugar al uso de la palabra "monitor". Durante la Segunda Guerra Mundial, las agencias militares utilizaron pantallas de tubo de rayos catódicos (CRT) para los visores de radar, y poco después de la guerra, los CRT empezaron su vida como pantallas informáticas de vectores, y más tarde de texto, para grupos como SAGE y la Marina Real.
Tan pronto como las máquinas de computación y monitoreo tuvieron pantallas, dispusimos de entradas específicas de pantalla para acompañarlas. Los joysticks se inventaron para los aviones, pero su uso para pilotar aviones a distancia se patentó en Estados Unidos en 1926. Esto demuestra una curiosa peculiaridad de la fisiología humana: somos capaces de reasignar instintivamente la propiocepción -nuestrosentido de la orientación y colocación de nuestro cuerpo- a nuevos volúmenes y ángulos planos (ver Figura 1-3). Si no pudiéramos hacerlo, sería imposible utilizar un ratón en un escritorio en el plano Z para mover el ancla del ratón en el X. Y, sin embargo, podemos hacerlo casi sin pensarlo, aunque algunos de nosotros tendríamos que invertir la rotación de los ejes para imitar nuestras propias asignaciones internas.
Modalidades a través de los tiempos: Después de la Segunda Guerra Mundial
Los joysticks salieron rápidamente de los aviones y se colocaron junto a las pantallas de radar y sonar durante la Segunda Guerra Mundial. Inmediatamente después de la guerra, en 1946, se inventó la primera entrada específica para pantallas. Ralph Benjamin, ingeniero de la Marina Real Británica, concibió el rollerball como alternativa a las entradas de joystick existentes: "El elegante rastreador de bolas está de pie junto a la pantalla de dirección de su avión. Tiene una bola, que sostiene en la mano, pero su joystick se ha marchitado". La indicación parece ser que la bola podría sostenerse en la mano en lugar de colocarse sobre un escritorio. Sin embargo, la realidad de la fabricación en 1946 significaba que el rodillo original era una bola de bolos de tamaño normal. Como era de esperar, la poco manejable rollerball de 3 kilos no sustituyó al joystick.
Esto nos lleva a las cinco reglas de la popularidad de las entradas informáticas. Para despegar, las entradas deben tener las siguientes características:
-
Barato
-
Fiable
-
Cómodo
-
Disponer de un software que lo utilice
-
Tener una tasa de error de usuario aceptable
Esto último puede amortizarse con un buen diseño de software que permita acciones no destructivas, pero cuidado: a partir de cierto punto, incluso los errores benignos pueden resultar molestos. La autocorrección en las pantallas táctiles es un gran ejemplo de error del usuario que a menudo supera las capacidades del software.
Aunque el ratón rollerball no alcanzaría la ubicuidad hasta 1984, con el surgimiento del ordenador personal, muchos otros tipos de entradas que se utilizaban con los ordenadores salieron del ejército a mediados de la década de 1950 y pasaron al sector privado: joysticks, botones y conmutadores y, por supuesto, el teclado.
Puede que te sorprenda saber que los lápices ópticos son anteriores al ratón. El lápiz óptico, o pistola, creado por SAGE en 1955, era un lápiz óptico que se sincronizaba con los ciclos de actualización de los CRT y podía utilizarse para interactuar directamente en los monitores. Otra opción parecida al ratón, el Grafacon de Data Equipment Company, se parecía a un bloque sobre un pivote que podía girarse para mover el cursor. Incluso se trabajó en comandos de voz ya en 1952 con el sistema Audrey de los Laboratorios Bell, aunque sólo reconocía 10 palabras.
En 1963, ya existía el primer software gráfico que permitía a los usuarios dibujar en el monitor del TX-2 del Laboratorio Lincoln del MIT, Sketchpad, creado por Ivan Sutherland en el MIT. GM e IBM tenían una empresa conjunta similar, el Design Augmented by Computer, o DAC-1, que utilizaba una pantalla de capacitancia con un lápiz metálico, más rápido que el lápiz óptico, que requería esperar a que el CRT se refrescara.
Por desgracia, tanto en el bolígrafo ligero como en el estuche metálico para lápices, las pantallas estaban en posición vertical, por lo que el usuario tenía que mantener el brazo levantado para introducir datos, lo que se conoció como el infame "brazo de gorila". Gran ejercicio, pero mala ergonomía. La corporación RAND se había dado cuenta de este problema y llevaba años trabajando en una solución para la tableta y el lápiz óptico, pero no era barata: en 1964, el lápiz óptico RAND -confusamente, más tarde también comercializado como Grafacon- costaba unos 18.000 $ (unos 150.000 $ en dólares de 2018). Pasaron años antes de que la combinación de tableta y stylus despegara, mucho después de que se popularizara el ratón y el sistema de interfaz gráfica de usuario (GUI).
En 1965, Eric Johnson, del Royal Radar Establishment, publicó un artículo sobre dispositivos de pantalla táctil capacitiva y pasó los años siguientes escribiendo casos de uso más claros sobre el tema. Lo recogieron los investigadores de la Organización Europea para la Investigación Nuclear (CERN), que crearon una versión operativa en 1973.
En 1968, Doug Engelbart estaba listo para mostrar el trabajo que su laboratorio, el Centro de Investigación de Aumento, llevaba haciendo en el Instituto de Investigación de Stanford desde 1963. En una sala bajo el Centro Cívico de San Francisco, , hizo una demostración del Sistema oNLine (NLS) de su equipo, con una serie de funciones que ahora son estándar en la informática moderna: control de versiones, conexión en red, videoconferencia, correos electrónicos multimedia, ventanas múltiples e integración del ratón de trabajo, entre muchas otras. Aunque la NLS también requería un teclado acorde y un teclado convencional para la entrada de datos, el ratón se menciona ahora a menudo como una de las innovaciones clave. De hecho, en la propia investigación del equipo de Engelbart, el ratón de la NLS tenía una capacidad de uso similar a la del lápiz óptico o el sistema de introducción de datos con la rodilla, propiedad de ARC. Tampoco era el único: El fabricante alemán de radio y televisión Telefunken lanzó un ratón con su RKS 100-86, el Rollkugel, que de hecho estaba en producción comercial el año en que Engelbart anunció su prototipo.
Sin embargo, no cabe duda de que Engelbart popularizó la noción de la entrada asimétrica de forma libre en el ordenador. El diseñador real del ratón en ARC, Bill English, también señaló una de las verdades de las modalidades digitales al concluir su artículo de 1967, "Display-Selection Techniques for Text Manipulation":
[Parece poco realista esperar una afirmación rotunda de que un dispositivo es mejor que otro. Los detalles del sistema de uso en el que se va a integrar el dispositivo marcan demasiada diferencia.
No importa lo bueno que sea el hardware, el aspecto más importante es cómo interpreta el software la entrada del hardware y la normaliza según la intención del usuario.
Nota
Para saber más sobre cómo el diseño del software puede afectar a la percepción de las entradas por parte del usuario, recomiendo encarecidamente el libro Game Feel: A Game Designer's Guide to Virtual Sensation, de Steve Swink (Morgan Kaufmann Game Design Books, 2008). Como cada juego tiene su propio mundo y su propio sistema, la "sensación" de las entradas puede replantearse. Hay menos margen de maniobra para la innovación en los sistemas operativos informáticos estándar, que deben resultar familiares por defecto para evitar la sobrecarga cognitiva.
Otro aspecto de los avances tecnológicos digno de mención de la década de 1960 fue el auge de la ciencia ficción, y por tanto de la informática, en la cultura popular. Programas de televisión como Star Trek (1966-1969) retrataron el uso de comandos de voz, telepresencia, relojes inteligentes y ordenadores en miniatura. 2001: Una Odisea del Espacio (1968) mostró un pequeño dispositivo informático personal de aspecto muy similar a los iPads de hoy en día, así como comandos de voz, videollamadas y, por supuesto, una inteligencia artificial muy famosa. El dibujo animado Los Jetsons (1962-1963) tenía relojes inteligentes, así como coches sin conductor y asistencia robótica. Aunque la tecnología no era común o ni siquiera estaba disponible, la gente se estaba aclimatando a la idea de que los ordenadores serían pequeños, ligeros, versátiles y tendrían usos mucho más allá de la introducción de texto o los cálculos.
La década de 1970 fue la anterior a la informática personal. Empezaron a producirse comercialmente consolas de videojuegos domésticas y despegaron los salones recreativos. Los ordenadores eran cada vez más asequibles, estaban disponibles en las mejores universidades y eran más comunes en los espacios comerciales. Los joysticks, los botones y los toggles dieron fácilmente el salto a las entradas de los videojuegos y comenzaron su propia y separada trayectoria como controladores de juegos. El famoso Centro de Investigación de Palo Alto de Xerox Corporation, o PARC, empezó a trabajar en un ratón integrado y un sistema de trabajo informático con interfaz gráfica llamado Alto. El Alto y su sucesor, el Star, tuvieron una gran influencia en la primera oleada de ordenadores personales fabricados por Apple, Microsoft, Commodore, Dell, Atari y otros a principios y mediados de la década de 1980. PARC también creó un prototipo del KiddiComp/Dynabook de Alan Kay de 1968, uno de los precursores de la tableta informática moderna.
Modalidades a través de los tiempos: El auge de la informática personal
A menudo, la gente piensa en el ratón y la GUI como una incorporación enorme e independiente a las modalidades informáticas. Pero incluso en los años 70, Summagraphics fabricaba combinaciones de tableta y lápiz óptico de gama baja y alta para ordenadores, una de las cuales se etiquetó en blanco para el Apple II como Apple Graphics Tablet, lanzada en 1979. Era relativamente cara y sólo estaba soportada por unos pocos tipos de software, lo que infringía dos de las cinco reglas. En 1983, HP lanzó el HP-150, el primer ordenador con pantalla táctil. Sin embargo, la fidelidad de seguimiento era bastante baja, violando la regla del error del usuario.
Cuando el ratón se incluyó por primera vez en los paquetes de los ordenadores personales (1984-1985), era compatible con el sistema operativo (SO), que a su vez estaba diseñado para aceptar la entrada del ratón. Este fue un punto de inflexión clave para los ordenadores: el ratón ya no era una entrada opcional, sino esencial. En lugar de ser una curiosidad o un periférico opcional, ahora los ordenadores debían incluir tutoriales que enseñaran a los usuarios a utilizar el ratón, como se ilustra en la Figura 1-4, de forma parecidaa como los videojuegos incluyen un tutorial que enseña a los jugadores cómo se asignan las acciones del juego a los botones del mando.
Es fácil echar la vista atrás a la década de 1980 y pensar que el ordenador personal fue una innovación independiente. Pero, en general, hay muy pocas innovaciones en informática que hayan hecho avanzar el campo por sí solas en menos de una década. Incluso las innovaciones más famosas, como FORTRAN, tardaron años en popularizarse y comercializarse. Mucho más a menudo, la fuerza impulsora de la adopción -de lo que parece una nueva innovación- es simplemente el resultado de que la tecnología cumpla por fin las cinco reglas antes mencionadas: ser barata, fiable, cómoda, disponer de software que haga uso de la tecnología y tener una tasa de error aceptable para el usuario.
Es muy frecuente descubrir que la primera versión de lo que parece ser una tecnología reciente se inventó en realidad hace décadas o incluso siglos. Si la tecnología es lo suficientemente obvia como para que varias personas intenten construirla pero sigue sin funcionar, es probable que esté fallando en una de las cinco reglas. Simplemente debe esperar hasta que la tecnología mejore o los procesos de fabricación se pongan al día.
Este tópico se ejemplifica, por supuesto, en la historia de la realidad virtual (RV) y la realidad aumentada (RA). Aunque las primeras pantallas estereoscópicas montadas en la cabeza (HMD) de fueron ideadas por Ivan Sutherland en la década de 1960 y se han utilizado en la NASA de forma rutinaria desde la década de 1990, no fue hasta que los campos de la electrónica móvil y las potentes unidades de procesamiento gráfico (GPU) mejoraron lo suficiente como para que la tecnología estuviera disponible a un precio comercialmente aceptable, décadas después. Incluso hoy en día, los HMD autónomos de gama alta cuestan miles de dólares o no están disponibles comercialmente. Pero al igual que ocurría con los smartphones a principios de la década de 2000, podemos ver un camino claro desde el hardware actual hasta el futuro de la informática espacial.
Sin embargo, antes de sumergirnos en el hardware actual, terminemos de trazar el camino desde los PC de principios de los 80 hasta los tipos de ordenador más comunes hoy en día: el smartphone.
Modalidades a través de los tiempos: La miniaturización de los ordenadores
Los ordenadores con hardware miniaturizado surgieron de las industrias de calculadoras y ordenadores ya en 1984, con el Psion Organizer. El primer ordenador tablet de éxito fue el GriDPad, lanzado en 1989, cuyo vicepresidente de investigación, Jeff Hawkins, pasó más tarde a fundar la PalmPilot. Apple lanzó el Newton en 1993, que tenía un sistema de introducción de caracteres escritos a mano, pero nunca alcanzó grandes objetivos de ventas. El proyecto terminó en 1998, cuando el Nokia 900 Communicator -una combinación de teléfono y asistente personal digital (PDA)- y más tarde el PalmPilot dominaron el panorama de los miniordenadores. Diamond Multimedia lanzó también en 1998 su reproductor MP3 Rio PMP300, que resultó ser un éxito sorpresa durante la temporada navideña. Esto condujo al auge de otros reproductores MP3 populares de iRiver, Creative NOMAD, Apple y otros.
En general, las PDA solían tener entradas de lápiz óptico y teclado; los dispositivos de un solo uso, como los reproductores de música, tenían entradas de botón sencillas. Desde casi el principio de su fabricación, las PalmPilot se enviaron con su sistema de reconocimiento de escritura, Graffiti, y en 1999 la Palm VII tenía conectividad de red. La primera Blackberry salió el mismo año con entrada de teclado, y en 2002 Blackberry tenía un dispositivo combinado de teléfono y PDA más convencional.
Pero estos diminutos ordenadores no podían permitirse el lujo de tener teclados de tamaño humano. Esto no sólo impulsó la necesidad de un mejor reconocimiento de la escritura, sino también de verdaderos avances en la entrada de voz. Dragon Dictate apareció en 1990 y fue la primera opción disponible para el consumidor, aunque por 9.000 $ violaba gravemente la regla de lo "barato". En 1992, AT&T lanzó el reconocimiento de voz para sus centros de llamadas. Lernout & Hauspie adquirió varias empresas a lo largo de los años 90 y se utilizó en Windows XP. Tras un escándalo contable, la empresa fue comprada por SoftScan -más tarde Nuance-, que obtuvo la licencia de la primera versión de Siri.
En 2003, Microsoft lanzó Voice Command para su PDA Windows Mobile. En 2007, Google ya había contratado a algunos ingenieros de Nuance y estaba bien encaminado con su propia tecnología de reconocimiento de voz. Hoy en día, la tecnología de voz es cada vez más omnipresente, y la mayoría de las plataformas ofrecen o desarrollan su propia tecnología, especialmente en los dispositivos móviles. Merece la pena señalar que en 2018 no existe una norma multiplataforma, ni siquiera interempresarial, para las entradas de voz: sencillamente, la modalidad aún no está lo suficientemente madura.
Las PDA, los dispositivos de mano y los smartphones casi siempre han sido intercambiables con alguna tecnología existente desde su creación: calculadora, teléfono, reproductor de música, localizador, pantalla de mensajes o reloj. Al fin y al cabo, todos son simplemente diferentes rebanadas de funcionalidad informática. Por tanto, puedes considerar el lanzamiento del iPhone en 2007 como un punto de inflexión para el sector de los pequeños ordenadores: en 2008, Apple había vendido 10 millones más que el siguiente dispositivo más vendido, el Nokia 2330 classic, aunque el Nokia mantuvo unas ventas constantes de 15 millones de 2007 a 2008. El propio iPhone no se hizo con las ventas del iPod hasta 2010, después de que Apple permitiera a los usuarios acceder completamente a iTunes.
Una tendencia muy marcada en todos los dispositivos informáticos pequeños, sean de la marca que sean, es el cambio hacia las entradas táctiles. Hay varias razones para ello.
La primera es simplemente que lo visual es atractivo y útil, y cuanto más podemos ver, mayor es la calidad percibida del dispositivo. Con los dispositivos más pequeños, el espacio es un bien escaso, por lo que eliminar los controles físicos del dispositivo significa que hay un mayor porcentaje del dispositivo disponible para una pantalla.
La segunda y tercera razones son prácticas y de fabricación. Mientras la tecnología sea barata y fiable, menos piezas móviles significa menos costes de producción y menos roturas mecánicas, ambas enormes ganancias para las empresas de hardware.
La cuarta razón es que utilizar las manos como entrada se percibe como algo natural. Aunque no permite gestos minuciosos, una GUI bien diseñada y simplificada puede resolver muchos de los problemas que surgen en torno al error del usuario y la oclusión. Al igual que ocurrió con el cambio del teclado al ratón y la GUI, las nuevas directrices de la interfaz táctil permiten a los usuarios una experiencia razonablemente coherente y sin errores, que sería casi imposible utilizando una GUI táctil basada en un ratón o un lápiz óptico.
La última razón del cambio hacia las entradas táctiles es simplemente una cuestión de gusto: las tendencias actuales de diseño se están desplazando hacia el minimalismo en una era en la que la tecnología informática puede resultar abrumadora. Así, un dispositivo simplificado puede percibirse como más fácil de usar, aunque la curva de aprendizaje sea mucho más difícil y se eliminen funciones.
Un punto de conexión interesante entre las manos y los ratones es el trackpad, que en los últimos años tiene la capacidad de imitar los gestos multitáctiles del touchpad, evitando al mismo tiempo los problemas de oclusión de las interacciones mano-pantalla. Como la tableta permite una entrada relativa que puede ser una proporción del tamaño total de la pantalla, permite gestos más minuciosos, parecidos a los de un ratón o un lápiz óptico. Sigue presentando algunos de los mismos problemas que afectan a la introducción manual -fatiga y falta del apoyo físico que permite a la mano humana realizar su trabajo más delicado con herramientas-, pero es utilizable para casi todas las interacciones convencionales a nivel de sistema operativo.
¿Por qué acabamos de repasar todo esto?
Entonces, ¿cuál era el objetivo de nuestra breve lección de historia? Para establecer el escenario adecuado de cara al futuro, en el que pasaremos del reino de lo conocido, la informática actual, al futuro desconocido de las entradas espaciales. En un momento dado es fácil suponer que sabemos todo lo que nos ha llevado hasta el presente o que siempre vamos por el buen camino. Revisar dónde hemos estado y cómo se llegó al presente es una forma excelente de tomar mejores decisiones para el futuro.
Pasemos a explorar la interacción persona-ordenador (HCI) para la informática espacial. Podemos empezar por lo fundamental, que sencillamente no cambiará a corto plazo: cómo puede el ser humano captar, procesar y emitir información.
Tipos de Modalidades HCI Comunes
Hay tres formas principales de interactuar con los ordenadores:
- Visual
-
Poses, gráficos, texto, IU, pantallas, animaciones
- Auditivo
- Físico
Observa que en los antecedentes que hemos cubierto hasta ahora, las entradas físicas y las salidas audiovisuales dominan la HCI, independientemente del tipo de ordenador. ¿Debería cambiar esto para la informática espacial, en un mundo en el que tus objetos digitales te rodean e interactúan con el mundo real? Tal vez. Empecemos por profundizar en los pros y los contras de cada modalidad.
Modalidades visuales
Pros:
-
De 250 a 300 palabras por minuto (WPM) entendidas por humanos
-
Extremadamente personalizable
-
Reconocible y comprensible al instante en el aspecto humano
-
Muy alta fidelidad en comparación con el sonido o la háptica
-
Independiente del tiempo; puede permanecer en el espacio para siempre
-
Fácil de reorganizar o reasignar sin perder la comprensión del usuario
-
Una buena modalidad ambiental; como los anuncios o las señales, pueden ser percibidos por los humanos a su antojo
Contras:
-
Como entrada, suele requerir una contrapartida física robusta; los gestos y las poses cansan mucho
-
Requiere corteza prefrontal para procesar y reaccionar ante información complicada, lo que supone una mayor carga cognitiva
-
Oclusión y superposición son el nombre del juego
-
Es más probable que "interrumpa" si el usuario está en el flujo
-
El seguimiento visual (ocular) muy preciso requiere mucho procesador
Mejores usos en interacciones específicas del HMD:
-
Bueno para una visión limitada de la cámara o otras situaciones en las que el usuario se ve obligado a mirar a alguna parte
-
Bueno para instrucciones claras y obvias
-
Bueno para explicar muchas cosas rápidamente
-
Ideal para tutoriales e iniciación
Ejemplo de uso: un smartphone:
Modalidades físicas
Pros:
-
Puede ser muy rápido y preciso
-
Evita los procesos de pensamiento de alto nivel, por lo que es fácil entrar en un "flujo" fisiológico y mental
-
El entrenamiento se alimenta de la corteza motora primaria; con el tiempo no necesita el procesamiento más intensivo de la corteza premotora o de los ganglios basales
-
Tiene un fuerte componente cerebral animal de "esto es real"; una fuerte señal de realidad
-
La retroalimentación ligera se reconoce inconscientemente
-
Menor retardo entre la asequibilidad y la entrada
-
El mejor tipo de entrada monomodal, ya que es el más preciso
Contras:
-
El hardware físico es más difícil de fabricar, puede ser caro y se rompe
-
Carga cognitiva mucho mayor durante la fase de enseñanza
-
Menos flexible que el visual: los botones no se pueden mover realmente
-
Los modos requieren más memorización para un flujo real
-
Grandes variaciones debidas a la sensibilidad humana
Mejores usos en interacciones específicas del HMD:
-
Situaciones en las que el usuario no debe o no puede mirar la IU todo el tiempo
-
Situaciones en las que el usuario no debe mirarse las manos todo el tiempo
-
Cuando el dominio es ideal o esencial
Ejemplo de uso: instrumentos musicales:
Modalidades de audio
Pros:
-
Omnidireccional
-
Fácilmente diegético para dar información y mejorar la sensación del mundo
-
Puede ser extremadamente sutil y aun así funcionar bien
-
Al igual que las entradas físicas, pueden utilizarse para desencadenar reacciones que no requieren un procesamiento cerebral de alto nivel, tanto el condicionamiento evaluativo como el reflejo más básico del tronco cerebral
-
Incluso los sonidos extremadamente cortos pueden reconocerse tras ser enseñados
-
Estupendo para affordances y feedback de confirmación
Contras:
-
Fácil de excluir para los usuarios con los dispositivos actuales
-
Sin posibilidad de controlar la fidelidad de salida
-
En función del tiempo: si el usuario se lo salta, debe repetirlo
-
Puede ser físicamente desagradable (reflejo del tronco cerebral)
-
Más lentos en general
-
Información vaga e imprecisa debido a las limitaciones lingüísticas
-
Depende del calendario y de la aplicación
-
No tan personalizable
-
Potencialmente intensivo en procesador
Mejores usos en interacciones específicas del HMD:
-
Gran forma de hacer que los usuarios miren una cosa concreta
-
Genial para la cámara controlada por el usuario
-
Genial cuando los usuarios están limitados visual y físicamente
-
Genial para cambiar de modo
Ejemplo de uso: un quirófano:
-
El cirujano está cautivo visual y físicamente; el audio es a menudo la única opción
-
Actualizaciones de voz continuas para toda la información
-
Comandos de voz para herramientas, solicitudes y confirmaciones
-
La voz puede proporcionar la información más densa sobre el estado actual de las cosas y los estados mentales; muy útil en situaciones de alto riesgo
Ahora que hemos anotado los pros y los contras de cada tipo de modalidad, podemos adentrarnos en el proceso HCI y mapear adecuadamente hacia fuera el ciclo. La Figura 1-5 ilustra un flujo típico, seguido de una descripción de cómo se corresponde con un escenario de juego.
El ciclo consta de tres partes sencillas que se repiten en casi todas las ICS:
-
La primera suele ser la fase de affordance o descubrimiento, en la que el usuario descubrelo que puede hacer.
-
La segunda es la fase de entrada o acción, en la que el usuario hace la cosa.
-
La tercera fase es la de respuesta o confirmación, en la que el ordenador confirma la entrada reaccionando de algún modo.
La Figura 1-6 presenta el mismo gráfico, ahora rellenado para un bucle UX de tutorial de videojuego de consola convencional.
Veamos esto. En muchos tutoriales de videojuegos, la primera affordance con la que un usuario puede hacer algo suele ser una superposición de IU imperdible que indica al usuario la etiqueta del botón que tiene que pulsar. Esto a veces se manifiesta con una imagen o modelo correspondiente del botón. Puede haber un sonido asociado, como un cambio en la música, un tono o un diálogo, pero durante el tutorial es en gran medida de apoyo y no de enseñanza.
Para los videojuegos de consola convencionales, la etapa de entrada será totalmente física; por ejemplo, la pulsación de un botón. Hay videojuegos exploratorios que pueden aprovechar la entrada de audio, como el habla, o una combinación de entradas físicas y visuales (por ejemplo, la postura de la mano), pero son raros. En casi todos los casos, el usuario se limitará a pulsar un botón para continuar.
La etapa de retroalimentación suele ser una combinación de las tres modalidades: el mando puede tener retroalimentación háptica, los visuales casi seguro que cambiarán, y habrá un sonido de confirmación.
Merece la pena señalar que este bucle concreto describe específicamente la fase tutorial. A medida que los usuarios se familiaricen con el juego y lo mejoren, los elementos visuales disminuirán en favor de modalidades más viscerales. A menudo, más adelante en el juego, la asequibilidad del sonido puede convertirse en la asequibilidad principal para evitar la sobrecarga visual; recuerda que, de forma similar a las modalidades físicas, el audio también puede funcionar para provocar reacciones que eviten las funciones cerebrales de nivel superior. Las modalidades visuales son las más densas en información, pero a menudo son las que más distraen en un espacio limitado; también son las que requieren más tiempo para comprender y luego reaccionar.
Nuevas modalidades
Con el auge de un mejor hardware y de nuevos sensores, tenemos nuevas formas tanto de hablar con los ordenadores como de hacer que nos monitoricen y reaccionen ante nosotros. He aquí una lista rápida de entradas que están en fase de prototipo o de comercialización:
-
Ubicación
-
Frecuencia respiratoria
-
Tono, tono y frecuencia de la voz
-
Movimiento ocular
-
Dilatación pupilar
-
Frecuencia cardiaca
-
Seguimiento del movimiento inconsciente de las extremidades
Una curiosa propiedad de estas nuevas entradas -a diferencia de las tres modalidades comunes que hemos comentado- es que, en su mayor parte, cuanto menos piense el usuario en ellas, más útiles le resultarán. Casi todas estas nuevas modalidades son difíciles o imposibles de controlar durante largos periodos de tiempo, especialmente como mecánica de entrada consciente. Asimismo, si el objetivo es recopilar datos para el entrenamiento del aprendizaje automático, cualquier intento consciente de alterar los datos probablemente ensuciará todo el conjunto. Por lo tanto, lo más adecuado es describirlas como entradas pasivas.
Otra propiedad de estas entradas específicas es que son unidireccionales; el ordenador puede reaccionar al cambio en cada una de ellas, pero no puede responder del mismo modo, al menos no hasta que los ordenadores cambien significativamente. Incluso entonces, la mayor parte de la lista dará lugar a bucles de retroalimentación ambiental, no a una retroalimentación directa o instantánea.
El estado actual de las modalidades de los dispositivos de computación espacial
En el momento de escribir esto, los dispositivos de RA y RV tienen los siguientes métodos de modalidad en la mayoría de las ofertas de hardware de :
Físico
Audio
-
Para el usuario entrada: reconocimiento de voz (poco frecuente)
-
Para la salida del ordenador: sonoriza y espacializa el audio
Visual
-
Para la entrada del usuario: seguimiento de la mano, reconocimiento de la postura de la mano y seguimiento ocular
-
Para la salida del ordenador: HMD
De esta lista surge una peculiaridad: la informática inmersiva ha propiciado, por primera vez, el aumento de las aportaciones visuales a través de la visión por ordenador que rastrea partes del cuerpo como las manos y los ojos. Aunque la posición y el movimiento de las manos han tenido a menudo una importancia incidental, en la medida en que se corresponden con la pulsación de botones físicos, nunca antes habían adquirido una importancia propia. Hablaremos más de esto más adelante, pero empecemos por el tipo de entrada más convencional: los mandos y las pantallas táctiles.
Controladores actuales para sistemas informáticos inmersivos
El tipo más común de mandos para los cascos de realidad mixta, aumentada y virtual (RX), debe sus raíces a los mandos de juegos convencionales. Es muy fácil remontarse al diseño del joystick y el D-pad en el paquete de controladores de cualquier casco de RX comercial. Los primeros trabajos sobre guantes con seguimiento del movimiento, como el VIEWlab de la NASA Ames de 1989, aún no se han comercializado a gran escala. Curiosamente, Ivan Sutherland había postulado que los mandos de RV debían ser joysticks en 1964; casi todos los tienen, o equivalentes al thumbpad, en 2018.
Antes de los primeros auriculares de consumo, Sixsense fue uno de los primeros en el espacio con sus mandos magnéticos con seguimiento, que incluían botones en ambos mandos familiares para cualquier videoconsola: A y B, home, así como botones más genéricos, joysticks, bumpers y gatillos.
Los sistemas actuales de seguimiento completo, basados en PC, tienen entradas similares. Los mandos Oculus Rift, los mandos Vive y los mandos Windows MR tienen en común lo siguiente:
-
Un botón de selección primario (casi siempre un disparador)
-
Una variante de selección secundaria (gatillo, empuñadura o parachoques)
-
Botones A/B equivalentes
-
Una entrada circular (thumbpad, joystick o ambos)
-
Varios botones a nivel de sistema, para operaciones básicas coherentes en todas las aplicaciones
Generalmente, estos dos últimos elementos se utilizan para llamar a menús y ajustes, dejando la app activa para volver a la pantalla de inicio.
Los cascos autónomos tienen algún subconjunto de la lista anterior en sus controladores. Desde el mando Hololens sin seguimiento hasta el mando de tres grados de libertad (3DOF) de Google Daydream , en siempre encontrarás los botones de nivel de sistema que pueden realizar confirmaciones y luego volver a la pantalla de inicio. Todo lo demás depende de las capacidades del sistema de seguimiento del HMD y de cómo se haya diseñado el SO.
Aunque técnicamente el raycasting es una entrada de seguimiento visual, la mayoría de la gente pensará en él como una entrada física, por lo que merece la pena mencionarlo aquí. Para ejemplo, el mando Magic Leap permite la selección tanto con raycast desde el mando de seis grados de libertad (6DOF) como utilizando el thumbpad, al igual que el Rift en determinadas aplicaciones, como su creador de avatares. Pero, a partir de 2019, no hay estandarización en torno a la selección con raycast frente al stick analógico o el thumbpad.
A medida que los sistemas de seguimiento mejoren y se normalicen, podemos esperar que esta norma se solidifique con el tiempo. Ambas son útiles en momentos diferentes, y al igual que el clásico problema de la inversión del eje Y, puede ocurrir que los distintos usuarios tengan preferencias tan marcadamente diferentes que siempre debamos permitir ambas. A veces, quieres señalar algo para seleccionarlo; otras, quieres desplazarte para seleccionarlo. ¿Por qué no ambas?
Tecnologías de seguimiento corporal
Repasemos en los tres tipos de seguimiento corporal de los que más se habla hoy en día: el seguimiento de las manos, el reconocimiento de la postura de las manos y el seguimiento de los ojos.
Seguimiento manual
El seguimiento de la mano es cuando todo el movimiento de la mano se asigna a un esqueleto digital, y se hacen inferencias de entrada basadas en el movimiento o la pose de la mano. Esto permite movimientos naturales como coger y soltar objetos digitales y el reconocimiento de gestos. El seguimiento de la mano puede basarse totalmente en la visión por ordenador, incluir sensores acoplados a los guantes o utilizar otros tipos de sistemas de seguimiento.
Reconocimiento de la postura de la mano
Este concepto se confunde a menudo con el seguimiento de la mano, pero el reconocimiento de la postura de la mano es su propio campo específico de investigación. El ordenador ha sido entrenado para reconocer posturas específicas de la mano, de forma muy parecida al lenguaje de signos. La intención se mapea cuando cada postura de la mano está vinculada a eventos específicos como agarrar, soltar, seleccionar y otras acciones comunes.
En el lado positivo, el reconocimiento de la pose puede consumir menos procesador y necesitar menos calibración individual que el seguimiento robusto de la mano. Pero externamente, puede resultar cansado y confuso para los usuarios, que pueden no entender que la recreación de la pose es más importante que el movimiento natural de la mano. También requiere una cantidad significativa de tutoriales de usuario para enseñar las poses de las manos.
Seguimiento ocular
Los ojos se mueven constantemente, pero el seguimiento de su posición hace que sea mucho más fácil deducir el interés y la intención, a veces incluso más rápidamente de lo que el usuario es consciente de sí mismo, dado que los movimientos oculares se actualizan antes de que se refresque la visualización cerebral. Aunque es rápidamente agotador como input en sí mismo, el seguimiento ocular es un input excelente para mezclar con otros tipos de seguimiento. Por ejemplo, puede utilizarse para triangular la posición del objeto en el que está interesado un usuario, en combinación con el seguimiento de la mano o del controlador, incluso antes de que el usuario haya expresado plenamente su interés.
Todavía no he incluido en la lista el seguimiento corporal ni el reconocimiento de voz, en gran parte porque no hay tecnologías en el mercado actual que estén empezando a aplicar ninguna de ellas como técnica de entrada estándar. Pero empresas como Leap Motion, Magic Leap y Microsoft están allanando el camino para todos los tipos de seguimiento incipientes que se enumeran aquí.
Nota sobre el Seguimiento de la Mano y el Reconocimiento de la Pose de la Mano
Tanto el seguimiento como el reconocimiento de la postura de las manos deben dar lugar a cambios interesantes, y en cierto modo contraintuitivos, en la forma en que los seres humanos suelen concebir la interacción con los ordenadores. Fuera de los gestos conversacionales, en los que el movimiento de la mano desempeña en gran medida un papel secundario, los humanos no solemos atribuir un significado a la ubicación y la pose de las manos. Utilizamos las manos todos los días como herramientas y podemos reconocer un gesto imitado por la acción a la que se refiere, como coger un objeto. Sin embargo, en la historia de la HCI, la ubicación de las manos significa muy poco. De hecho, los periféricos como el ratón y el mando de juegos están diseñados específicamente para ser agnósticos en cuanto a la ubicación de las manos: puedes utilizar un ratón en el lado izquierdo o derecho, puedes sostener un mando con un pie arriba o abajo delante de ti; no hay diferencia en lo que introduces.
La excepción flagrante a esta regla son los dispositivos táctiles, para los que la ubicación de la mano y la entrada están necesariamente estrechamente relacionadas. Incluso entonces, los "gestos" táctiles tienen poco que ver con el movimiento de la mano fuera de las yemas de los dedos que tocan el dispositivo; puedes hacer un barrido de tres dedos con los tres dedos que quieras. Lo único realmente importante es que cumplas el requisito mínimo de hacer lo que el ordenador busca para obtener el resultado que deseas.
La visión por ordenador que puede rastrear manos, ojos y cuerpos es potencialmente muy poderosa, pero puede utilizarse mal.
Voz, manos y entradas de hardware en la próxima generación
Si preguntaras a la mayoría de la gente de la calle, la suposición común es que, idealmente y con el tiempo, interactuaremos con nuestros ordenadores del mismo modo que interactuamos con otros seres humanos: hablando normalmente y utilizando las manos para gesticular e interactuar. Muchísimos equipos bien financiados de diversas empresas trabajan hoy en este problema, y ambos tipos de entrada se perfeccionarán seguramente en las próximas décadas. Sin embargo, ambos tienen importantes inconvenientes que la gente no suele tener en cuenta cuando imagina el mejor de los casos de seguimiento instantáneo y completo de las manos y PNL.
Voz
En la lengua vernácula común, las órdenes de voz no son precisas, por muy perfectamente que se entiendan. La gente suele malinterpretar incluso las frases en lenguaje llano, y a menudo otros utilizan una combinación de inferencia, metáfora y sinónimos para transmitir su verdadera intención. En otras palabras, utilizan múltiples modalidades y modalidades dentro de modalidades para asegurarse de que se les entiende. La jerga es una interesante evolución lingüística de esto: las palabras altamente especializadas que significan algo específico en un contexto específico para un grupo son una forma de tecla de acceso directo al lenguaje, por así decirlo.
Los ordenadores pueden reaccionar mucho más rápidamente que los humanos: ésa es su mayor ventaja. Reducir la entrada a la mera vocalización humana significa ralentizar considerablemente la forma en que podemos comunicarnos con los ordenadores de hoy. Teclear, dar golpecitos y pulsar botones de acción son acciones muy rápidas y precisas. Por ejemplo, es mucho más rápido seleccionar un texto, pulsar las teclas de acceso rápido para "cortar", mover el cursor y pulsar las teclas de acceso rápido para "pegar" que describir esas acciones a un ordenador. Esto es cierto para casi todas las acciones.
Sin embargo, para describir un escenario, contar una historia o hacer un plan con otro humano, a menudo es más rápido utilizar simplemente palabras en las conversaciones, porque cualquier posible malentendido puede ser cuestionado y corregido inmediatamente por el oyente. Esto requiere un nivel de conocimiento práctico del mundo que los ordenadores probablemente no tendrán hasta el amanecer de la verdadera inteligencia artificial.
La entrada de voz tiene otras ventajas: cuando necesitas una entrada de manos libres, cuando estás ocupado en otra cosa, cuando necesitas un dictado transliterado o cuando quieres un cambio rápido de modalidad (por ejemplo, "¡minimizar! ¡salir!") sin otro movimiento. La entrada de voz siempre funcionará mejor cuando se utilice junto con otras modalidades, pero eso no es motivo para que no se perfeccione. Y, por supuesto, la tecnología de reconocimiento de voz y transcripción de voz a texto tiene usos que van más allá de la mera introducción de datos.
Manos
Las modalidades visuales como el seguimiento de la mano, los gestos y el reconocimiento de la postura de la mano son útiles sistemáticamente como confirmación secundaria, exactamente igual que lo son las posturas de la mano y la postura en la conversación humana habitual. Serán más útiles para la informática espacial cuando dispongamos de una forma fácil de entrenar conjuntos de datos personalizados para usuarios individuales con gran rapidez. Esto requerirá un par de cosas:
-
Individuos para mantener conjuntos de datos biométricos personalizados en todas las plataformas
-
Una forma de que los individuos enseñen a los ordenadores lo que quieren que esos ordenadores noten o ignoren
Las razones de estos requisitos son sencillas: los seres humanos varían enormemente tanto en lo que se mueven y gesticulan como en lo que esos gestos significan para ellos. Una persona puede mover las manos constantemente, sin pensar en nada. Otra puede gesticular sólo ocasionalmente, pero ese gesto tiene una enorme importancia. No sólo necesitamos personalizar ampliamente este tipo de movimientos por usuario, sino también permitir que el propio usuario indique al ordenador a qué debe prestar especial atención y qué debe ignorar.
La alternativa a los sistemas personalizados y entrenados es, en gran medida, lo que tenemos hoy: una serie de posturas predefinidas de la mano que se asignan específicamente a determinadas acciones. Para Leap Motion, una pose de "agarrar" indica que el usuario quiere seleccionar y mover un objeto. Para las Hololens, el gesto de "pellizcar" indica selección y movimiento. Magic Leap admite 10 posturas de la mano, algunas de las cuales corresponden a diferentes acciones en distintas experiencias. Lo mismo ocurre con los mandos de Oculus Rift, que admiten dos posturas de la mano (señalar y pulgar hacia arriba), que pueden reasignarse a las acciones que elija el desarrollador.
Esto requiere que el usuario memorice las posturas y gestos requeridos por el hardware en lugar de un movimiento natural de la mano, de forma muy parecida a cómo los dispositivos tablet estandarizaron el deslizar para moverse y pellizcar para hacer zoom. Aunque estos tipos de lenguaje de signos humano-ordenador tienen el potencial de estandarizarse y convertirse en la norma, sus defensores deben reconocer que lo que proponen es una alternativa a la forma en que los humanos utilizan sus manos hoy en día, no una reasignación. Esto se agrava especialmente por el hecho de que las manos humanas son imprecisas por sí solas; necesitan apoyo físico y herramientas que permitan una precisión real, como se demuestra en la Figura 1-8.
Controladores y otros periféricos físicos
Como hemos visto en la introducción, durante casi todo un siglo se ha dedicado una enorme cantidad de tiempo y esfuerzo a crear distintos tipos de entradas físicas para los ordenadores. Sin embargo, debido a las cinco reglas, los periféricos se han estandarizado. De las cinco reglas, dos son las más importantes aquí: es más barato fabricar a escala, y las entradas se han estandarizado junto con el hardware que las soporta.
Sin embargo, estamos entrando en una época interesante para la electrónica. Por primera vez, es posible que casi cualquiera compre o fabrique sus propios periféricos que pueden funcionar con muchos tipos de aplicaciones. La gente hace de todo con piezas de terceros: desde teclados y ratones, hasta rastreadores Vive hechos por Frankenstein sobre bates de béisbol o mascotas, y trabajos de pintura personalizados para sus mandos de Xbox.
Es mucho suponer que, dado que la informática espacial permitirá una mayor personalización por parte del usuario, que los consumidores empezarán de forma natural a hacer sus propias entradas. Pero es fácil suponer que los fabricantes fabricarán hardware más personalizado para adaptarse a la demanda. Pensemos en los automóviles actuales: sólo el Lexus 4 tiene más de 450 opciones de volante; si incluimos todas las opciones, resultan cuatro millones de combinaciones del mismo vehículo. Cuando la informática sea personal y resida en tu casa junto a ti, la gente tendrá opiniones firmes sobre su aspecto, tacto y reacciones, del mismo modo que lo hacen con sus vehículos, sus muebles y su papel pintado.
Hablar de una intensa personalización, tanto del lado de la plataforma como del lado del usuario, nos lleva a una nueva línea de pensamiento: la informática espacial permite que los ordenadores sean tan personalizados y variados como la casa de una persona media y cómo organiza los enseres de su casa. Por tanto, las entradas deben ser igualmente variadas. Del mismo modo que alguien puede elegir un bolígrafo frente a otro para escribir, se aplicará a todos los aspectos de la interacción informática.
Get Crear realidades aumentadas y virtuales now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.