Kapitel 1. Wie Menschen mit Computern interagieren

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In diesem Kapitel erkunden wir Folgendes:

  • Hintergrund zur Geschichte der Mensch-Computer-Modalitäten

  • Eine Beschreibung der gängigen Modalitäten und ihrer Vor- und Nachteile

  • Die Zyklen der Rückkopplung zwischen Menschen und Computern

  • Anpassung der Modalitäten an den aktuellen Input der Industrie

  • Ein ganzheitlicher Blick auf den Feedback-Zyklus eines guten immersiven Designs

Allgemeine Begriffsdefinition

Ich verwende die folgenden Begriffe auf diese spezifische Weise, die ein für den Menschen wahrnehmbares Element voraussetzt:

Modalität

Ein Kanal der sensorischen Eingabe und Ausgabe zwischen einem Computer und einem Menschen

Affordances

Attribute oder Merkmale eines Objekts, die seine Verwendungsmöglichkeiten definieren

Eingänge

Wie du diese Dinge tust; die Daten, die an den Computer gesendet werden

Ausgänge

Eine wahrnehmbare Reaktion auf ein Ereignis; die vom Computer gesendeten Daten

Feedback

Eine Art von Output; eine Bestätigung, dass das, was du getan hast, von der anderen Partei wahrgenommen wurde und sie darauf reagiert hat

Einführung

Bei dem Spiel Zwanzig Fragen ist es dein Ziel, zu erraten, an welchen Gegenstand eine andere Person denkt. Du kannst fragen, was du willst, und die andere Person muss wahrheitsgemäß antworten. Der Haken an der Sache ist, dass sie die Fragen nur mit einer von zwei Möglichkeiten beantworten kann: Ja oder Nein.

Durch eine Reihe von Zufällen und Interpolationen ähnelt die Art und Weise, wie wir mit konventionellen Computern kommunizieren, sehr stark den Zwanzig Fragen. Computer sprechen in binären Zahlen, Einsen und Nullen, aber Menschen nicht. Computer haben keinen eigenen Sinn für die Welt oder für irgendetwas außerhalb des Binärsystems - oder, im Fall von Quantencomputern, für Wahrscheinlichkeiten.

Deshalb kommunizieren wir alles mit Computern, von Konzepten bis hin zu Eingaben, über immer höhere Ebenen menschenfreundlicher Abstraktion, die die grundlegende Kommunikationsebene verdecken: Einsen und Nullen oder Ja und Nein.

Ein großer Teil der Arbeit in der Informatik besteht also darin, Menschen dazu zu bringen, Computern immer komplexere Ideen leicht und einfach zu erklären. Im Gegenzug arbeiten die Menschen daran, dass Computer diese Ideen schneller verarbeiten können, indem sie Abstraktionsebenen über die Einsen und Nullen legen. Es ist ein Kreislauf von Input und Output, von Möglichkeiten und Feedback, der alle Modalitäten umfasst. Die Abstraktionsebenen können viele Formen annehmen: die Metaphern einer grafischen Benutzeroberfläche, die gesprochenen Worte der natürlichen Sprachverarbeitung (NLP), die Objekterkennung der Computer Vision und, am einfachsten und gebräuchlichsten, die alltäglichen Eingaben von Tastatur und Mauszeiger, mit denen die meisten Menschen täglich mit Computern interagieren.

Modalitäten im Wandel der Zeit: Vor dem zwanzigsten Jahrhundert

Zu Beginn wollen wir kurz darauf eingehen, wie Menschen traditionell Anweisungen an Maschinen gegeben haben. Die ersten Proto-Computermaschinen, programmierbare Webstühle, "lasen" bekanntlich Lochkarten. Joseph Jacquard schuf 1839 mit Hilfe von Lochkarten eines der ersten echten mechanischen Kunstwerke, ein Porträt von sich selbst(Abbildung 1-1). Etwa zur gleichen Zeit erkannte Semjon Korsakow in Russland, dass Lochkarten zum Speichern und Vergleichen von Datensätzen verwendet werden können.

Woven silk portrait of Joseph Jacquard
Abbildung 1-1. Gewebtes Seidenporträt von Joseph Jacquard, 1839, der mehr als 24.000 Lochkarten zur Herstellung des Porträts verwendete

Lochkarten können große Datenmengen speichern, solange die Daten konsistent genug sind, um von einer Maschine gelesen zu werden. Und obwohl Stifte und ähnliche Handgeräte für bestimmte Aufgaben fantastisch sind und es den Menschen ermöglichen, Informationen schnell auszudrücken, fehlt dem durchschnittlichen menschlichen Unterarm und den Fingersehnen die Fähigkeit, ständig nahezu identische Formulare zu produzieren.

Dieses Problem ist schon lange bekannt. Jahrhundert - also sobald die Technologie verfügbar war - begannen die Menschen, Tastaturen zu bauen. Die Menschen haben Tastaturen aus allen möglichen Gründen erfunden und neu erfunden, z. B. um gegen Fälschungen vorzugehen, um einer blinden Schwester zu helfen oder um Bücher besser lesen zu können. Eine stützende Fläche, auf der die Hände und Handgelenke ruhen können, ermöglichte es, mit unregelmäßigen Bewegungen gleichmäßige Ergebnisse zu erzielen, die mit dem Stift unmöglich zu erreichen sind.

Wie bereits erwähnt, hatten die Ur-Computer einen ebenso zwingenden Grund: Computer brauchen sehr konsistente physische Daten, und es ist für Menschen unangenehm, konsistente Daten zu erstellen. Auch wenn es im Nachhinein überraschend erscheinen mag: Schon Anfang des 19. Jahrhunderts hatten Lochkartenmaschinen, die noch nicht die Rechenmonster waren, die sie werden sollten, Tastaturen, wie in Abbildung 1-2 dargestellt.

Masson Mills WTM 10 Jacquard Card Cutter, 1783
Abbildung 1-2. Ein Masson Mills WTM 10 Jacquard-Kartenschneider, 1783, mit dem die von einem Jacquard-Webstuhl gelesenen Lochkarten hergestellt wurden

Tastaturen waren von Anfang an mit Computergeräten verbunden, aber natürlich weiteten sie sich auf Schreibmaschinen aus, bevor sie wieder zurückkamen, als die beiden Technologien verschmolzen. Das Ungestüme war ebenfalls mit der Konsistenz und der menschlichen Ermüdung verbunden. Aus Wikipedia:

Mitte des 19. Jahrhunderts hatte die zunehmende Geschwindigkeit der Geschäftskommunikation einen Bedarf für die Mechanisierung des Schreibprozesses geschaffen. Stenographen und Telegrafisten konnten Informationen mit einer Geschwindigkeit von bis zu 130 Wörtern pro Minute aufzeichnen.

Beim Schreiben mit einem Kugelschreiber bekommst du dagegen nur etwa 30 Wörter pro Minute: Das Drücken von Tasten war unbestreitbar die bessere alphanumerische Lösung.

Das nächste Jahrhundert wurde damit verbracht, das Grundkonzept zu perfektionieren. Spätere Funktionen, wie die Einführung der Umschalttaste, verbesserten und optimierten das Design und die Größe der frühen Schreibmaschinen erheblich.

Ich möchte an dieser Stelle kurz innehalten, um auf das allgemeine Problem hinzuweisen, das man mit der Schreibmaschine und insbesondere mit der Tastatur als Eingabegerät zu lösen versuchte: Die Menschen wollten ihre Ideen schneller und genauer erfassen. Erinnere dich daran; es ist ein durchgängiges Thema bei allen Verbesserungen der Modalität.

Modalitäten im Wandel der Zeit: Bis zum Zweiten Weltkrieg

So viel zu Tastaturen, die uns, wie ich gerade erwähnt habe, seit den Anfängen der Kommunikation zwischen Mensch und Maschine begleiten. Seit dem frühen zwanzigsten Jahrhundert - das heißt, sobald die Metallverarbeitung und die Fertigungstechniken dies zuließen - gaben wir den Maschinen die Möglichkeit, zurück zu kommunizieren und einen Dialog mit ihren Bedienern zu führen , bevor die teure physische Ausgabestufe erreicht war: Monitore und Displays, ein Bereich, der in den Kriegszeiten durch die Militärbudgets von beträchtlichen Forschungen und Ressourcen profitierte.

Die ersten Computerbildschirme zeigten keine Wörter an: Die ersten Computerbildschirme hatten kleine Glühbirnen, die sich ein- und ausschalteten, um bestimmte Zustände anzuzeigen, so dass die Ingenieure den Status des Computers überwachen konnten. Während des Zweiten Weltkriegs nutzten die Militärbehörden Kathodenstrahlröhren-Bildschirme für Radargeräte, und bald nach dem Krieg wurden CRTs als Vektor- und später als Text-Computerbildschirme für Gruppen wie SAGE und die Royal Navy eingesetzt.

An example of early computer interfaces for proprioceptive remapping.
Abbildung 1-3. Ein Beispiel für frühe Computerschnittstellen für die propriozeptive Neuzuordnung; WAAF-Radaroperatorin Denise Miley zeichnet Flugzeuge im Empfangsraum der Station Bawdsey "Chain Home" im Mai 1945 auf (beachte den großen Knopf zu ihrer Linken, ein Goniometer, mit dem Miley die Empfindlichkeit der Funkpeiler ändern konnte)

Sobald Computer und Überwachungsgeräte über Displays verfügten, gab es auch display-spezifische Eingaben. Joysticks wurden für Flugzeuge erfunden, aber ihre Verwendung für die Fernsteuerung von Flugzeugen wurde 1926 in den Vereinigten Staaten patentiert. Dies zeigt eine merkwürdige Eigenart der menschlichen Physiologie: Wir sind in der Lage, die Propriozeption - unserGefühl für die Ausrichtung und Position unseres Körpers - instinktiv auf neue Volumina und Ebenenwinkel umzustellen (siehe Abbildung 1-3). Wenn wir dazu nicht in der Lage wären, wäre es unmöglich, eine Maus auf einem Schreibtisch in der Z-Ebene zu benutzen, um den Mausanker in der X-Ebene zu bewegen. Und doch können wir das fast ohne nachzudenken tun - auch wenn einige von uns die Achsendrehung umkehren müssen, um unsere eigenen internen Zuordnungen nachzuahmen.

Modalitäten im Wandel der Zeit: Nach dem Zweiten Weltkrieg

Während des Zweiten Weltkriegs wurden Joysticks schnell aus den Flugzeugen verbannt und neben Radar- und Sonaranzeigen eingesetzt. Unmittelbar nach dem Krieg, im Jahr 1946, wurde mit die erste display-spezifische Eingabe erfunden. Ralph Benjamin, ein Ingenieur der Royal Navy, erfand den Rollerball als Alternative zu den bestehenden Joystick-Eingaben: "Der elegante Balltracker steht neben seiner Flugrichtungsanzeige. Er hat einen Ball, den er in der Hand hält, aber sein Joystick ist verwelkt." Das scheint darauf hinzudeuten, dass der Rollerball in der Hand gehalten und nicht auf den Schreibtisch gelegt werden kann. Die Realität der Herstellung im Jahr 1946 bedeutete jedoch, dass der ursprüngliche Roller eine Bowlingkugel in voller Größe war. Es überrascht nicht, dass der unhandliche, 10 Pfund schwere Rollerball den Joystick nicht ersetzte.

Das führt uns zu den fünf Regeln für die Beliebtheit von Computereingaben. Um durchzustarten, müssen Eingaben die folgenden Eigenschaften haben:

  • Günstig

  • Zuverlässig

  • Bequem

  • Software haben, die sie nutzt

  • eine akzeptable Benutzerfehlerquote haben

Letzteres kann durch gutes Softwaredesign, das zerstörungsfreie Aktionen ermöglicht, ausgeglichen werden, aber Vorsicht: Ab einem bestimmten Punkt können selbst harmlose Fehler lästig werden. Die Autokorrektur auf Touchscreens ist ein gutes Beispiel dafür, dass Benutzerfehler oft die Fähigkeiten der Software übersteigen.

Obwohl die Rollerball-Maus erst 1984 mit dem Aufkommen des Personal Computers allgegenwärtig wurde, kamen viele andere Eingabemöglichkeiten, die mit Computern verwendet wurden, Mitte der 1950er Jahre aus dem Militär in den Privatsektor: Joysticks, Knöpfe und Kippschalter und natürlich die Tastatur.

Es mag überraschen zu erfahren, dass es schon vor der Maus Taststifte gab. Der 1955 von SAGE entwickelte Lichtgriffel war ein optischer Stift, der sich an die Bildwiederholzyklen der Röhrenmonitore anpasste und zur direkten Interaktion auf den Monitoren verwendet werden konnte. Eine andere mausähnliche Option, der Grafacon der Data Equipment Company, ähnelte einem Block auf einem Drehpunkt, der geschwenkt werden konnte, um den Mauszeiger zu bewegen. Bereits 1952 wurde mit dem Audrey-System von Bell Labs an Sprachbefehlen gearbeitet, obwohl es nur 10 Wörter erkannte.

Bereits 1963 gab es die erste Grafiksoftware, mit der man auf dem Monitor des TX-2 des MIT Lincoln Laboratory zeichnen konnte: Sketchpad, entwickelt von Ivan Sutherland am MIT. GM und IBM hatten ein ähnliches Gemeinschaftsprojekt, den Design Augmented by Computer (DAC-1), der einen kapazitiven Bildschirm mit einem Metallstift nutzte - schneller als der Lichtstift, bei dem man warten musste, bis die Bildröhre aktualisiert wurde.

Leider waren sowohl beim Lichtstift als auch beim Metallstift die Displays aufrecht, so dass der Benutzer seinen Arm für die Eingabe hochhalten musste - was als der berüchtigte "Gorilla-Arm" bekannt wurde. Tolles Training, aber schlechte Ergonomie. Die RAND Corporation hatte dieses Problem erkannt und arbeitete schon seit Jahren an einer Lösung für Tablets und Stifte, aber sie war nicht billig: 1964 kostete der RAND-Stift - der später verwirrenderweise auch als Grafacon vermarktet wurde - rund 18.000 Dollar (etwa 150.000 Dollar im Jahr 2018). Es dauerte noch Jahre, bis sich die Kombination aus Tablet und Stift durchsetzte, lange nachdem die Maus und das grafische Benutzeroberflächensystem (GUI) populär geworden waren.

1965 veröffentlichte Eric Johnson vom Royal Radar Establishment einen Artikel über kapazitive Touchscreens und verbrachte die nächsten Jahre damit, klarere Anwendungsfälle zu diesem Thema zu schreiben. Die Idee wurde von Forschern der Europäischen Organisation für Kernforschung (CERN) aufgegriffen, die 1973 eine funktionierende Version entwickelten.

1968 war Doug Engelbart bereit, die Arbeit zu präsentieren, die sein Labor, das Augmentation Research Center, seit 1963 am Stanford Research Institute geleistet hatte. In einer Halle unter dem Civic Center in San Francisco demonstrierte er das oNLine System (NLS) seines Teams mit einer Vielzahl von Funktionen, die heute zum Standard moderner Computer gehören: Versionskontrolle, Netzwerke, Videokonferenzen, Multimedia-E-Mails, mehrere Fenster und die Integration einer funktionierenden Maus, neben vielen anderen. Obwohl der NLS auch eine Akkordtastatur und eine herkömmliche Tastatur für die Eingabe benötigte, wird die Maus heute oft als eine der wichtigsten Innovationen genannt. Tatsächlich rangierte die NLS-Maus in Engelbarts eigenen Untersuchungen ähnlich gut wie der Lichtstift oder das ARC-eigene Knieeingabesystem. Und sie war auch nicht einzigartig: Der deutsche Radio- und Fernsehhersteller Telefunken brachte mit seiner RKS 100-86, der Rollkugel, eine Maus auf den Markt, die in dem Jahr, in dem Engelbart seinen Prototyp vorstellte, bereits in Produktion war.

Engelbart machte jedoch die Idee der asymmetrischen Freiform-Computereingabe populär. Der eigentliche Designer der Maus bei ARC, Bill English, wies am Ende seines Aufsatzes "Display-Selection Techniques for Text Manipulation" von 1967 ebenfalls auf eine der Wahrheiten der digitalen Modalitäten hin:

[Es scheint unrealistisch, eine pauschale Aussage zu erwarten, dass ein Gerät besser ist als ein anderes. Die Details des Nutzungssystems, in das das Gerät eingebettet werden soll, machen einen zu großen Unterschied.

Egal wie gut die Hardware ist, der wichtigste Aspekt ist, wie die Software die Hardware-Eingaben interpretiert und für die Absicht des Nutzers normalisiert.

Hinweis

Um mehr darüber zu erfahren, wie das Softwaredesign die Wahrnehmung der Eingaben durch die Benutzer/innen beeinflussen kann, empfehle ich das Buch Game Feel: A Game Designer's Guide to Virtual Sensation von Steve Swink (Morgan Kaufmann Game Design Books, 2008). Da jedes Spiel seine eigene Welt und sein eigenes System hat, kann das "Gefühl" der Eingaben neu überdacht werden. Bei Standard-Computerbetriebssystemen, die sich standardmäßig vertraut anfühlen müssen, um eine kognitive Überlastung zu vermeiden, gibt es weniger Spielraum für Innovationen.

Ein weiterer erwähnenswerter Aspekt des technologischen Fortschritts in den 1960er Jahren war der Aufstieg der Science-Fiction und damit des Computers in der Popkultur. Fernsehserien wie Star Trek (1966-1969) zeigten die Verwendung von Sprachbefehlen, Telepräsenz, intelligenten Uhren und Miniaturcomputern. 2001: Odyssee im Weltraum (1968) zeigte ein kleines persönliches Computergerät, das den heutigen iPads verblüffend ähnlich sieht, sowie Sprachbefehle, Videoanrufe und natürlich eine sehr berühmte künstliche Intelligenz. In der Zeichentrickserie Die Jetsons (1962-1963) gab es intelligente Uhren, fahrerlose Autos und Roboterassistenz. Obwohl die Technologie noch nicht weit verbreitet oder gar verfügbar war, wurden die Menschen an die Idee gewöhnt, dass Computer klein, leicht und vielseitig sein würden und weit mehr als nur Texteingabe oder Berechnungen ermöglichen würden.

Die 1970er Jahre waren das Jahrzehnt vor dem Personal Computer. Spielkonsolen für den Heimgebrauch wurden kommerziell hergestellt, und Spielhallen kamen auf. Computer wurden immer erschwinglicher, waren an den besten Universitäten erhältlich und wurden auch im kommerziellen Bereich immer häufiger eingesetzt. Joysticks, Knöpfe und Schalter schafften leicht den Sprung zur Eingabe in Videospiele und begannen ihren eigenen Weg als Spielcontroller. Das berühmte Palo Alto Research Center (PARC) der Xerox Corporation begann mit der Arbeit an einem integrierten Maus- und GUI-Computerarbeitsplatzsystem namens Alto. Der Alto und sein Nachfolger, der Star, waren sehr einflussreich für die erste Welle von Personal Computern, die Anfang bis Mitte der 1980er Jahre von Apple, Microsoft, Commodore, Dell, Atari und anderen hergestellt wurden. PARC entwickelte auch einen Prototyp von Alan Kays KiddiComp/Dynabook aus dem Jahr 1968, einem der Vorläufer des modernen Computer-Tablets.

Modalitäten im Wandel der Zeit: Das Aufkommen des Personal Computing

Oft denken die Leute, dass die Maus und die grafische Benutzeroberfläche eine große und unabhängige Ergänzung zu den Computermodalitäten darstellen. Aber schon in den 1970er Jahren stellte Summagraphics sowohl einfache als auch hochwertige Tablett- und Stylus-Kombinationen für Computer her. Eine davon wurde 1979 als Apple Graphics Tablet für den Apple II auf den Markt gebracht. Es war relativ teuer und wurde nur von wenigen Softwaretypen unterstützt, was gegen zwei der fünf Regeln verstieß. 1983 brachte HP mit dem HP-150 den ersten Touchscreen-Computer heraus. Allerdings war die Tracking-Treue recht gering, was gegen die Regel "Benutzerfehler" verstieß.

Als die Maus zum ersten Mal in Personalcomputer-Paketen enthalten war (1984-1985), wurde sie vom Betriebssystem unterstützt, das seinerseits für die Eingabe mit der Maus ausgelegt war. Das war ein entscheidender Wendepunkt für Computer: Die Maus war nicht länger eine optionale Eingabe, sondern eine wesentliche. Statt einer Kuriosität oder eines optionalen Peripheriegeräts mussten Computer nun mit Tutorials geliefert werden, die den Benutzern den Umgang mit der Maus beibringen, wie in Abbildung 1-4dargestellt - ähnlichwie Videospiele ein Tutorial enthalten, in dem die Spieler lernen, wie die Aktionen des Spiels den Controllertasten zugeordnet werden.

Screenshot of the Macintosh SE Tour, 1987
Abbildung 1-4. Screenshot der Macintosh SE Tour, 1987

Es ist leicht, auf die 1980er Jahre zurückzublicken und zu denken, dass der Personal Computer eine eigenständige Innovation war. Aber im Allgemeinen gibt es nur sehr wenige Innovationen in der Informatik, die den Bereich in weniger als einem Jahrzehnt im Alleingang vorangebracht haben. Selbst die berühmtesten Innovationen, wie FORTRAN, brauchten Jahre, um populär und kommerziell zu werden. Viel häufiger ist die treibende Kraft für die Akzeptanz einer scheinbar neuen Innovation einfach das Ergebnis der Tatsache, dass die Technologie endlich die oben genannten fünf Regeln erfüllt: Sie ist billig, zuverlässig, komfortabel, verfügt über Software, die die Technologie nutzt, und hat eine akzeptable Benutzerfehlerquote.

Es kommt sehr häufig vor, dass die erste Version einer scheinbar neuen Technologie in Wirklichkeit schon vor Jahrzehnten oder sogar Jahrhunderten erfunden wurde. Wenn die Technologie so offensichtlich ist, dass mehrere Leute versuchen, sie zu bauen, und sie trotzdem nicht funktioniert, schlägt sie wahrscheinlich bei einer der fünf Regeln fehl. Sie muss einfach warten, bis sich die Technologie verbessert oder die Herstellungsprozesse aufholen.

Diese Binsenweisheit wird natürlich in der Geschichte von Virtual Reality (VR) und Augmented Reality (AR) verdeutlicht. Obwohl die ersten stereoskopischen Head-Mounted-Displays (HMDs) in den 1960er Jahren von Ivan Sutherland entwickelt wurden und seit den 1990er Jahren bei der NASA routinemäßig zum Einsatz kommen, wurde die Technologie erst Jahrzehnte später durch die Entwicklung mobiler Elektronik und leistungsstarker Grafikprozessoren (GPUs) zu einem kommerziell akzeptablen Preis verfügbar. Auch heute noch kosten eigenständige High-End-HMDs entweder Tausende von Dollar oder sind nicht im Handel erhältlich. Aber ähnlich wie bei Smartphones in den frühen 2000er Jahren können wir einen klaren Weg von der aktuellen Hardware in die Zukunft des Spatial Computing erkennen.

Bevor wir uns jedoch mit der heutigen Hardware beschäftigen, wollen wir den Weg von den PCs der frühen 1980er Jahre bis zu den heute am weitesten verbreiteten Computern, den Smartphones, nachzeichnen.

Modalitäten im Wandel der Zeit: Computer-Miniaturisierung

Computer mit miniaturisierter Hardware sind bereits 1984 mit dem Psion Organizer aus der Taschenrechner- und Computerindustrie hervorgegangen. Der erste erfolgreiche Tablet-Computer war das GriDPad, das 1989 auf den Markt kam und dessen Vizepräsident für Forschung, Jeff Hawkins, später den PalmPilot gründete. Apple brachte 1993 den Newton auf den Markt, der über ein System zur handschriftlichen Zeicheneingabe verfügte, aber nie große Verkaufszahlen erreichte. Das Projekt wurde 1998 eingestellt, als der Nokia 900 Communicator - eine Kombination aus Telefon und persönlichem digitalen Assistenten (PDA) - und später der PalmPilot die Miniaturcomputerlandschaft dominierten. Ebenfalls 1998 brachte Diamond Multimedia den MP3-Player Rio PMP300 auf den Markt ( ), der sich im Weihnachtsgeschäft als Überraschungshit entpuppte. Dies führte zum Aufstieg anderer beliebter MP3-Player von iRiver, Creative NOMAD, Apple und anderen.

Im Allgemeinen hatten PDAs Eingabemöglichkeiten mit Stift und Tastatur; Einweggeräte wie Musikplayer hatten einfache Tasteneingaben. Die PalmPilots wurden fast von Anfang an mit dem Handschrifterkennungssystem Graffiti ausgeliefert, und der Palm VII verfügte bereits 1999 über eine Netzwerkverbindung. Der erste Blackberry kam im selben Jahr mit Tastatureingabe auf den Markt, und 2002 hatte Blackberry ein eher konventionelles Kombigerät aus Telefon und PDA.

Aber diese winzigen Computer hatten nicht den Luxus von Tastaturen in Menschengröße. Dadurch wurde nicht nur der Bedarf an einer besseren Handschrifterkennung, sondern auch an echten Fortschritten bei der Spracheingabe immer größer. Dragon Dictate kam 1990 auf den Markt und war die erste verfügbare Option für Verbraucher - auch wenn es mit einem Preis von 9.000 Dollar die "Billig"-Regel schwer verletzte. 1992 führte AT&T die Spracherkennung für seine Call Center ein. Lernout & Hauspie erwarb in den 1990er Jahren mehrere Unternehmen und wurde in Windows XP eingesetzt. Nach einem Bilanzskandal wurde das Unternehmen von SoftScan - später Nuance - aufgekauft, das als erste Version von Siri lizenziert wurde.

2003 führte Microsoft die Sprachsteuerung für seinen Windows Mobile PDA ein. Bis 2007 hatte Google einige Nuance-Ingenieure eingestellt und war mit seiner eigenen Spracherkennungstechnologie auf dem besten Weg. Heute ist die Sprachtechnologie zunehmend allgegenwärtig und die meisten Plattformen bieten ihre eigene Technologie an oder entwickeln sie, vor allem auf mobilen Geräten. Es ist erwähnenswert, dass es 2018 noch keinen plattform- oder sogar unternehmensübergreifenden Standard für Spracheingaben gibt: Die Modalität ist einfach noch nicht ausgereift genug.

PDAs, Handhelds und Smartphones waren von Anfang an fast immer mit einer anderen Technologie austauschbar - als Taschenrechner, Telefon, Musikplayer, Pager, Nachrichtenanzeige oder Uhr. Letztendlich sind sie alle einfach nur verschiedene Ausschnitte aus der Computerfunktionalität. Daher kann man die Veröffentlichung des iPhones im Jahr 2007 als Wendepunkt für die Kleincomputerbranche betrachten: Bis 2008 verkaufte Apple 10 Millionen mehr Geräte als das nächstbeste, das Nokia 2330 classic, obwohl das Nokia von 2007 bis 2008 konstant 15 Millionen Stück verkaufte. Das iPhone selbst hat die iPod-Verkäufe erst 2010 abgelöst, nachdem Apple den Nutzern den vollen Zugang zu iTunes ermöglicht hat.

Ein starker Trend bei allen Kleincomputern, unabhängig von der Marke, ist der Trend zu Toucheingaben. Hierfür gibt es mehrere Gründe.

Je mehr wir sehen können, desto höher wird die Qualität des Geräts wahrgenommen. Bei kleineren Geräten ist der Platz knapp, und wenn man die Bedienelemente aus dem Gerät entfernt, steht ein größerer Prozentsatz des Geräts für ein Display zur Verfügung.

Der zweite und dritte Grund sind praktischer und fertigungstechnischer Natur. Solange die Technologie billig und zuverlässig ist, bedeuten weniger bewegliche Teile geringere Produktionskosten und weniger mechanische Brüche - beides enorme Vorteile für Hardware-Unternehmen.

Der vierte Grund ist, dass die Eingabe mit den Händen als natürlich empfunden wird. Auch wenn keine winzigen Gesten möglich sind, kann eine gut gestaltete, vereinfachte Benutzeroberfläche viele der Probleme umgehen, die durch Benutzerfehler und Verdeckungen entstehen. Ähnlich wie bei der Umstellung von der Tastatur auf Maus und GUI ermöglichen die neuen Schnittstellenrichtlinien für Touch eine einigermaßen konsistente und fehlerfreie Erfahrung für die Nutzer/innen, die mit einer maus- oder stiftbasierten GUI fast unmöglich wäre.

Der letzte Grund für den Trend zu Toucheingaben ist einfach eine Frage des Geschmacks: Die aktuellen Designtrends gehen in einer Zeit, in der Computertechnologie überwältigend sein kann, in Richtung Minimalismus. So kann ein vereinfachtes Gerät als einfacher zu bedienen wahrgenommen werden, auch wenn die Lernkurve viel schwieriger ist und Funktionen entfernt wurden.

Ein interessanter Verbindungspunkt zwischen Händen und Mäusen ist das Trackpad, das in den letzten Jahren die Multitouch-Gesten des Touchpads nachahmen kann und gleichzeitig die Verdeckungsprobleme der Hand-Display-Interaktion vermeidet. Da das Tablet eine relative Eingabe ermöglicht, die im Verhältnis zur Gesamtgröße des Bildschirms stehen kann, sind feinere Gesten möglich, ähnlich wie bei einer Maus oder einem Stift. Es gibt immer noch einige der Probleme, die bei der Eingabe mit der Hand auftreten - Ermüdung und das Fehlen der physischen Unterstützung, die es der menschlichen Hand ermöglicht, ihre feinfühlige Arbeit mit Werkzeugen zu verrichten -, aber es ist für fast alle herkömmlichen Interaktionen auf Betriebssystemebene nutzbar.

Warum haben wir das alles gerade besprochen?

Was war also der Sinn unserer kurzen Geschichtsstunde? Um die richtigen Weichen für die Zukunft zu stellen, in der wir uns vom Bereich des Bekannten, der heutigen Datenverarbeitung, in die unbekannte Zukunft der räumlichen Eingaben bewegen werden. Zu einem bestimmten Zeitpunkt ist es leicht, anzunehmen, dass wir alles wissen, was bis zur Gegenwart passiert ist, oder dass wir immer auf dem richtigen Weg sind. Ein Rückblick auf die Vergangenheit und die Entstehung der Gegenwart ist eine gute Möglichkeit, bessere Entscheidungen für die Zukunft zu treffen.

Kommen wir nun zur Erforschung der Mensch-Computer-Interaktion (HCI) für räumliche Datenverarbeitung. Wir können mit den Grundlagen beginnen, die sich kurzfristig einfach nicht ändern werden: wie Menschen Informationen aufnehmen, verarbeiten und ausgeben können.

Arten der gängigen HCI-Modalitäten

Es gibt drei Hauptwege, auf denen wir mit Computern interagieren:

Visuell

Posen, Grafiken, Text, UI, Bildschirme, Animationen

Auditiv

Musik, Töne, Sound Effekte, Stimme

Physisch

Hardware, Tasten, Haptik, reale Objekte

Beachte, dass bei dem Hintergrund, den wir bisher behandelt haben, physische Eingaben und audiovisuelle Ausgaben die HCI dominieren, unabhängig vom Computertyp. Sollte sich das beim Spatial Computing ändern, in einer Welt, in der dich deine digitalen Objekte umgeben und mit der realen Welt interagieren? Vielleicht. Beginnen wir damit, die Vor- und Nachteile der einzelnen Modalitäten zu untersuchen.

Visuelle Modalitäten

Vorteile:

  • 250 bis 300 Wörter pro Minute (WPM) von Menschen verstanden

  • Extrem anpassbar

  • Auf der menschlichen Seite sofort erkennbar und verständlich

  • Sehr hohe Wiedergabetreue im Vergleich zu Sound oder Haptik

  • Zeitunabhängig; kann einfach für immer im Raum hängen

  • Einfaches Umstellen oder Neuzuordnen, ohne dass die Benutzer das Verständnis verlieren

  • Gute Umgebungsmodalität; wie Werbung oder Schilder, können von den Menschen in ihrer Freizeit wahrgenommen werden

Nachteile:

  • Leicht zu übersehen; Standort abhängig

  • Als Eingabe erfordert es in der Regel ein robustes physisches Gegenstück; Gesten und Posen sind sehr anstrengend

  • Erfordert den präfrontalen Kortex für die Verarbeitung und Reaktion auf komplizierte Informationen, was eine höhere kognitive Belastung bedeutet

  • Okklusion und Überlappung sind der Name des Spiels

  • Am ehesten wird er "unterbrochen", wenn der Nutzer im Fluss ist

  • Sehr präzises visuelles (Augen-)Tracking ist rechenintensiv

Beste Einsatzmöglichkeiten bei HMD-spezifischen Interaktionen:

  • Gut für eingeschränkte Kamerasicht oder andere Situationen, in denen ein Nutzer gezwungen ist, irgendwo hinzuschauen

  • Gut für klare und eindeutige Anweisungen

  • Gut, um schnell viel zu erklären

  • Großartig für Tutorials und Onboarding

Beispiel: ein Smartphone:

  • Entworfen um nur visuell zu sein

  • Funktioniert auch, wenn der Ton ausgeschaltet ist

  • Arbeitet mit physischem Feedback

  • Physische Erleichterungen sind minimal

  • Viele neue Animationssprachen, um Feedback zu zeigen

Physikalische Modalitäten

Vorteile:

  • Blindenschrift: 125 WPM

  • Kann sehr schnell und präzise sein

  • Umgeht höhere Denkprozesse, so dass es leicht ist, in einen physiologischen und mentalen "Flow" zu kommen

  • Das Training wird in den primären motorischen Kortex eingespeist; die intensivere Verarbeitung durch den prämotorischen Kortex oder die Basalganglien wird nicht benötigt

  • Hat eine starke "Das ist real"-Komponente im tierischen Gehirn; ein starker Realitätshinweis

  • Leichtes Feedback wird unbewusst wahrgenommen

  • Geringste Verzögerung zwischen Affordance und Eingabe

  • Beste Eingabemethode für eine einzelne Modalität, da sie am genauesten ist

Nachteile:

  • Kann ermüdend sein

  • Physische Hardware ist schwieriger herzustellen, kann teuer sein und geht kaputt

  • Viel höhere kognitive Belastung während der Unterrichtsphase

  • Weniger flexibel als visuell: Schaltflächen können nicht wirklich verschoben werden

  • Modi erfordern mehr Auswendiglernen für echten Flow

  • Große Schwankungen aufgrund menschlicher Empfindlichkeit

Beste Einsatzmöglichkeiten bei HMD-spezifischen Interaktionen:

  • Flow Staaten

  • Situationen, in denen der Nutzer nicht die ganze Zeit auf die UI schauen sollte oder kann

  • Situationen, in denen der Nutzer nicht die ganze Zeit auf seine Hände schauen sollte

  • Wo Beherrschung ideal oder unerlässlich ist

Beispiel für die Verwendung von Musikinstrumenten:

  • Umfassende physische Errungenschaften

  • Ab einem bestimmten Level ist kein Bildmaterial mehr nötig; der Ersteller ist im Fluss

  • Wird fast immer eine Audio-Feedback-Komponente haben

  • Ermöglicht, dass die Bewegung Teile des Gehirns umgeht - Gedanken werden zu Handlungen

Audio-Modalitäten

Vorteile:

  • 150 bis 160 WPM von Menschen verstanden

  • Omnidirektional

  • Diegetisch, um sowohl Feedback zu geben als auch das Weltgefühl zu verbessern

  • Kann extrem subtil sein und trotzdem gut funktionieren

  • Wie physische Inputs können sie dazu verwendet werden, Reaktionen auszulösen, die keine Verarbeitung auf höchster Ebene im Gehirn erfordern, sowohl bewertende Konditionierung als auch eher grundlegende Stammhirnreflexe.

  • Auch extrem kurze Laute können erkannt werden, nachdem sie gelehrt wurden

  • Großartig für Affordances und Bestätigungsfeedback

Nachteile:

  • Einfache Abmeldung mit aktuellen Geräten

  • Keine Möglichkeit zur Kontrolle der Ausgabegenauigkeit

  • Zeitbasiert: Wenn der Nutzer es verpasst, muss er es wiederholen

  • Kann körperlich abstoßend sein (Stammhirnreflex)

  • Langsamer auf der ganzen Linie

  • Vage, ungenaue Eingaben aufgrund von sprachlichen Einschränkungen

  • Abhängig von Zeitplan und Umsetzung

  • Nicht so anpassbar

  • Potenziell prozessorintensiv

Beste Einsatzmöglichkeiten bei HMD-spezifischen Interaktionen:

  • Gut für viszerale Reaktionen

  • Eine gute Möglichkeit, um Nutzer dazu zu bringen, sich eine bestimmte Sache anzusehen

  • Großartig für benutzergesteuerte Kamera

  • Großartig, wenn die Benutzer visuell und physisch eingeschränkt sind

  • Großartig für den Moduswechsel

Beispiel für einen Anwendungsfall - ein Operationssaal:

  • Der Chirurg ist visuell und physisch gefangen; Audio ist oft die einzige Wahl

  • Kontinuierliche Sprach-Updates für alle Informationen

  • Sprachbefehle für Werkzeuge, Anfragen und Bestätigungen

  • Die Stimme kann die dichtesten Informationen über den aktuellen Stand der Dinge und mentale Zustände liefern; sehr nützlich in Hochrisikosituationen

Nachdem wir nun die Vor- und Nachteile der einzelnen Modalitäten aufgeschrieben haben, können wir uns mit dem HCI-Prozess beschäftigen und richtig abbilden out the cycle. Abbildung 1-5 zeigt einen typischen Ablauf, gefolgt von einer Beschreibung, wie er sich auf ein Spielszenario übertragen lässt.

Cycle of a typical HCI modality loop
Abbildung 1-5. Zyklus einer typischen HCI-Modalitätsschleife

Der Zyklus besteht aus drei einfachen Teilen, die sich in fast allen HCIs wiederholen:

  • Die erste ist in der Regel die Entdeckungsphase, in der der Nutzer herausfindet,was er tun kann.

  • Die zweite ist die Eingabe- oder Aktionsphase, in der der/die Nutzer/in die Sache erledigt.

  • Die dritte Phase ist die Feedback- oder Bestätigungsphase, in der der Computer die Eingabe bestätigt, indem er auf irgendeine Weise reagiert.

Abbildung 1-6 zeigt die gleiche Grafik, jetzt ausgefüllt für eine herkömmliche Konsolen-Videospiel-Tutorial-UX-Schleife.

The cycle of a typical HCI modality loop, with examples
Abbildung 1-6. Der Zyklus einer typischen HCI-Modalitätsschleife, mit Beispielen

Gehen wir das mal durch. In vielen Videospiel-Tutorials ist die erste Möglichkeit, mit der ein Nutzer etwas tun kann, in der Regel ein unübersehbares UI-Overlay, das dem Nutzer die Bezeichnung der Taste mitteilt, die er drücken muss. Manchmal wird auch ein entsprechendes Bild oder Modell des Knopfes angezeigt. Es kann auch ein Geräusch dazu kommen, wie z. B. ein Wechsel der Musik, ein Ton oder ein Dialog, aber während des Tutorials ist es hauptsächlich unterstützend und nicht lehrend.

Bei herkömmlichen Konsolen-Videospielen erfolgt die Eingabe ausschließlich physisch, z. B. durch das Drücken einer Taste. Es gibt Erkundungsvideospiele, die Audioeingaben wie Sprache oder eine Kombination aus physischen und visuellen Eingaben (z. B. Handhaltung) nutzen, aber diese sind selten. In fast allen Fällen drückt der Nutzer einfach einen Knopf, um weiterzumachen.

Die Feedback-Phase ist oft eine Kombination aus allen drei Modalitäten: Der Controller hat vielleicht ein haptisches Feedback, die visuelle Darstellung ändert sich fast sicher und es gibt einen Bestätigungston.

Es ist erwähnenswert, dass diese Schleife speziell die Einführungsphase beschreibt. Wenn sich die Nutzer/innen mit dem Spiel vertraut machen und sich verbessern, wird die visuelle Darstellung zugunsten von visuelleren Modalitäten abnehmen. Später im Spiel wird der Sound oft zur wichtigsten Errungenschaft, um eine visuelle Überlastung zu vermeiden - denk daran, dass Audio ähnlich wie physische Modalitäten Reaktionen hervorrufen kann, die die höheren Gehirnfunktionen umgehen. Visuelle Elemente sind die informationsreichsten Modalitäten, aber sie lenken auf begrenztem Raum oft am meisten ab und erfordern auch die meiste Zeit, um sie zu verstehen und darauf zu reagieren.

Neue Modalitäten

Mit der Entwicklung besserer Hardware und neuer Sensoren haben wir neue Möglichkeiten, mit Computern zu kommunizieren und sie dazu zu bringen, uns zu überwachen und auf uns zu reagieren. Hier ist eine kurze Liste von Eingaben, die sich entweder in der Prototyp- oder in der Kommerzialisierungsphase befinden:

  • Standort

  • Atemfrequenz

  • Stimmklang, Tonhöhe und Frequenz

  • Augenbewegung

  • Pupillenerweiterung

  • Herzfrequenz

  • Unbewusste Bewegungen der Gliedmaßen aufspüren

Eine merkwürdige Eigenschaft dieser neuen Eingaben - im Gegensatz zu den drei allgemeinen Modalitäten, die wir besprochen haben - ist, dass sie in den meisten Fällen umso nützlicher sind, je weniger der/die Nutzer/in über sie nachdenkt. Fast jede dieser neuen Modalitäten lässt sich nur schwer oder gar nicht über einen längeren Zeitraum hinweg kontrollieren, vor allem, wenn es sich um eine bewusste Eingabe handelt. Wenn das Ziel darin besteht, Daten für das Training von maschinellem Lernen zu sammeln, wird jeder bewusste Versuch, die Daten zu verändern, wahrscheinlich den gesamten Datensatz verschmutzen. Daher sind sie am besten als passive Eingaben geeignet.

Eine weitere Eigenschaft dieser spezifischen Eingaben ist, dass sie nur in eine Richtung gehen: Der Computer kann auf die jeweilige Änderung reagieren, aber er kann nicht in gleicher Weise reagieren, zumindest nicht, bis sich die Computer erheblich verändern. Selbst dann führen die meisten der aufgelisteten Eingaben zu Rückkopplungsschleifen in der Umgebung und nicht zu direkten oder sofortigen Rückmeldungen.

Der aktuelle Stand der Modalitäten für Spatial-Computing-Geräte

Zum jetzigen Zeitpunkt haben AR- und VR-Geräte die folgenden Modalitätsmethoden in den meisten hardware Angeboten:

Physisch

  • Für den Benutzer Eingabe: Kontrolleure

  • Für die Computerausgabe: Haptik

Audio

  • Für den Benutzer Eingabe: Spracherkennung (selten)

  • Für die Computerausgabe: Sounds und Spatialize Audio

Visuell

  • Für die Benutzereingabe: Hand-Tracking, Handposenerkennung und Eye-Tracking

  • Für die Computerausgabe: HMD

Aus dieser Liste ergibt sich eine Besonderheit: Immersive Computing hat zum ersten Mal zu einem Anstieg der visuellen Eingaben durch Computer Vision geführt, die Körperteile wie Hände und Augen verfolgt. Obwohl die Position und die Bewegung der Hände schon oft eine wichtige Rolle gespielt haben, da sie mit dem Drücken physischer Tasten verbunden sind, haben sie noch nie eine eigene Bedeutung erlangt. Dazu später mehr, aber fangen wir mit der herkömmlichsten Eingabeart an: Controller und Touchscreens.

Stromsteuerungen für Immersive Computing-Systeme

Die gängigste Art von Controllern für Mixed, Augmented und Virtual Reality (XR)-Headsets hat ihre Wurzeln in herkömmlichen Game-Controllern. Es ist sehr einfach, die verpackten Controller eines kommerziellen XR-Headsets auf das Design von Joystick und D-Pad zurückzuführen. Frühe Arbeiten an bewegungsgesteuerten Handschuhen, wie z. B. der VIEWlab der NASA Ames aus dem Jahr 1989, wurden noch nicht in großem Maßstab eingesetzt. Interessanterweise hatte Ivan Sutherland bereits 1964 vorgeschlagen, dass VR-Controller Joysticks sein sollten; 2018 haben fast alle einen Joystick oder ein entsprechendes Daumenpad.

Noch vor den ersten Headsets für Endverbraucher war Sixsense ein Vorreiter im Bereich mit seinen magnetischen Controllern mit Tracking-Funktion, die Tasten auf beiden Controllern enthielten, die jeder Spielkonsole bekannt sind: A und B, Home, sowie allgemeinere Tasten, Joysticks, Bumper und Trigger.

Aktuelle vollständig verfolgte, PC-gebundene Systeme haben ähnliche Eingaben. Die Oculus Rift-Controller, Vive-Controller und Windows MR-Controller haben alle Folgendes gemeinsam:

  • Eine primäre Auswahltaste (fast immer ein Auslöser)

  • Eine sekundäre Auswahlvariante (Abzug, Griff oder Bumper)

  • Äquivalente der A/B-Tasten

  • Eine kreisförmige Eingabe (Daumenpad, Joystick oder beides)

  • Mehrere Schaltflächen auf Systemebene für einheitliche Grundfunktionen in allen Anwendungen

The Sixsense Stem input system
Abbildung 1-7. Das Sixsense Vorbau-Eingabesystem

In der Regel werden diese beiden letzten Elemente verwendet, um Menüs und Einstellungen aufzurufen und die aktive App zu verlassen, um zum Startbildschirm zurückzukehren.

Eigenständige Headsets haben in ihren Controllern eine Teilmenge der vorherigen Liste. Von der nicht getrackten Hololens-Fernbedienung bis zum Google Daydream-Controller mit drei Freiheitsgraden (3DOF), findest du immer die Tasten auf Systemebene, mit denen du Bestätigungen durchführen und dann zum Startbildschirm zurückkehren kannst. Alles andere hängt von den Fähigkeiten des Trackingsystems des HMD und der Gestaltung des Betriebssystems ab.

Obwohl Raycasting technisch gesehen eine visuell verfolgte Eingabe ist, werden die meisten Leute es als eine physische Eingabe betrachten, deshalb muss es hier erwähnt werden. Unter kannst du zum Beispiel mit dem Magic Leap-Controller sowohl mit Raycast als auch mit dem Daumenpad auswählen. Aber 2019 gibt es noch keine Standardisierung für die Raycast-Auswahl mit dem Analogstick oder dem Daumenpad.

Mit der Verbesserung und Standardisierung der Tracking-Systeme wird sich dieser Standard mit der Zeit verfestigen. Beide sind zu verschiedenen Zeiten nützlich, und ähnlich wie beim klassischen Problem der Y-Achsen-Inversion könnte es sein, dass verschiedene Nutzer so unterschiedliche Vorlieben haben, dass wir immer beides zulassen sollten. Manchmal möchtest du auf etwas zeigen, um es auszuwählen, manchmal möchtest du darüber scrollen, um es auszuwählen. Warum nicht beides?

Body Tracking Technologien

Gehen wir die drei heute am häufigsten diskutierten Arten von Body-Tracking durch: Hand-Tracking, Handposenerkennung und Eye-Tracking.

Handverfolgung

Bei der Handverfolgung wird die gesamte Bewegung der Hand auf ein digitales Skelett abgebildet, und anhand der Bewegung oder Haltung der Hand werden Rückschlüsse auf die Eingabe gezogen. Dies ermöglicht natürliche Bewegungen wie das Aufnehmen und Fallenlassen von digitalen Objekten und die Erkennung von Gesten. Die Handverfolgung kann vollständig auf Computer-Vision basieren, Sensoren an Handschuhen enthalten oder andere Arten von Verfolgungssystemen verwenden.

Handposenerkennung

Dieses Konzept wird oft mit der Handverfolgung verwechselt, aber die Handposenerkennung ist ein eigenes Forschungsgebiet. Der Computer wurde darauf trainiert, bestimmte Handhaltungen zu erkennen, ähnlich wie bei der Zeichensprache. Die Absicht wird abgebildet, wenn jede Handhaltung mit bestimmten Ereignissen wie Greifen, Loslassen, Auswählen und anderen üblichen Aktionen verknüpft ist.

Positiv ist, dass die Posenerkennung weniger prozessorintensiv ist und weniger individuelle Kalibrierung erfordert als die robuste Handverfolgung. Äußerlich kann sie jedoch ermüdend und verwirrend für die Nutzer/innen sein, die vielleicht nicht verstehen, dass die Nachbildung der Pose wichtiger ist als die natürliche Handbewegung. Außerdem sind viele Anleitungen zum Erlernen von Handhaltungen erforderlich.

Eye Tracking

Die Augen sind ständig in Bewegung, aber durch die Verfolgung ihrer Position kann viel leichter auf Interesse und Absicht schließen - manchmal sogar schneller, als der Nutzer sich selbst bewusst ist, da die Augenbewegungen aktualisiert werden, bevor die Gehirnvisualisierung aktualisiert wird. Obwohl es als alleinige Eingabe schnell ermüdend ist, lässt sich das Eye Tracking hervorragend mit anderen Arten des Trackings kombinieren. Es kann zum Beispiel verwendet werden, um die Position des Objekts, für das sich ein Nutzer interessiert, in Kombination mit Hand- oder Controller-Tracking zu triangulieren, noch bevor der Nutzer sein Interesse bekundet hat.

Ich habe Body Tracking oder Spracherkennung noch nicht in die Liste aufgenommen, vor allem weil es heute noch keine Technologien auf dem Markt gibt, die auch nur ansatzweise als Standard-Eingabetechnik eingesetzt werden können. Aber Unternehmen wie Leap Motion, Magic Leap und Microsoft ebnen den Weg für alle hier aufgeführten aufkommenden Tracking-Arten.

Ein Hinweis zum Hand-Tracking und zur Erkennung der Handhaltung

Sowohl die Handverfolgung als auch die Erkennung der Handhaltung müssen zu interessanten und etwas kontraintuitiven Veränderungen in der Art und Weise führen, wie Menschen oft über die Interaktion mit Computern denken. Abgesehen von Gesprächsgesten, bei denen die Handbewegung hauptsächlich eine unterstützende Rolle spielt, messen Menschen der Position und Haltung ihrer Hände im Allgemeinen keine Bedeutung bei. Wir benutzen unsere Hände jeden Tag als Werkzeuge und erkennen eine nachgeahmte Geste an der Handlung, auf die sie sich bezieht, z. B. das Aufheben eines Gegenstands. In der Geschichte der HCI bedeutet die Position der Hände jedoch nur sehr wenig. Peripheriegeräte wie die Maus und der Gamecontroller sind sogar so konzipiert, dass sie unabhängig von der Position der Hand funktionieren: Du kannst die Maus links oder rechts halten, du kannst den Controller einen Fuß hoch oder runter vor dich halten - es macht keinen Unterschied, was du eingibst.

Die krasse Ausnahme von dieser Regel sind Touch-Geräte, bei denen die Position der Hand und die Eingabe zwangsläufig eng miteinander verbunden sind. Selbst dann haben Touch-"Gesten" nur wenig mit der Bewegung der Hand außerhalb der Fingerspitzen zu tun, die das Gerät berühren; du kannst mit drei Fingern deiner Wahl eine Wischbewegung ausführen. Das Einzige, was wirklich wichtig ist, ist, dass du die Mindestanforderungen erfüllst, damit der Computer das gewünschte Ergebnis erhält.

Computer Vision, die Hände, Augen und Körper verfolgen kann, ist potenziell extrem leistungsfähig, aber sie kann auch missbraucht werden.

Sprach-, Hand- und Hardware-Eingaben über die nächste Generation

Fragt man die meisten Menschen auf der Straße, geht man davon aus, dass wir im Idealfall mit unseren Computern so interagieren werden, wie wir es mit anderen Menschen tun: normal sprechen und mit den Händen gestikulieren und interagieren. Viele, viele gut finanzierte Teams in verschiedenen Unternehmen arbeiten heute an diesem Problem, und beide Eingabemethoden werden in den nächsten Jahrzehnten sicherlich perfektioniert werden. Beide haben jedoch erhebliche Nachteile, die die Menschen oft nicht bedenken, wenn sie sich das Best-Case-Szenario einer sofortigen, vollständigen Handverfolgung und NLP vorstellen.

Stimme

In der Umgangssprache sind Sprachbefehle nicht präzise, auch wenn sie noch so gut verstanden werden. Selbst einfache Sätze werden oft missverstanden, und oft verwenden andere eine Kombination aus Schlussfolgerungen, Metaphern und Synonymen, um ihre wahre Absicht zu vermitteln. Mit anderen Worten: Sie verwenden mehrere Modalitäten und Modalitäten innerhalb der Modalitäten, um sicherzustellen, dass sie verstanden werden. Jargon ist eine interessante sprachliche Entwicklung: Hochspezialisierte Wörter, die für eine Gruppe eine bestimmte Bedeutung in einem bestimmten Kontext haben, sind eine Art sprachlicher Hotkey, wenn du so willst.

Computer können viel schneller reagieren als Menschen - das ist ihr größter Vorteil. Wenn wir die Eingaben auf die menschliche Stimme reduzieren, bedeutet das, dass wir die Kommunikation mit Computern im Vergleich zu heute deutlich verlangsamen. Tippen, Tippen und das Drücken von Schaltflächen sind allesamt sehr schnell und präzise. Es ist zum Beispiel viel schneller, einen Text zu markieren, die Hotkeys für "Ausschneiden" zu drücken, den Cursor zu bewegen und dann die Hotkeys für "Einfügen" zu drücken, als diese Aktionen einem Computer zu beschreiben. Das gilt für fast alle Aktionen.

Um jedoch ein Szenario zu beschreiben, eine Geschichte zu erzählen oder einen Plan mit einem anderen Menschen zu machen, ist es oft schneller, einfach Worte in Gesprächen zu benutzen, weil jedes mögliche Missverständnis sofort hinterfragt und vom Zuhörer korrigiert werden kann. Dies erfordert ein Maß an Wissen über die Welt, das Computer wahrscheinlich erst mit dem Aufkommen echter künstlicher Intelligenz erreichen werden.

Es gibt noch weitere Vorteile der Spracheingabe: wenn du eine Freisprecheinrichtung brauchst, wenn du anderweitig beschäftigt bist, wenn du ein Diktat mit Transliteration benötigst oder wenn du schnell und ohne weitere Bewegung zwischen den Modalitäten wechseln willst (z. B. "Minimieren! Aussteigen!"). Die Spracheingabe wird immer dann am besten funktionieren, wenn sie zusammen mit anderen Modalitäten verwendet wird, aber das ist kein Grund, sie nicht zu perfektionieren. Und natürlich kann die Spracherkennung und die Sprache-zu-Text-Transkriptionstechnologie auch über die reine Eingabe hinaus eingesetzt werden.

Hände

Visuelle Modalitäten wie Handverfolgung, Gesten und Erkennung der Handhaltung sind durchweg als sekundäre Bestätigung nützlich, genau wie Hand- und Körperhaltungen in normalen menschlichen Gesprächen. Sie werden für das Spatial Computing am nützlichsten sein, wenn wir eine einfache Möglichkeit haben, personalisierte Datensätze für einzelne Nutzer/innen sehr schnell zu trainieren. Dafür sind einige Dinge notwendig:

  • Einzelpersonen können ihre persönlichen biometrischen Daten plattformübergreifend verwalten

  • Eine Möglichkeit für Einzelpersonen, Computern beizubringen, was diese beachten oder ignorieren sollen

Die Gründe für diese Anforderungen sind einfach: Menschen unterscheiden sich stark darin, wie viel sie sich bewegen und gestikulieren und was diese Gesten für sie bedeuten. Eine Person bewegt ihre Hände vielleicht ständig, ohne darüber nachzudenken. Ein anderer gestikuliert vielleicht nur gelegentlich, aber diese Geste hat eine enorme Bedeutung. Wir müssen diese Arten von Bewegungen nicht nur weitgehend an den jeweiligen Nutzer anpassen, sondern auch dem Nutzer selbst die Möglichkeit geben, dem Computer mitzuteilen, worauf er besonders achten und was er ignorieren soll.

Die Alternative zu personalisierten, trainierten Systemen ist weitgehend das, was wir heute haben: eine Reihe von vordefinierten Handhaltungen, die bestimmten Aktionen zugeordnet sind. Bei Leap Motion zeigt eine "Greif"-Geste an, dass der Nutzer ein Objekt auswählen und bewegen möchte. Bei der Hololens zeigt die "Pinch"-Geste an, dass man ein Objekt auswählen und bewegen möchte. Die Magic Leap unterstützt 10 Handposen, von denen einige in verschiedenen Erlebnissen unterschiedlichen Aktionen zugeordnet sind. Das Gleiche gilt für die Oculus Rift-Controller, die zwei Handhaltungen unterstützen (Zeigen und Daumen hoch), die beide auf Aktionen nach Wahl des Entwicklers umgestellt werden können.

Dies erfordert, dass der Nutzer die von der Hardware geforderten Posen und Gesten auswendig lernt, anstatt eine natürliche Handbewegung auszuführen, ähnlich wie bei Tablet-Geräten das Wischen zum Bewegen und das Auf- und Zuziehen zum Zoomen standardisiert wurde. Obwohl diese Art der Zeichensprache zwischen Mensch und Computer das Potenzial hat, sich zu standardisieren und zur Norm zu werden, sollten sich die Befürworter/innen darüber im Klaren sein, dass das, was sie vorschlagen, eine Alternative zu der Art und Weise ist, wie die Menschen heute ihre Hände benutzen, und nicht eine Neuzuordnung. Das wird noch dadurch verschlimmert, dass die menschlichen Hände von sich aus ungenau sind; sie brauchen physische Unterstützung und Hilfsmittel, um wirklich präzise arbeiten zu können, wie in Abbildung 1-8 gezeigt.

Triangulation to support hand weight is important—even if you have a digital sharp edge or knife
Abbildung 1-8. Das Dreieck zur Unterstützung des Handgewichts ist wichtig - selbst wenn du eine digitale scharfe Kante oder ein Messer hast, brauchst du eine Möglichkeit, deine Hand für kleinere Gesten zu stützen

Controller und andere physische Peripheriegeräte

Wie wir in der Einleitung gesehen haben, wurde fast ein ganzes Jahrhundert lang viel Zeit und Mühe in die Entwicklung verschiedener Arten von physischen Eingängen für Computer investiert. Aufgrund der fünf Regeln haben sich die Peripheriegeräte jedoch standardisiert. Von den fünf Regeln sind hier zwei am wichtigsten: Es ist billiger, sie in großem Maßstab herzustellen, und die Eingänge haben sich zusammen mit der Hardware, die sie unterstützt, standardisiert.

Aber wir treten jetzt in eine interessante Zeit für die Elektronik ein. Zum ersten Mal ist es für fast jeden möglich, eigene Peripheriegeräte zu kaufen oder herzustellen, die mit vielen Arten von Anwendungen funktionieren können. Die Leute stellen alles aus Teilen von Drittanbietern her: von Tastaturen und Mäusen bis hin zu Frankenstein-gefertigten Vive-Trackern auf Baseballschlägern oder Haustieren und individuellen Lackierungen für ihre Xbox-Controller.

Es ist sehr weit hergeholt anzunehmen, dass die Verbraucherinnen und Verbraucher ihre eigenen Eingaben machen werden, weil das Spatial Computing mehr Anpassungen durch die Nutzerinnen und Nutzer ermöglicht, . Aber es ist leicht anzunehmen, dass die Hersteller ihre Hardware stärker an die Nachfrage anpassen werden. Nimm ein Beispiel aus der Automobilbranche: Allein für den Lexus 4 gibt es mehr als 450 Lenkradoptionen; wenn du alle Optionen einbeziehst, ergibt das vier Millionen Kombinationen desselben Fahrzeugs. Wenn der Computer persönlich ist und neben dir in deinem Haus steht, werden die Menschen eine starke Meinung darüber haben, wie er aussieht, sich anfühlt und reagiert, genau wie bei ihren Fahrzeugen, ihren Möbeln und ihren Tapeten.

Das Gerede von intensiver Anpassung, sowohl auf der Plattform- als auch auf der Benutzerseite, führt uns zu einem neuen Gedankengang: Spatial Computing ermöglicht es Computern, so individuell und vielfältig zu sein wie das Haus einer durchschnittlichen Person und wie sie die Gegenstände in ihrem Haus anordnet. Die Eingaben müssen also genauso vielfältig sein. So wie jemand zum Schreiben einen Stift gegenüber einem anderen wählt, wird dies auch für alle Aspekte der Computerinteraktion gelten.

Get Erweiterte und virtuelle Realitäten schaffen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.