「Apple Vision Pro」は何がヤバいのか、UXデザイナーが12,000文字で徹底解説する【インターフェイス編】
日本時間6月6日、Appleの新型ヘッドマウントディスプレイ「Apple Vision Pro(以下、Vision Pro)」が発表されました。
Appleファンはもちろん、各方面から反響は凄まじく、発表翌日の日本経済新聞でも大々的に取り上げられました。それだけ巨大ビジネスになる可能性があると見なされているということですね。
さて、発表の際にAppleのCEOティム・クック氏は以下のように述べています。
今日は、コンピュータの歴史にとって新たな時代の幕開けとなる記念すべき日となるでしょう。Macが私たちにパーソナルコンピューティングをもたらし、iPhoneがモバイルコンピューティングを実現したように、Apple Vision Proは私たちを空間コンピューティングの世界へと導きます。(Apple – Newsroom)
AR(拡張現実)やVR(仮想現実)やMR(複合現実)が注目されている昨今、ヘッドマウントディスプレイというジャンルだけで見れば、Appleは後発であり、満を持して殴り込みをかけてきた形だと言えるでしょう。
では、Mac、iPhoneの後続となる空間コンピューティングデバイス「Vision Pro」は何がスゴいのか、そしてどこに革新性があるのでしょうか。
この記事では、XR領域を追ってきたUXデザイナーとしての目線から、Vision Proを「インターフェイス」「ユースケース」そして「空間コンピューティング」の3つの切り口で考察。これまで数多くのイノベーションを起こしてきたAppleが仕掛ける次の挑戦に迫ります。
(注)筆者はVision Proをまだ体験できておらず、以下の考察は、公開された情報や体験者からの情報を基に執筆しています。ご了承ください。
目次
多彩なセンシング技術で「推測のユーザーインターフェイス」を実現
まずはVision Proのインターフェイスからお話ししていきましょう。インターフェイスで最も特徴的なのは、ずばり「コントローラーがないこと」です。
例えば、Meta社が販売する「Meta Quest Pro」やMagic Leap社が販売する「Magic Leap 2」などのAR/VRデバイスでは、物理的なボタンを設けたコントローラがメインインターフェイスに取り入れられていますが、Vision Proでは、コントローラの代わりに手や腕を動かすことによるジェスチャー操作が主要インターフェースとして採用されています。
コントローラを代替するインプットを実現するため、Vision Proには12基のカメラと5つのセンサー、そして6基のマイクが搭載され、更にセンシング処理専用チップ「R1」が組み込まれています。
Vision Proは、従来のディスプレイの枠を超えて広がるアプリのための無限のキャンバスを作り出し、ユーザーの目と手、声という、最も自然で直感的な操作方法によって、完全に3次元化されたユーザーインターフェイスを実現します。(Apple – Newsroom)
コントローラーではなく、多彩なセンサーを取り入れたVision Proは、他のデバイスには類を見ないレベルの「推測に基づいたインターフェイス」として仕上がっているとも言えます。物理的なボタンがなく、ジェスチャーや視線で動かすということは、全ての操作をソフトウェア上で処理、判断(推測)することになる。センシングデータの収集から処理、判断までを極めて高い精度で行う必要があるということです。
Vision Proのインターフェイスでは、大きく5つの認識が行われています。ジェスチャー認識。視線認識、ボイス認識、デバイス認識、そして環境認識。これらの5つを組み合わせることで、人の意志や行動を推測し、人に寄り添うインターフェイスが構築されています。それぞれ見ていきましょう。
ジェスチャー認識
まずはジェスチャー認識。これは主に、デバイスに組み込まれた複数のカメラとセンサーからのインプットを基に、手や腕の動きを認識するものです。
Vision Proのジェスチャー認識の驚異的な点は、その認識範囲でしょう。これまで多くのジェスチャー認識を可能にするデバイスでは、多少なりともセンサーの前に手をかざす必要がありました。
一方のVision Proでは、手をおろした状態、つまり手がカメラの真下付近にあっても、手や腕の動きを認識できるようです。これはタッチスクリーンやVRデバイスの難題だった「ゴリラ腕症候群」の症状を緩和してくれます。
ゴリラ腕症候群とは、タッチスクリーンやコントローラーを操作する際、空中で腕を長時間動かし続けることで、腕が疲れてしまうことです。その点Vision Proはセンサーの認識範囲が広いため、ユーザーが手や腕を下げたり、机や膝などに置きながらでも操作できると考えられます。
視線認識
次は視線認識です。Vision Proには、ユーザーの視線を認識、追跡し、見ている場所を特定する精度の高いアイトラッキング機能(視線追跡機能)が取り入れられています。
人間の目というものは常に複雑に動いており、正確に焦点を特定するためには、高度な視線推定を行う必要があります。インターフェイスとして使用するならなおさらです。
Appleは、コンピュータビジョン技術を開発するSMI社を2017年に買収したことをはじめ、以前から多くのアイトラッキングに関する特許を取得しています。Vision Proは現段階における集大成ともいえるでしょう。
高度なアイトラッキング機能により、視線を送るだけでアプリを選択するなどのインタラクションを行うことができます。それだけでなく、瞳孔の動きから、選択/クリックなどの「ユーザーアクションの予測」や、集中や迷いなどの「ユーザー状態の推測」もできるようになると思われます。
「目」という情報から、ユーザー行動の把握や先取りが行われ、他の認識と合わせてユーザーを補助できるということです。
音声認識
Vision Proの3つ目の主要な認識技術は「音声」。Appleでは「Siri」が代表的ですね。ユーザーの発話によって操作を行うインターフェイスです。発表によると、Vision Proには6つのマイクが搭載されています。複数のマイクの集音により、ユーザーの声を正確に認識できるのでしょう。
後述するように、ジェスチャー認識や視線認識は、文字を入力するなどの細かい動作には不向きです。音声認識で文字・テキスト入力を補完していると思われます。ただし、音声入力は声を発するため周囲への影響があり、いつでも、どの環境でも適しているというわけではありません。それを補完するのが、次に説明する「外部デバイスとの連携」になります。
外部デバイス認識
4つ目の認識対象は外部デバイスです。発表にもあった通り、Vision ProはBluetoothで外部デバイスと接続でき、Appleの入力デバイス「Magic Keyboard」と「Magic Trackpad」などにも対応しています。
ジェスチャー認識や視線認識は繊細な入力アクションには不向きですし、音声認識も正確性という観点でキーボードには劣ります。また、AR/VRコンテンツで見られる眼前に表示される仮想キーボードによる入力では、腕が疲れてしまいますし、触れた際の反応(ハプティクス)もないため、持続的な入力作業には向きません。
業務作業や長時間の入力作業が必要な場合は、Magic KeyboardやMagic Trackpadといった、物理的な外部デバイスを活用した方が生産性を維持できるでしょう。
この外部デバイスとの連携は、AirPodsやApple Watchで培ったデバイスプラットフォーム構築のノウハウが基礎になっているのではないでしょうか。今後、Apple Watchの筋電センサーを利用した入力方法なども採用されるかもしれません。
環境認識
最後は環境認識です。Vision Proにはユーザーの周囲の環境構造を正確にセンシングできる「LiDARセンサー」が搭載されており、空間のレイアウトを正確に読み取り、デジタルコンテンツを空間に持続的に固定できます。
一見当たり前のように感じられるかもしれないですが、直接的に視界に環境が投影されるヘッドマウントディスプレイでは、現実と投影される環境に、少しでもズレや遅延があるだけで体験に深刻な影響を及ぼしますし、コンテンツの位置のズレは没入感を大きく削いでしまいます。
Vision Proに搭載されているカメラやセンサー、そして処理チップは、この環境認識を高い精度で実現することを可能にしているのです。
また、それだけでなく、空間内の物体を区別して認識する技術も取り入れられているとみられ、空間のコンテキストや意味情報を読み取ることが可能だと思われます。Appleが提供するAR開発ツール「ARKit」では、「Scene Geometry」と呼ばれる窓や机などの空間の情報を読み取る機能がすでに提供されており、Vision Proではその機能が更にアップデートされているのかもしれません。
公開されたユースケースでも、ユーザーがMacBookの前に座り、Vision ProがMacBookを認識すると自動的にMacBookのスクリーンがユーザーの前面に大きく広がるような利用シーンが紹介されています。これはVision Proが、ユーザーの環境を読み取り、シームレスに機能のモードを切り替える環境コンテキストドリブンなインターフェースのあり方を示唆しています。
ポインター操作からの卒業──Appleが提示した、人に寄り添う「空間インターフェイス」の未来
Vision Proのインターフェイスが革新的と言えるのは、多彩なセンサーから得られる情報を組み合わせ、複数のインターフェイスを統合的に取り込むことにより、人に寄り添ったインターフェイスを提示している点にあります。
このインターフェイスは、iPhoneやiPad、MacBookとは異なるインターフェイスのあり方、「空間インターフェイス」としてのAppleの見解をうかがうことができます。
体験をシームレスに接続するインターフェイス
これまでのAR/VRのヘッドマウンティングデバイスでのインプット手法は、主に「ポインター」を用いたものでした。ポインターとはユーザーのコントローラーから伸びる線のことで、マウスカーソルのようにUIに重ねることで選択を行います。つまり、ポインターは直接的な選択を行うためのインターフェイスとも言えます。
しかし、あくまで動画で見る限りですが、Vision Proではポインターが登場していません。ここまでカメラ・センサーによる認識を見てきた通り、Vision Proでは直接的な選択ではなく、推測の精度を上げることによる入力形式が取り入れられています。
視線選択である程度の範囲とおおよその対象を見極め、ジェスチャー認識により調整を行い決定をする、または周囲の環境や物体を認識してモードを切り替え、アプリ起動を促すといった、ユーザーの意図をデバイスが汲み取り、操作に反映するインターフェイスとして成立しているように見受けられます。
結果として、Vision Proのインターフェイスは【感覚>知覚>認知>認識>行動】という、人間の認知プロセスをシームレスにつなげ、ある程度代替できるレベルにまで昇華させたというわけです。
そして、Vision Proに搭載されている空間オーディオ技術は、ユーザーの知覚に環境の情報を届ける役割を果たすと考えられます。Appleは、iOS 14の時代から空間オーディオを提供しており、AirPodsとも連携をさせ、ハードウェアとソフトウェアの両面からデバイスとサービスへの実装に取り組んできました。
ユーザーが空間を移動することや没入感の高いコンテンツを楽しむことを前提としたVision Proでは、空間内でのシグナル・ヒントを匂わせる要素として音響が非常に重要となります。今回実装された空間オーディオ技術は、空間インターフェイスには不可欠のものであり、Appleの音響技術をデバイスに組み込んだ集大成であるとも言えます。
空間インターフェイスの制約と在り方
逆に、推測に基づくインターフェイスは、キーボードなどの密集したUIの選択といった繊細な作業には適してはいません。細かい推測には限界があり、誤入力の可能性が高まり、ユーザーにとってのストレスとなります。そのためにVision Proは「Magic Keyboard」と「Magic Trackpad」などの外部デバイスとの接続、連動を可能にしており、Appleのプラットフォームを最大限活用する形を取っているのだと思われます。
また、iPhoneやMacBookなどの物理的制約を持たない空間的なインターフェイスとして、ユーザーに対して適切な距離で、適切な表示を行う工夫も施されています。Appleはすでに空間デザインのガイドラインを公開しており、ユーザーとUI/コンテンツの距離感を一定に保つ工夫や、レイヤー表現を取り入れ、焦点距離を変える必要がないUIデザインについて紹介をしています(参考:Learn about visionOS.)。
これは、スマホやPCなどの平面的なデザインではない、空間インターフェイスであるがゆえに生じるユーザー課題を先取りして対応する試みだと思われます。
「ユーザーに対して、どの程度の距離に表示するのが適切か?」「どのオブジェクトの軸に紐付けるのが適切か?」「ユーザーの焦点をどこの位置、どの程度の奥行きに向けるのが適切か?」など、空間インターフェイスには様々な検討点があり、AppleのvisionOSのガイドラインには、これまでAppleが研究してきたナレッジが詰め込まれています。
このように、AppleはVision Proで、より人に寄り添うインターフェイスのあり方を提唱しています。これまで私たちの生活の中で無意識下で行われていた行動を、シームレスに繋げ、意識下と無意識下の両方で生活を支えていくようなインターフェイスになるのではないでしょうか。
さて、ようやくインタフェース周りの話が終わりました。「ユースケース」の話題については、後編となる【ユースケース編】でお届けできればと思います。お楽しみに!