手話映像の臨場感向上のための立体映像撮影とその表示 筑波技術大学産業技術学部産業情報学科 若月 大輔 加藤 伸子 河野 純大 村上 裕 皆川 洋喜 西岡 知之 内藤 一郎 要旨:これまで聴覚障害者の社会参加を支援するために、遠隔から手話や字幕通訳を提供する遠隔コミュニケーション支援技術に関する研究を進めてきた。 通常、遠隔手話通訳は映像として被保障者に提示される。しかし、映像としての手話は平面的であるため、手の形や動きの奥行きをつかむことができず読みにくかったり誤解を生じたりする場合がある。そこで本研究では遠隔手話通訳映像に奥行き情報を付加して、立体映像として手話を撮影、表示するための方法について検討する。本報告では、主に立体映像をリアルタイムに撮影、表示するための試作システムについて述べる。 キーワード:聴覚障害支援,手話,情報保障,立体映像,遠隔コミュニケーション 1.はじめに  これまで社会参加する聴覚障害者を支援するために、図1のような遠隔から手話や字幕通訳を提供する遠隔コミュニケーション技術に関する研究、支援を進めてきた[1][2]。本研究では、より臨場感の高い次世代の遠隔情報保障システムの実現を目的とし、立体映像を用いた遠隔手話通訳について検討を行っている。  手話は手指の型や動き、顔の表情などの空間的な表現を用いた言語であり、奥行のある動作が正確な内容を伝える上で重要な場合が多い。一方、従来の遠隔コミュニケーションでは、遠隔からの手話は映像として被保障者に提示される。映像としての手話は平面的であるため、手の形や動きなどの奥行きをつかむことが難しい。このため読みにくかったり、誤解を生じたりする場合がある。これを回避するために平面的な映像でも手話を読みやすくなるように表現を工夫することもある。しかし、スムーズに表現するには熟練が必要であり、マニュアル等も整備されていないため習得も容易ではないことが指摘されている[3]。  本研究では、手話による遠隔コミュニケーションの質や可読性を向上させるために、手話影像に奥行き情報を付加して立体映像として手話を撮影、表示するための方法について検討を進めている。本報告では立体映像をリアルタイム撮影、表示するために試作したシステムについて述べる。  従来の立体映像撮影手法として、2台のカメラで左右の目に対応するステレオ映像を同期撮影する方法がある。しかし、立体映像の再生にはステレオ映像の同期再生が必要であり、遠隔コミュニケーションには不向きである。一方、ステレオ映像を1フレームの映像に埋め込む方法もあるが解像度が落ちるため手話が読みにくくなる可能性がある。そこで本研究では、立体映像をカラー映像と奥行き映像に分けて撮影して再生する方法を提案する。提案手法では映像の同期が不要であり、解像度も維持できるため遠隔コミュニケーションにより適すると考えられる。 図1 遠隔コミュニケーションシステム 2.立体映像の撮影 2.1 ステレオ映像による立体映像撮影 これまでの立体映像を撮影するための主な方法として、2台のカメラを用いて視差をつけて同じ対象を撮影する方法がある。撮影したステレオ映像を観察者の左右の目に対応させて提示することで容易に立体映像を表示できる。しかし、左右の映像は厳密に同期させる必要があため、映像遅延や劣化が発生するネットワークを介した遠隔コミュニケーションには不向きである。ステレオ映像の同期を解決するために、図2のように各画像のサイズを縮小して1フレームの映像に収める方法もある。しかし、再生時に元のサイズに伸張するため解像度が落ちてしまうため(図2の場合縦方向の解像度が1/2になる)手話が読み取りにくくなる可能性がある。 2.2 奥行き画像を用いた立体映像撮影  奥行き映像とカラー映像を用いて3Dコンピュータグラフィックス(CG)で立体映像を生成する方法がある[4]。対象の奥行き映像から3次元形状をポリゴンデータとして作成し、その上にカラー画像をマッピングすることで対象物の3Dモデルを生成する。生成された3Dモデルは3DCGとして表示できるため図3のように任意の視点で表示することができる。このため、観察者の左右の視点に応じてステレオの3DCG映像を生成することによって容易に手話の立体映像を表示することができる。  奥行き映像を取得する方法としては、ステレオカメラの映像を画像処理によって解析して得る方法と、対象に赤外線光を照射して反射光の波長で対象物までの距離を得る方法が代表的である。前者は一般的に計算コストが高くリアルタイム処理は難しい。また、精度を高めるためにはステレオカメラの厳密なキャリブレーションが不可欠である。一方、後者は近年急速に発展してきた手法で処理が単純なことから高速に精度良く奥行き映像を取得することが可能である。本研究では後者の方法を採用し、立体映像撮影カメラを試作した。 2.3 本研究で試作した立体映像撮影システム  試作したカメラシステムを図4に示す。奥行き映像を撮影するカメラとしてMESA社SR-3000(解像度:176x144、フレームレート:最大50fps)を用いた。高速かつ高精度に奥行き画像を取得できる。カラー映像を撮影するカメラとしてPointGreyResarch社Grasshopper (解像度:1624x1224、フレームレート:30fps)を用いた。PCで制御できるカメラとしては非常に高解像度で高速に映像をキャプチャー可能であり、近年の主流になりつつあるハイビジョン映像にも十分対応可能であるため採用した。  奥行き映像から対象物(手話者)の3Dポリゴンモデルを生成し、そのポリゴンモデルにカラー映像をマッピングして3DCGを表示するソフトウェアを作成し、描画テストを行ったところ、約20~30fpsでの描画が可能となった。現在はテスト用のプログラムでデバッグ用の無駄なコードも含まれている。今後はプログラムを調整しより安定したフレームレートで表示できるように修正する予定である。 図2 ステレオ映像による立体視の問題点 図3 奥行き映像とカラー映像から生成した3D モデル(上段:合成結果,下段:ワイヤーフレーム) 図4 試作した立体映像撮影用カメラシステム(左がPointGreyResarch社のGrasshopper,右がMESA社のSR-3000) 3.立体映像の表示 3.1 特別なメガネを利用した立体視ディスプレイ  映像を立体として観察するためには、視差のある左右映像を左右の目に別々に提示する必要がある。特別なメガネを利用する主な方法では、液晶シャッタ方式と偏光方式がある。液晶シャッタ方式では、高速に左右映像を交互に表示し、それに同期して右映像が右目に、左映像が左目に見えるようにメガネのシャッタを切り替えて立体視を行う。偏光方式では左右映像にそれぞれ異なる偏光を与えて、左右映像に対応する偏光フィルタメガネを通して立体視を行う。前者は工業・医療関係のシミュレータ、後者は3Dシアターなどのアミューズメントの分野で広く活用されている。  本研究では、これまで聴覚障害者の情報保障を行うために、立体映像を用いた教育支援システムの研究開発を行ってきた[5]。本教育支援システムでは実写立体映像に対して説明等を立体的に書き込むことができるシステムで、立体映像の表示には偏光方式を採用している(図5参照)。教材の構造や奥行き等を容易に把握でき学習効果が期待できる反面、立体視をするためには偏光メガネが必要であり表情が隠れてしまうため、教員と学生間で円滑なコミュニケーションが難しいことが示唆されている。 3.2  偏光方式の大型立体ディスプレイ  手話によるコミュニケーションを重視する場合、表情が隠れないように裸眼で立体視できることが望ましい。現在、ディスプレイ面にパララックスバリアやレンズアレイを貼り付けて左右の目で視差映像を観察することができる裸眼立体視ディスプレイに関する研究が盛んである。  本研究では、PHILIPS社の裸眼立体視ディスプレイPHILIPS 3D Intelligent Display Solutionを採用した。同ディスプレイはレンズアレイによる方法を採用しており、高解像度な立体映像表示が可能である。これらのディスプレイで立体映像を表示するには、一般に多視点分の映像を細かいレンズアレイやバリアにあわせて描画する必要があり処理コストが非常に大きい。しかし、本ディスプレイは専用のハードウェアが搭載されており、リアルタイムに立体映像を表示可能である。  第2.3節で述べた立体映像撮影システムと組み合わせて、手話者の立体映像を撮影し、すぐにそれを立体映像として表示するシステムを作成し確認を行った。手話や表情を読み取るのに十分な解像度で立体映像を表示可能であり、奥行きの提示も良好であった。 図5 偏光方式の大型立体ディスプレイ 4.イベントでの公開  試作したシステムの公表と予備評価のために、つくば市で行われた「一人一人がいきいきと輝いている暮らしを目指して~障害者から高齢社会への提案~」(主催:つくばバリアフリー学習会、2007年12月2日開催)にて出展を行った。図6に示すように、立体映像撮影カメラで体験者を撮影した映像を図中左のノートPCで3DCGとして合成し裸眼立体視ディスプレイに表示する。自分の様子をリアルタイムに立体映像で観察できるコンテンツを公開した。  体験者からは「自然な映像に見える」、「メガネなしでも立体的に見えて不思議だ」、「表情が隠れないので手話のコミュニケーションに有効そうだ」、「遠隔コミュニケーションへの活用を期待する」などの前向きなコメントが多く寄せられ、図7のように手を伸ばして立体映像に触れようとする様子も見られた。奥行き感の個人差はあるがすべての体験者は自分の様子を立体映像を観察することができたと思われる。一方、「映像に遅れを感じる」、「疲れを感じる」、「フレームレートが低い」(出展時は10fps程度)などのコメントもあった。 図6 公開した立体映像撮影・表示システム 5.まとめ  手話による遠隔コミュニケーションの質や可読性を向上させるために、手話映像を立体映像として撮影、表示するための方法について検討を進めている。本報告では立体映像をリアルタイムに撮影し、表示するためのシステムを試作し、予備評価をかねて公開した様子について述べた。本システムではカラー映像と奥行き映像を同時に撮影し、コンピュータを用いてリアルタイムに3DCGとして合成する。表示には裸眼立体視ディスプレイを採用し、表情を隠すことなく立体映像を観察することができる。実際に福祉関係のイベントに本システムを出展し、良好な立体映像を撮影、および表示が可能であることを確認した。  今後は、今回の公表で得られたコメントや意見をもとにシステムを改善し、試作した提案システムの評価を行う。まず、学内での手話の立体映像によるコミュニケーションに関する評価を実施する予定である。次に、後期に実施予定の本学卒業者向けリカレント教育(情報処理技術者試験対策の出張講座)の場に提案システムを適用し、実用レベルでの有効性や問題点を明らかにする計画である。 図7 「一人一人がいきいきと輝いている暮らしを目指して~障害者から高齢社会への提案~」にて参加者が試作システムを体験している様子 文献 [1] 加藤, 他10名 : 講義資料とキーワードを画面合成した遠隔手話通訳システム̶通訳スタジオにおける検討̶, HI学会研究報告集, 9(1):23--28, 2007. [2] 内藤, 他9名 : 遠隔情報保障システムによる学会支援, 筑波技術大学テクノレポート, 14:49--53, 2007. [3] 加藤, 他8名 : 遠隔コミュニケーションのための3次元手話映像提示システムの検討, 筑波技術大学テクノレポート,14:13--16, 2007. [4] 若月, 河野 : 手話の3次元動画の撮影・表示方法に関する研究,筑波技術大学テクノレポート, 14:81--87, 2007. [5] 若月, 他6名 : 3次元立体映像を用いた聴覚障害者のための教育支援システムの研究開発. 筑波技術大学テクノレポート,14:157--162, 2007. A Study of Taking and Imaging a 3-D Video of Real Sign Language for Realistic Sensation Communication WAKATSUKI Daisuke, KATO Nobuko, KAWANO Sumihiro, MURAKAMI Hiroshi, MINAGAWA Hiroki, NISHIOKA Tomoyuki and NAITOIchiro Department of Industrial Information, Faculty of Industrial Technology,Tsukuba University of Technology Abstract: We have studied remote communication support technology in order to assist social participation by the hearing impaired. The technology provides a sign language interpreter with subtitling from a remote studio. The sign language video is usually a 2-D image. However, misunderstandings often occur because the spatial depth of the form and motion of sign language is not recognized easily. We propose a method for taking and imaging a 3-D video of real sign language. Our method generates the 3-D video by combining color and depth images. We describe an experimental system in which 3-D video is taken and imaged in real-time in this paper. Keyword: Hearing impaired, Sign language, Communications support, 3-D video, Remote communication