音声認識・音声出力を利用した電子カルテ向け入出力アプリケーションの試作 筑波技術大学保健科学部保健学科鍼灸学専攻1) 同保健科学部附属東西医学統合医療センター2) 木村 友昭1) 津嘉山 洋2) 要旨:音声認識と音声出力を利用した電子カルテ向け入出力アプリケーションを、(1)定型的所見採取、(2)対話型スコア入力の2種をモデルケースとして試作し、動作試験を行った。鍼灸電子カルテへの音声入力システムの適用は、定型的な書式をもつ情報を入力する場面では現時点においてもすでにある程度の実用性があり、視覚に障害をもつユーザーの入力補助手段として有用と思われた。 キーワード:鍼灸,電子カルテ,ユーザーインターフェース,音声認識,視覚障害者 1.はじめに  医療情報を電子的に記録・保存する電子カルテシステムの実用化と普及に向けての努力は、1999年の厚生省による医療情報電子化への条件付き肯定見解[1]や、2001年の具体的普及目標を盛り込んだグランドデザイン[2]の発表によりその勢いを増してきており、今後さらに導入施設が増加すると予想される。電子カルテシステムには、従来の紙ベースのカルテと比較して、(1)情報の検索が容易なこと、(2)情報保管スペースが節約できること、(3)医療機関内や地域医療機関間における情報共有・伝達が容易なこと、(4)診療情報を蓄積することにより、病院の管理・経営や臨床研究のためのデータベースを構築出来ること、など様々な利点がある[3]。また、高度な視覚障害をもつ医療関係者にとっては、紙ベースのカルテ情報を共有することは単独では全く不可能であり、音声出力システムを併用した電子カルテは情報共有のための最良かつ必須のソリューションであると考えられ、本学においてもこれまで様々な試みがなされている[4-6]。  一方、電子カルテへの情報入出力の操作性を決定づけるユーザーインターフェースは、運用効率に直接的に影響することからますます重要な検討課題となりつつある[3]。近年急速に進歩しつつある音声認識システムは、操作に視覚情報を必要としない点で視覚障害者の電子カルテへの情報入力手段のひとつとして有望だと考えられる。  そこで今回我々は、音声認識を利用した電子カルテ入力システムの可能性を検討することを目的として、定型的所見採取と対話型スコア入力のモデルケースを設定し、音声認識と音声出力を利用した電子カルテ向け入出力アプリケーションを試作した。 2.音声認識エンジンの選定およびハードウェア構成 2.1 音声認識エンジンの選定  現在の音声認識エンジンの基本システムはルール型とディクテーション型に大別され、それぞれに長所と短所がある。  ルール型音声認識エンジンは、あらかじめ登録してある単語の組み合わせ(文法)のみを受け付ける方式で、コンピュータのCPUパワーやメモリ等のリソースを消費せずに認識精度が上げやすい利点がある。その一方で、あらかじめ登録してある単語・文法以外は認識が行えないため、認識パターンを増やすためには単語・文法の登録数を増やさねばならず、自由文の処理には向かないことがデメリットである。  ディクテーション型音声認識エンジンは、特定の単語・文法に依らず、発話された自由文を逐次認識する方式である。このため、汎用性は高いが、逆に発話された情報全てが認識対象となるため、ルール型のシステムと比較して高いコンピュータの処理能力を要求すること、認識精度が上げにくいため、発話者の特徴をあらかじめ登録するなど、何らかの工夫が必要であることなどがデメリットと考えられる。  今回試作するシステムにおいては、(1)高い認識精度が期待できること、(2)所見採取等のシチュエーションでは、認識させるべき情報がそれほど自由度をもたず、定型文としての処理が十分可能であろうという判断からルール型を採用することとし、ルール作成が比較的容易に可能であること、事前に利用者の音声の登録(エンロール作業)が必要なく、不特定者による音声入力が可能である利点から、AmiVoice4.0(アドバンストメディア製)を選定した。 2.2 ハードウェア構成  ノートブック型パーソナルコンピュータ(SONY製PCG-C1VJ/BP、PCG-Z1/P)とマイクロホン付ヘッドホンおよびUSBペダルで構成した。USBペダルは、操作するとマイクからの音声入力を受け付けるように汎用USBキーボードの回路を改造して作成した(図1)。 3.モデルケース1: 所見採取アプリケーションの試作 3.1 目的と対象  本モデルケースでは、定型的処理が可能な情報をユーザーが能動的に音声入力し、結果を読み上げる電子カルテ入力システムを想定し、その例として鍼灸の臨床現場で取り扱う機会の多い、頚肩部の愁訴に対する所見計5種類24項目を対象とした(表1)。 3.2 標準入力文法(ルールグラマ)の検討・試作  このモデルにおけるパラメータの種類は、++、+、±、−の4段階評価(+/−型)、0〜90までの5刻みの整数値(数値型)、0 〜 5 の整数値(6段階数値型)の3種類であった。各項目の入力に必要とされる語彙を抽出し、この結果をJava Speech Grammar Format(JSGF)Version 1.0に準拠して定義・記述し、音声認識エンジンに登録させる標準入力文法(ルールグラマ)を作成した。作成に当たっては、筑波技術短期大学附属診療所(現:筑波技術大学保健科学部附属東西医学統合医療センター)鍼灸施術室において鍼灸師数名からインタビューした結果をふまえて、項目の入力順序や同一項目の複数の呼び方をある程度考慮し、柔軟性を持たせるよう試みた。  図2に神経学的所見のひとつである所見項目“深部腱反射”を例にとり、入力順序のバリエーションを示す。このケースでは左右の宣言の位置、あるいは左右別連続入力項目、または左右が同様の所見であった際の同時入力など、利用される状況に合わせて4通りの文法を定義した。また、図3には“深部腱反射”における同一概念に対する複数の呼び方の例を示す。たとえば、“上腕二頭筋反射”であれば、フルネームである「じょうわんにとうきんはんしゃ」に加え、略式に用いられることの多い「にとうきんはんしゃ」、「びーてぃーあーる」などの読みも同義として取扱い、“++”であれば、「つーぷらす」、「にぷらす」、「ぷらすぷらす」に加え、「こうしん」でも入力を許可するなど、想定される同一概念の複数の呼び方について対応した。  以上のように利用上必要最小限と考えられる柔軟性を検討した結果、本モデルケースにおける5種類24所見項目(表1)について、23の文法が宣言され、12、032通りの入力パターンが定義された。 3.3 入出力アプリケーションの作成  音声認識エンジンをコントロールし、入力された各所見を表示するアプリケーションを作成した(図4)。開発言語にはVisual BASIC 6.0(Microsoft製)を使用した。本アプリケーションでは、画面上に所見を表示するのみでなく、音声認識の成否と認識結果を合成音声で読み上げるようにした。音声出力エンジンにはTTS3000(Lemount&Hauspie製)を使用した。 図1 ハードウェア構成 表1 モデルケース1において対象とした所見項目 図2 入力順序のバリエーションの例 図3 同一用語の複数の呼び方の例 図4 所見入出力アプリケーション(モデルケース1) 表2 腰痛治療成績判定基準(JOAスコア) 4.モデルケース2:対話型スコア入力システムの試作 4.1 目的と対象  各種スコア等の入力においては、判定基準を参照する場合があり、このような状況でディスプレイフリーを達成するための方法の一つとして、音声出力により適切なガイダンスを行うことが考えられる。  また、入力すべき内容が単純な場合(点数やブール値等)、ガイダンスは音声で受け、入力はキー操作で入力する方が効率が向上する可能性がある。以上の点を考慮し、モデルケース2では定型的な所見入力のためのガイダンスを音声出力し、音声またはキー操作で結果を入力する対話型入力システムを試作した。  対話的な入力支援が要求されうる所見採取の例として、日本整形外科学会腰痛治療成績判定基準[2](以下JOAスコア)を採用した(表2)。本スコアは、各項目ごとに判定基準が設定された−9〜3までの整数値を入力する必要があり、そのスコア得点の合計で腰痛の重症度を判定するものである。 4.2 入出力アプリケーションの作成  モデルケース1 と同様の開発環境において、先の条件をみたすアプリケーションを作成した(図5)。  ガイダンスの読み上げのうち、最も時間を必要とするスコア項目の判定基準については、すべてを読み上げるモード(モード1)と、省略できるモード(モード2)を設け、入力者のスコアに対する熟練度に応じて入力効率が向上するようにした。モード1とモード2における音声合成によるコンピュータからのガイダンスと、それに応じたユーザーの操作例をそれぞれ図6と図7に示す。また、モード2利用時においても、判定基準が必要な場合は“せつめい(説明)”と発声するか、キー入力(F5)キーによって、呼び出すことが出来るようにした。  さらに、本モデルケースでは入力された内容のデータベースへの保存や過去の記録の呼び出しも音声コマンドでコントロールすることも試みた。図8にデータベースの読み出しにおける音声操作文法を示す。レコード読み上げ操作、書き込み操作共に、用語の省略、および同意語をある程度考慮し、柔軟性をもたせるように配慮した。  なお、スコア入力、データベース操作のすべての場面において、次に入力すべきコマンドを音声あるいはキーで入力することにより、音声出力を途中で打ち切り、処理を開始できるようにした。 4.3 結果および考察  モデルケース1と同様に、鍼灸師スタッフを対象として動作確認を行った。項目名とその評価基準が音声出力されることにより、対話形式でスコアの入力が可能であった。本システムがディスプレイによる情報の確認が困難な視覚障害者のための入力支援に有用であると考えられた。また、音声によるデータベース操作についても実用的な認識精度で可能であった。今後電子カルテシステムが機能を増し、操作が複雑化した場合には、音声コマンドによる直接的なアクセスのメリットは増すものと思われる。ただし、ベッドサイドにおいては音声入力のみでは利用しにくい状況も生じうるため、他の入力法(キー入力など)と状況に応じて使い分けられるようなシステム設計が望ましいと考えられた。 図5 スコア入出力アプリケーション(モデルケース2) 図6 ユーザー操作の例(詳細モード) 図7 ユーザー操作の例(簡略モード) 5.まとめおよび今後の課題  今回我々は、定型的な所見採取と、対話型スコア入力をモデルとして音声入力・出力可能なアプリケーションを試作した。鍼灸電子カルテへの音声入力システムの適用は、定型的な書式をもつ情報を入力する場面では現時点においてもすでにある程度の実用性があり、視覚に障害をもつユーザーの入力補助手段として有用と思われる。  一方、カルテ情報には定型的でなく、自由形式で記載した方が好都合な情報も多くある。このタイプの情報の入力手段としてはルール型音声認識システムでは限界があると予想される。音声認識を利用した入力システムの適用範囲を広げるためには、今後鍼灸医学領域に特化した自由文認識のためのディクテーション型音声認識エンジンの開発も必要となると考えられた。 図8 データベースの音声操作の例(読み出し操作) 参考文献 [1] 厚生省:診療録等の電子媒体による保存について.平成11年4月22日. [2] 厚生労働省:保健医療分野の情報化にむけてのグランドデザインの策定について.平成13年12月26日. [3] 小西 敏郎,石原 照夫:電子カルテとクリティカルパスで医療が変わる,第1版,インターメディカ,東京,2004. [4] 上田 正一:電子カルテシステム−ローカルエリアネットワークを利用した視覚障害学生の為の鍼灸臨床教育用音声カルテシステムの開発報告−.筑波技術短期大学テクノレポート1:103-108, 1994. [5] 宮村 健二,上田 正一:実習室用電子カルテシステムの開発と活用.筑波技術短期大学テクノレポート3:87-90,1996. [6] 村上 佳久,上田 正一:カルテキーパー Ver..2(電子カルテシステム Ver.3)開発環境. 筑波技術短期大学テクノレポート8:133-137, 2001. [7] 腰痛治療成績判定基準.日本整形外科学会雑誌 60(3):391-394, 1986. Development of prototype input/output applications for electronic medical records using voice recognition and voice synthesis systems KIMURA Tomoaki1) TSUKAYAMA Hiroshi2) 1) Course of Acupuncture and Moxibustion, Department of Health, Faculty of Health Sciences, Tsukuba University of Technology 2) Center for Integrative Medicine, Faculty of Health Sciences, Tsukuba University of Technology Abstract: We developed two types of input/output applications for electronic medical records using voice recognition and voice synthesis systems. One type of application was designed to collect formatted information, and the other was optimized to input scores interactively. Operation tests were performed for both types. The application of the voice recognition system for electronic medical records of acupuncture and moxibustion was found to be practical with regard to inputting formatted information. Further, the system also appears to be helpful as a data input aid for visually impaired users. keyword: acupuncture and moxibustion, electronic medical records, user interface, voice recognition, visually impaired users