【ご報告】GAAD Japan 2026 に伊藤理事長が登壇しました ―「AIは情報アクセシビリティを変えるのか」

GAAD（Global Accessibility Awareness Day）は、毎年5月の第3木曜日に世界各地で開催される、デジタルアクセシビリティへの関心を高めるための国際的な啓発デーです。日本では「GAAD Japan」として毎年オンラインセミナーが開かれており、昨年は1,000人を超える参加者が集まるイベントへと成長しています。今年の GAAD Japan 2026 は、5月21日（木）に開催されました。

GAAD Japan 2026 について詳しくはこちら（GAAD Japan 公式サイト）

このたび、ろう当事者からの発表として、当法人理事長の伊藤芳浩が「セッション2：AIは情報アクセシビリティを変えるのか ― ろう当事者から見た可能性と限界」に登壇いたしました。

当事者として、AIをめぐって話したこと

今回の発表は、ろう当事者としての実体験をもとにしたものでした。情報が「届かない」という感覚は外からは見えにくいものの、ずっとそこにある——その実感を出発点に、アクセシビリティとは何か、誰のためのものなのかを考えてきた歩みを率直に語られていました。

そのうえで、最近あらためて注目されている「AI」を絡め、情報アクセシビリティの可能性と限界の両面に触れていました。AIによって何が変わりうるのか、一方で何が変わらないのか。当事者の視点から見えてくることを共有いたしました。

アーカイブのご案内

各セッションのアーカイブは、GAAD Japan 公式 YouTube チャンネルにて公開される予定です。ご興味のある方は、ぜひご覧いただければ幸いです。

GAAD Japan 公式 YouTube チャンネル

スライドとトランスクリプト

当日の発表資料とトランスクリプトを以下に公開いたします。

セッション2：AIは情報アクセシビリティを変えるのか − ろう当事者から見た可能性と限界

皆さん、こんにちは。 今日は「AIと情報アクセシビリティ」についてお話しします。  ただ、先にお断りしておきます。 私はAIの専門家ではありません。 ろう当事者として、AIと向き合ってきた一人です。  その立場から、見えてきた可能性と限界を、率直にお話しできればと思います。 よろしくお願いします。

本題に入る前に、今日扱う4つの言葉を私なりに整理しました。 色々な定義があり、厳密に統一されていないのが現状だと理解しています。  まず、AI字幕。音声を文字に変える技術ですね。 そしてAI手話。これがちょっと特殊で、テキストや音声から手話の動きを生成します。 AI読み上げは、その逆。文字を音声にする。 最後にAIチェッカー。アクセシビリティの問題を自動で見つけてくれる仕組みです。  この4つ、実は「できること」のレベルがかなり違うんです。 それを今日、一つずつ見ていきます。

先に結論を4つ、お話しします。  1番　AIは情報アクセシビリティを、確かに前進させています。 2番　でも万能ではありません。 3番　そしてAIは、中立ではありません。 4番　だから、当事者の関与が欠かせない。  特に3番、ここが今日一番伝えたいところです。 「AIは公平」というイメージを、皆さん持っていませんか? 実はそうではないんです。これから、その理由を一緒に見ていきましょう。

このタイムラインを見てください。 90年代のスクリーンリーダー。2000年代のWebアクセシビリティ。 2010年代のスマホ。そして2020年代の生成AI。  ここで気づいてほしいことがあります。AIって、ある日突然現れた魔法じゃないんです。
30年以上の積み重ねの、最新の段階なんですね。  なぜこれが大事か。「AIで全部解決する」という発想に、私たちは慎重になる必要があるからです。 これまでの技術も、最初は万能視されました。でも実際は、一つひとつ、できることが増えてきた。 AIも同じ流れの中にあります。

では、なぜここに来てAIが急に注目されたのか。理由は3つの掛け算です。 データの量、計算の速さ、そして深層学習 この3つが揃ったから、AIは一気に進化しました。  ところが、ここで大きな落とし穴があります。注目してほしいのは、この一番左の「ビッグデータ」。  「大量のデータ」と聞くと、世界中の声を平等に集めた印象を持ちますよね。でも実際は違うんです。 集めやすいデータ、つまり多数派の声ばかりが集まる。 これがアクセシビリティ問題の出発点です。

データに偏りがあると、誰が取り残されるのか。ここに9つ並べてみました。  手話話者、ろう者・難聴者、発話が標準と異なる人……これらは私たち聞こえない側の話です。  でもよく見てください。方言話者、非ネイティブ、高齢者も入っています。 つまりこの問題は、ろう者だけの話ではないんです。日本語が母語じゃない人。年配の方。訛りのある人。 AIから見ると、みんな「少数派」なんですよ。  「障害者問題」と思われがちですが、実は誰にとっても他人事じゃない。そう思って聞いていただけると嬉しいです。

私たちろう者が、日常でAIと出会う場面。大きく3つあります。会議、公共空間、オンライン。 コロナ禍以降、ZoomやTeamsの自動字幕、急速に増えましたよね。 駅のアナウンスも、文字や手話アバターでの表示が始まっています。 YouTubeの自動字幕も、もう当たり前になりました。  ここでお伝えしたいのは、AIアクセシビリティはもう「未来の話」じゃない、ということです。 すでに現場に入っている。だからこそ、今、立ち止まって考える必要があるんです。

ここからは、私自身の実体験をお話しします。  正直に言いますね。 期待と失望が、入り混じっています。
左側の「AI手話アバター」。初めて見たとき、率直な感想は……「何を言っているのか分からない」でした。  動いてはいます。手も上がる。形もそれっぽい。でも、日本手話として、意味が取れないんです。 なぜか。文法が崩れている。顔の動きがない。口形もない。空間表現も弱い。 手話って、実はこれら全部が揃って初めて言語として機能するんです。動きだけ真似ても、伝わらないんですよ。  一方、右側の「AI字幕」。これは正直、ありがたい技術です。出ること自体が前進です。  ただし、誤変換が多い場面では、かえって混乱します。読めば読むほど、意味がズレていく感覚。経験ある方もいるかもしれません。

ここで、AI手話アバターの中身を覗いてみましょう。大きく分けて、２通りのアプローチがあると考えています。 上半分：テキスト・駆動型。文字を入れて、アバターが動く。 下半分：映像・変換型。写真や動画を元にする。  何が違うのか。左を見てください。 入り口が「テキスト」か「映像」か、ここで運命が分かれるんです。  入り口が違えば、出てくるものの質も、用途も、全く変わる。 次のスライドで、それぞれの中身を見ていきます。

テキスト・駆動型：日本語を入れたら、アバターが手話で表現してくれる。 理屈の上では、最も理想的に見えますよね。 仕組みは、上の枠の通り。翻訳エンジンとモーション合成、この2段階です。 メリットは、テキストを入れるだけで、無限に生成できる。これは強力です。 ただし、課題のところを見てください。
日本語から手話への翻訳精度が、まだ人間の通訳レベルに届いていない。
動きが硬い。文法の要素の一部である手・顔・身体の動きの再現が難しい。 ここで一つ、知っておいてほしいことがあります。 日本手話は、日本語の単語を順番に並べた言語じゃないんです。 別の文法を持つ、独立した言語なんですよ。 だから「翻訳」が必要で、その精度がまだ追いついていない、ということです。

次に、映像・変換型。 こちらにも2種類あります。
まず、静止画ベース。写真1枚から手話動画を生成するやり方です。 SNS映えする使い方ですが、正確性は低く、 動きが、生成のたびにバラバラになります。
つぎに、動画ベース。ここがちょっと面白いんです。  実際のろう者が手話する映像を撮って、それをアバターの動きに置き換えるから精度は高い。  でも、よく考えてみてください。結局、最初に「手話ができる人の撮影」が必要なんです。  「AIが手話を作っている」というより、「人間の手話をAIが見た目だけ変えている」 そういう構造なんですよ。これは大事なポイントです。

ここで、世界の実例を3つ紹介します。

ケース1：ディズニーのAmerica Sign Language(ASL)版。 Encanto(エンカント)やFrozen(フローズン)2、Moana(モアナ) 2のASL版が公開されています。  これは成功例です。注目してほしいのは「音声のタイミングではなく、手話話者のタイミングで手話を表出している」ところ。  つまり、英語の歌詞に合わせて手話を入れるんじゃなくて、ASLとして自然な間で表現を作り直している。 ここがDeaf West Theatreなどとの共同制作の力です。

ケース2：北京冬季五輪。 こちらは失敗例として知られています。 情報の欠落、不自然な動き、ろう者から「わかりにくい」という評価でした。

ケース3：ボストン大学。これが一番、議論を呼んでいます。 教育・人間発達専門の学部長、ご本人は聴者です。手話は知りません。 その挨拶を、本人そっくりのアバターが、事前録画で手話する。  字幕も、人間通訳もある。一見、揃っているように見えるんですよ。 でも、本人が手話を知らないのに、アバターだけが手話する。  これ、本当にアクセシビリティと言えるのか。皆さん、どう思われますか?

3つの事例から、シンプルな教訓が見えてきます。 画面の一番上、ここに今日のポイントがあります。  「AIは手話を作る主体ではない。Deafクリエイターの制作力を増幅する道具」  です。

AIに任せていい部分。これは制作補助です。 意味の分解、整理、候補出し、品質チェック。下準備の仕事ですね。  順番が逆になると、品質が崩れます。

AIに任せると危ない部分、それは、最終表現です。 特に一番下、「聴者の代弁的アバター」。先ほどのボストン大学の例ですね。  下のフロー図を見てください。 「AI、手話監修者、アニメーター、Deafレビュー」の順番です。 ここで大事なのは、AIを最後ではなく、最初に置くこと。 最後を締めるのは、必ずDeafレビューです。

ここで、世界が今どこに向かっているのか、ご紹介させてください。
2026年4月、ボストン大学で、SLxAIサミットという催しが開かれました。
そこで議論された論点を、3つに整理してみました。
1番：文化的主権データセットは当事者の同意と主権の下で管理されるべき。手話を知らない開発者が、単独で踏み込むことへの懸念です。
2番：説明責任と同意データの所有権、適切な報酬、リスク管理。ガードレールをきちんと設置しよう、という議論です。
3番：ろう者のリーダーシップ手話AIの未来を形作る上で、ろうコミュニティが主導的な役割を担う。
下のメッセージを見てください。
「世界は今、ろう者のためにから、ろう者とともに、ろう者が主導してへと舵を切り始めている」
「のために」と「とともに」。ここに、これからのアクセシビリティの方向性が表れていると、私は感じています。

整理のために、表にまとめました。注目してほしいのは、一番下の正確性の列です。  テキスト型は「低〜中」、静止画型は「低」、動画型だけが「高」  つまり、現状で一番実用的なのは、動画ベース。でも先ほど言った通り、動画ベースは元の手話映像が必要なんです。  下のところに、今日のポイントを書きました。 「情報の正確性を担保しつつアクセシビリティを実装するには、当事者の関与が不可欠」 技術の問題じゃなくて、設計と人の問題なんですよ。

次に、AI字幕の話になります。これ、私が実際経験した誤変換です。
「合理的配慮」が「合理的廃炉」。「ろう者」が「老者」。 「手話通訳」が「手話通り役」。「情報アクセシビリティ」が「情報悪セシビリティ」。 笑い話に聞こえるかもしれません。でも、これ、深刻なんです。「合理的配慮」と「合理的廃炉」では、意味が真逆です。 権利の議論をしている最中に、この変換が起きたら……ろう者の側だけ、内容が伝わらない。  これは精度の問題というより、何が間違いやすいかをAIが知らない、ということなんですよ。

AIについて、よく聞く3つの誤解を整理します。
誤解1：「AIがあれば手話通訳はいらない」これは違います。日本手話は、文法も空間表現も複雑な言語。 今のAIで代替できる段階ではありません。
誤解2：「AI字幕は正確」　理想環境では確かに高精度です。でも実際の会議では、精度が落ちます。 次のスライドで具体的な数字を見ますね。
誤解3：「AIは中立」これが、今日一番強調したいところです。 AIは学習データの偏りを引き継ぎます。中立どころか、社会の偏りを増幅することもあるんです。

次に具体的な数字を見ます。
「AI字幕」は理想環境では95〜96%、実会議でも93〜94%。高く見えますよね。でも「15〜20語に1回間違う感覚」とあります。 これ想像してみてください。1分間にだいたい100語話すとして、5、6回は誤変換が起きる計算です。そのうちの1回が固有名詞や専門用語だったら……伝わりません。 真ん中、AI手話。50%未満。これは「文の構成要素ベース」での理解度です。ざっくり言うと、半分も伝わっていない。 ここが、人間通訳の代替にならない、と言われる根拠です。
「AI読み上げ」は明瞭性は95〜96%と高い。ただし、漢字の読み分けや、日本語特有の高低アクセント。 これは案外、難しいんです。たとえば「橋」と「箸」のアクセントの違い。AIはまだ、文脈で完璧に判断できないこともあります。

AIが苦手なものを、ランキングにしました。赤い文字が、特に難しい上位3つです。

1位：手話。空間文法、動作、口形、同時情報処理。すべての要素が、文字データとは性質が違うんです。

2位：雑音環境。

3位：固有名詞 。

下にある文に 「多数派に最適化された入力には強い。マイノリティの言語・文化・身体性には弱い」 とあります。ここに、AIの本質的な特徴が出ています。 AIは、たくさんの例から学ぶ。だから、たくさん例があるものは得意で、少ないものは苦手になる。 これは技術的な問題じゃなくて、構造的な問題なんです。

ここで、皆さんに大事な問いを投げかけます。  AIはアクセシビリティを広げる技術です。でも同時に、新しい格差を作るかもしれない技術でもある。  これが「AIアクセシビリティのパラドックス」です。

このパラドックスを、4つの象限で整理しました。 横軸がリスク、縦軸が効果です。

左上のAI字幕、要約、文字起こし。効果が高くて、リスクは低い。ここは積極的に使っていい領域です。

右上のAI手話アバターや自動翻訳。効果は大きい。でもリスクも高い。慎重に使う必要があります。

一番注意したいのは、右下です。「未成熟なAI導入」「誤情報を生成するシステム」です。効果は低いのに、リスクだけが高い。ここに該当するものは、導入を見送るべき領域です。 AIを「いいもの・悪いもの」で語るんじゃなくて、「どこの象限に置くか」で考える。これが、今日提案したい見方です。

では、誰が責任を持つのか。4つの立場があります。  AI開発者、サービス提供者、当事者コミュニティ、制度・社会。

私はずっと、当事者の視点で発言してきました。でも当事者だけでは、何も変わらないんです。

開発者には精度向上を。サービス提供者には人間支援の併用を。制度には標準化と監督を。

下に書きました。「四つがそろって初めて成り立つ」。誰か一人が頑張る話じゃないんですよ。 チームで作る必要があります。

ここからは、私から具体的な提言を5つ、お話しします。
1：当事者抜きに進めないこと。
2：当事者リプレゼンテーション。
3：インクルーシブデザインの強化。
4：生成AIの有効活用。
5：AIの限界と当事者関与のバランス。
それぞれ次のスライドで詳しく解説します。特に1番、これが今日一番、覚えて帰ってほしいキーワードです。

まず1つ目。「Nothing About Us Without Us」。 日本語にすると「私たち抜きに、私たちのことを決めないで」。 これ、実は障害者権利条約の基本原則なんです。そして、AI開発の現場でも全く同じことが言える。 スライドの真ん中3つ、ここがポイントです。 要件定義の段階から当事者を巻き込む。品質保証に「当事者検証」を組み込む。 そして当事者を「テスター」じゃなくて「設計パートナー」として位置づける。 下のところを見てください。「AIが便利になるほど、もう対応済みと言われやすくなる」 これ、実感としてあるんです。「AI字幕入れたから大丈夫でしょ?」って言われる場面、増えました。 でも、本当に伝わっているか、確認していますか?そう問い続ける仕組みが必要なんです。

2つ目。当事者リプレゼンテーション。 3つの役割があります。設計者、評価者、データ提供者。 特に評価者の役割、ここに注目してください。先ほど言いましたが、「動く」と「伝わる」は違います。 技術者は「動いた!」と喜ぶんです。私もエンジニアだったのでわかります。でも、ろう者から見ると「動いているけど、伝わっていない」ということがある。このギャップを埋めるのが、評価者としての当事者です。  下を見てください。「代弁ではなく代表」。ここ、深い意味があります。聞こえる人が「ろう者のためを思って」決めるのは、代弁です。ろう者自身が、その場にいて決める。これが代表です。

3つ目。インクルーシブデザイン。 上の流れ図を見てください。企画、設計、開発、テスト、評価。 下の帯を見てください。「すべてのフェーズに当事者が参加」。ここがポイントです。 よくあるのが、最後のテスト段階だけ当事者を呼ぶパターン。 でも、その時点では設計が固まっている。根本的な問題があっても、もう変えられないんですよ。 だから、最初の企画段階から関わる。これがインクルーシブデザインの本質です。 そして、これは障害者だけの話じゃありません。高齢者、外国人、子ども。みんなが使えるように設計する。それが、結果的に全員にとって使いやすい製品になります。

4つ目。生成AIの有効活用。  左側(右側)、AIが向く領域。字幕、要約、翻訳、代替テキスト生成。ここはどんどん使うべきです。  右側(左側)、慎重さが必要な領域。特に下から2つ目、「当事者の代弁」。これ、ボストン大学の事例ですね。  ポイントはこの境界線です。 AIに任せても、人の尊厳が損なわれない領域はどこか。そして、人の尊厳に関わる領域はどこか。  技術的にできるか、ではなく、すべきか。ここを見極めることが大切なんです。

5つ目。バランスの話です。  天秤を見てください。左にAI、右に人間。 AIが担う部分は、リアルタイム処理、定型的な情報提供。人間が担う部分は、重要な場面の通訳、文脈判断、合意形成です。
下を見てください。「AIか人間か、ではなく、どこをAIに任せ、どこを人間が担うかの設計」
ここ大事なので、繰り返します。 AIと人間は、対立じゃなくて、役割分担なんです。
私たちが本当に作るべきは、AIだけのシステムでも、人間だけのシステムでもなくて、両方の強みを組み合わせた、新しい仕組みなんです。

締めくくりに、2035年の話をします。 約10年後ですね。

良い未来。AI字幕が標準になる。当事者参画で手話技術も進化する。

悪い未来。AI頼みで人間支援が削減される。誤字幕が流通する。 マイノリティが「対応済み」として排除される。

下を見てください。 「未来を決めるのは技術そのものではなく、誰が、どの立場から、どう設計するか」  技術は中立じゃないんです。作る人の価値観が、必ず反映される。 だからこそ、誰が作るかが、決定的に重要なんです。

結論をまとめます。AIは情報アクセシビリティを前進させる可能性がある。 でもAIは万能ではない。誤りも偏りもある。できることとできないことを区別する。過信しない。 そして、当事者の関与なしに、AIアクセシビリティは成立しない。  最後に、一つだけ覚えて帰ってほしい言葉があります。 「AIはアクセシビリティを作らない。アクセシビリティを理解する人がAIを作る」  技術が問題を解決するんじゃないんです。理解した人間が、技術を使って解決するんです。 ここを、ぜひ覚えて帰ってください。