時間依存メディアについて(カッコカリ)

時間依存メディアの概要と対応方針の草稿

本記事は WCAG 2.0 A (シングルエー) に準拠する場合を想定して、時間依存メディアに関する内容の要約と対応方針の力加減をまとめたものです。

ようは時間依存メディアの項を読むのが苦しいのでマイルドにしてみた結果です。対応方針ほか諸々の内容はツッコミを受けて逐次修正される可能性があります。

対象

「時間依存メディア = 音声または映像」 であり、同時に 「同期したメディア = 音声付きの映像(動画)」 と読み替えて概ね問題ない。

「時間依存メディア」は、時間の経過に従って再生中の内容が連続的に変化する「音声、映像または両方を含むメディア全般」を指す。また、仕様書の中に登場する「同期したメディア」は、特に「音声と映像の両方を含むメディア(音声と動画が同期して変化するメディア)」を指す。

分類と必要な対応

  • 音声しか含まないメディア → 書き起こしテキスト
  • 映像しか含まないメディア → 同等の情報を提供する代替テキスト
  • 音声と映像を含むメディア → 字幕と、動画の書き起こしテキスト
  • (インタラクションを組み合わせた音声と映像、又は音声あるいは映像のどちらかを含むメディア → 本文書の対象外)

インタラクションを組み合わせた音声と映像については、たとえば「時間制限つきのクイズ」や「何らかのタイミングに合わせてクリックするゲーム」のようなコンテンツが該当する(?)

注: 動きのあるコンテンツ = 時間依存メディアではない

CREATE|技術職新卒採用サイトのようなコンテンツは、ダイナミックな動きがあり、ナビゲーションやコンテンツ読み上げで考慮すべき点も多い。しかし基本的にはユーザーの操作によって変化するのであって、音声や映像のような時間依存メディアとは言えない。よって、静止画とテキストによる通常コンテンツと同様に考えるべきである。

1.2.1 音声または映像のみのメディアのテキスト化

1.2.1 音声のみ及び映像のみ (収録済) : 収録済の音声しか含まないメディア及び収録済の映像しか含まないメディアは、次の事項を満たしている。ただし、その音声又は映像がメディアによるテキストの代替であって、メディアによる代替であることが明確にラベル付けされている場合は除く: (レベル A)

音声または映像しかないメディアの場合は 「テキストによる代替情報」 を提供する必要がある。テキストであれば、目が見えれば読めて、耳が聞こえればスクリーンリーダーが機能する。

映像のみの場合

たとえば無音のオフィス紹介映像が大まかに「フロアのレイアウト」「個人のデスク」「自販機などの設備」を含んでいるのであれば、それらについて「同等の情報を伝えるテキスト」を提供する必要がある。テキストがあれば、読み上げにより視覚障害者でも情報にアクセスできる。

注: 必ずしも実況する必要はない

映像の刻一刻と変化する情景を実況的に伝える必要は必ずしもないと思われる。静止画の代替テキストと同様に、コンテンツの目的として必要な情報が手に入るようになっていれば問題はない。内容によっては、演者の動きや演技のディティールは書き起こされるべきだが、これは無音映画などに対して適用すべきパターンで多くの無音コンテンツは前述の考え方で事足りると考えられる。

音声のみの場合

このケースは一般的にあまり多くないとは思われるが、該当するときは「音声が書き起こされたテキスト」を提供する必要がある。テキストがあれば、聴覚障害者でも情報にアクセスできる。

1.2.2 動画のキャプション(主に聴覚障害者向け)

1.2.2 キャプション (収録済) : 同期したメディアに含まれているすべての収録済の音声コンテンツに対して、キャプションが提供されている。ただし、その同期したメディアがメディアによるテキストの代替であって、メディアによる代替であることが明確にラベル付けされている場合は除く。 (レベル A)

「動画に含まれる音声についてはキャプション(字幕)」 を提供する必要がある。動画自体が既存のテキストコンテンツの代替である場合は、その代替であることを明確に示せばよい。(あまりないと思われるが)

1.2.3 動画の書き起こし(主に視覚障害者向け)

1.2.3 音声解説、又はメディアに対する代替 (収録済) : 同期したメディアに含まれている収録済の映像コンテンツに対して、時間依存メディアに対する代替コンテンツ又は音声解説が提供されている。ただし、その同期したメディアがメディアによるテキストの代替であって、メディアによる代替であることが明確にラベル付けされている場合は除く。 (レベル A)

視覚障害者が得られない映像情報について 「テキストの書き起こし、または音声ガイド」 を提供する必要がある。映像と音声の情報を単純に書き起こすだけで済むテキストでの提供のほうが現実的である。富士通の提供するドキュメントにある事例と実装の良い例 1:代替コンテンツを参照のこと。

注: 1.2.1 映像のみメディアへの代替テキストとの違い

動画の場合は音声と映像が同時に流れることで意味を成しているため、情報の量と複雑さが格段に上がる。そのため、1.2.3 においては特に実況的な書き起こしテキストが求められると考えられる。

参考

各項の達成方法については、特に G(番号) で示される WCAG 2.0 達成方法集を参照すると詳細である。そりゃねーだろ、という内容に遭遇したら現代に合わせて意訳したほうが幸せになれる。