みたにっき@はてな

三谷純のブログ

視覚とか

RGB画像をグレースケールに変換するには、次の式を用います。
出力画素 = (0.299 * R成分 + 0.587 * G成分 + 0.114 * B成分) 参考
この式に出てくる係数は、何か科学的な根拠があるわけでなく、人が心理的に妥当と思う値から決定したもののようですね。なんだかすごく不思議。
そもそも、色をRGBで表すと人が目で認識できる色を網羅できるというのも、人の網膜には赤・青・緑の色を個別に感じる細胞があるから、という話ですから、このことに何か関係しているのでしょうか。
考えてみると、何か科学的な根拠に基づいて構成されていると思われるシステムも、人という生き物に固有の特性がベースとなっていることが多々あるのだなあ、ということを今頃になって思いました。
たとえば、テレビアニメのコマ数(24フレーム/秒)とか、テレビ画面の解像度(450×350)とか、CDのサンプリングレート(44.1KHz)とかは、人の感じ方とその技術が開発された時点でのコストとの摺り合わせで決定された値なのでしょう。
こうしてみると、人に何か働きかけるシステムについて考える際には、そもそも人間とはどのようなものを、どのように認識するのか、という点に関する研究が不可欠なのだろうな、と思いました。
3次元の形状を画面に表示する際には、遠くのモノを小さく表示する遠近法を用いるわけですが、これも人の目が球形をしているから、そのように見える、ということですね。
なめらかに音程が上がっているように感じられるドレミファソラシド♪が、音の差でみると、全音全音・半音・全音全音全音・半音という不規則な並びになっているというのも、不思議だなあ、と思います。
行き着く先は、やっぱり人間とは? という点の考察が不可欠なようで。