OpenAIのSoraへの個人的な期待

先日OpenAIがSoraというテキストから動画を生成するAIモデルを発表した。まだ一般公開はされていないから我々が試すことはできない。だがサイトで公開されていたAIの生成した動画とその元になったプロンプトを見てみるととにかくその精度の高さに驚かされる。

いくつかの生成結果が紹介されているが中でもA petri dish with a bamboo forest growing within it that has tiny red pandas running around.というプロンプトで生成されたこの動画が好き。特に現実ではありえなそうなシチュエーションという点が特に良い。 https://cdn.openai.com/sora/videos/petri-dish-pandas.mp4

自分は人並みに妄想することが好きだ。腕が3本あったら便利だろうか？とか女性の体長が男性の2倍の世界だとどうなるか？とかあれこれと思考実験したりする。

しかし自分には才能がない。具体的には自分の脳内をアウトプットする力、そして他人に100%伝わるように表現する力がない。だからあれこれと考えたところで形にすることはできないし中途半端に自己完結して終わってしまう。プレゼンテーションが苦手なのも自分の考えを100%相手に伝えることが出来ないからだと思う。内から外への伝達手段が貧弱なのだ。

現実には存在し得ないものを形にする能力は偉大だ。感情や概念、社会構造など抽象的で目には見えないものを掬い取って形にして人々に訴えることが出来る、そういう力を持つ人はアーティストと呼ばれたりする。

アーティストとまではいかないものの、誰だって自分の思い描く脳内のあれこれを他人に表現できるようになるならより楽しい人生になると思う。

個人的にSoraに対してはChatGPT以上に遥かに期待を持っている。それは脳内のフワフワとした世界(情景や感情までも何もかも)をあやふやなテキスト情報から色の付いた形にしてくれる力がありそうだからだ。脳内の映像化ができる。また一段と世界が変わる。

Soraは脳内のイメージをinputにして誰でも理解できる形に変えてくれるコンパイラみたいなものだと感じている(まぁ正確には脳内からプロンプトという形で中間表現を吐き出す力は必要なのだが)。

そういえば実際にアニメーターとSoraについて話していたときに、アニメでは現実ではあり得ない表現(例えば数の子人間が折り鶴に変身した雲と戦う)とか、どういう動きをするんだそのオブジェクトたちは...みたいなことが多々あるらしく、それを監督や演出のアバウトな指示と自身の想像力のみで描かないといけないことが結構あるという。

人間の体の動き、例えば野球とかサッカーとかなら現実であり得る動きで資料もあるから、実際にそういう映像を見れば体がどのように動くのかなどが参考にできる。一方で先の例のような"雲が折り鶴になる"なんてことは現実ではまず無いから雲->折り鶴の間を補完するアニメーションは完全に想像力の仕事になる。Soraがあると(できるか出来ないかは置いておいて)、あり得ない世界でも一応それっぽいモーションの動画を生成してくれるだろう。これがアニメーター的にはかなり便利かもしれないという話をしていた。

モノづくり一般の現場では発案者と製作者がいて、前者の脳内のイメージを何かしらの形でアウトプットにしてもらい、後者がそれを元に製品にするという構図が多いと思う。Soraはそういう世界の発案者側の強い味方になるかもしれない。

ビジネスになるか？とか一般の人たちの生活を便利にするか？という観点ではChatGPTほどインパクトはないかもしれないが、表現力を持たない一個人としては貧弱な表現力をブーストしてくれる便利ツールとして、脚の無い人の義足や視力の悪い人にとってのメガネと同様、人生に与える影響は大きい気がしてる。

動画生成に必要なマシンパワーはテキスト生成の比ではないと思うから一般利用できるのはいつになるのか、そもそもそんな日は来るのか謎ではあるが、Soraが発表された日からそんなことを考えながら密かに心待ちにしているのであった。

※ちなみにDALL·Eでも同じでは？という話もあるが個人的には静止画と動画では全く違うと思っている。なぜなら脳内ではすでに映像であるのにそれが圧縮されて出力としては1枚の画像になってしまうからだ。保持できる情報量では動画に部がある。