2月15日に、ついにChatGPTを運営しているOpenAIから動画生成AIモデル「Sora」(ソラ)が発表されました!
すでにX(旧Twitter)上ではいくつかのSoraによって生成された動画が公開されており、そのクオリティの高さから世界中で話題になっています。実際に筆者も動画を見ましたがかなりクオリティが高いと感じました。
現在実質AIチャットの中では一強とも言えるChatGPTを持つOpenAIですが、このまま動画生成AIも勢力図をひっくり返してしまうのでしょうか? 本記事ではそんな動画生成AIモデルSoraについて現在わかっている範囲での情報をまとめていきたいと思います。
目次
1章 『Sora』 の概要
SoraはOpenAIによって開発された動画生成AIモデルです。テキストプロンプトから最大60秒の動画を生成することができるようになっています。
Soraの動画生成には対話型AIモデルであるChatGPTや画像生成AIモデルのDALL-Eの研究データを用いているようで、これによりテキストプロンプトにより忠実に従うことができるようになっているようです。
Image to Video
また、テキストプロンプトから動画を生成する Text to Video に加えて画像から動画を生成することのできる Image to Video も利用可能となるようです。
例えばこちらのようなイラストに対しても、
イラストの画像をしっかりと維持したままイラストに動きをつけることができます!
動画の展開を変化
さらにSoraでは60秒以内であれば動画の長さを調整することができます。この調整は「元の動画よりも前の部分の展開を作る」というものと「元の動画の先の展開を作る」というどちらにも対応することができます!
こちらの3つの動画は最後に街のレールの上を乗り物が走っているという描写は同じですが、その場面に至るまでの過程が全て異なっています。このように同じ動画からも違った展開の動画を作るということもできるのです。
技術的な詳しい解説は公式サイトをご覧ください!
Soraはいつから使える?
ここで気になるのが、Soraはいつから使うことができるのかということです。
結論から申し上げると、現在(2月16日現在)Soraの一般公開日はまだ発表されていません!しかしながら、今までのサービスの発表から公開までの間隔を考えるとそう遠くないのではないかという声もあります。
現在はOpenAI外のデザイナーや映画製作者などがアクセスすることができ、フィードバックによって現在のモデルの改善や安全性の強化などを行なっているようです!
2章 動画生成AI「Runway Gen-2」との比較
こちらがOpenAIから公開された動画となっています。
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
カップルが道を歩いている様子を空撮したような画角で追いかけていますね。
プロンプトは以下のようになっています。
美しい雪の東京の街が賑わっている。美しい雪の天気を楽しみ、近くの露店で買い物をする何人かの人々を追いながら、カメラは賑やかな街の通りを移動する。華やかな桜の花びらが雪の結晶とともに風を切って舞っている。
この動画において着目すべき点は、主な登場人物であるカップル以外の風景です。今までの動画生成AIでは、メインとなるオブジェクトの周りの風景というのはシンプルになりがちであったように感じます。
試しに、他の動画生成AIを用いて同じプロンプトで動画を生成してみましょう!今回は今ある動画生成AIの中でも高い評価を得ているRunwayとの比較をしていきたいと思います。(Runwayの紹介記事はこちらから!)
例えば、Runwayを用いて動画生成をしてみることにします。
このようにXの投稿に記されているプロンプトをRunwayにも同じように使っていきます。
こちらがSoraと同様のプロンプトによってRunwayに生成させた動画になります。Sora側にカメラの画角の設定やフィルタなどの設定があった可能性は否めませんが、幾つかの基準で比較していきましょう。
プロンプトに対する忠実度合い
今回のプロンプトの要素としては、「東京の街」「雪」「露店」「買い物する人々」「桜が舞っている」「カメラが街の通りを移動」の6つの要素であるとします。
OpenAIのSoraではこれら全ての要素を満たした動画が生成されていると言えます。一方でRunwayでは、街や露店の様子は見られずカメラの移動もありません。
以前紹介した動画生成AIのPikaでも見られたものではあるのですが、動画生成AIへのテキストプロンプトにおいて要素を多く詰めすぎると動画に全ては反映されにくいという現象が起こりやすくなります。
仮にSoraではXでの投稿通りの動画が生成されるとしたら、他の動画生成AIと比べてかなり大きなアドバンテージであると言えます。
動画内の物体の自然さ
Runwayで作成した動画では、動画内に写っている人物が突然加速して消えてしまったり急に桜の木から人間が現れたりといった不自然さが多く見られます。動画としては完成度が高いと言えますが、何も知らない人に見せればAIが作ったということは高確率でわかるのではないでしょうか。
一方でSoraによって作成された動画では人やものの不自然な動きというものはほとんど見られませんでした。
特筆すべきは、すれ違う人間の描写です。カメラが追いかけているカップルとすれ違う人がどこから現れているかというのを確認してみると、突然現れたりするのではなく初めからしっかりと動きが描かれています。このような現実世界への忠実度が高い点においてもSoraは非常に評価が高いです。
3章 まとめ
今回は発表されたばかりの動画生成AIモデルSoraについてご紹介しました!
実際に実装されてユーザが使ってみないと本当の性能というのはわからないですが、発表された時点でのSoraへの期待度は非常に高いと言えると考えています。
リリースが待ち遠しいですね。リリースされ次第使い方や性能などの紹介もしていくのでぜひご覧ください!
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。
コメント