5月15日の Google I/O基調講演で、Googleが新たな動画生成AIモデル『Veo』を発表しました。
Goolgeは研究レベルで多数のAI動画生成手法を公表してきましたが、Veoはそうした技術を基盤に、アーキテクチャ・スケール則・画質および解像度を向上する新規の技法を組み合わせ新たに開発したモデルとされています。
「タイムラプス」や「風景の空撮」といった撮影スタイルの指定を含め、長いプロンプトの指定に忠実に、かつシーンや被写体の一貫性を保ったまま、1080p解像度で1分超といった高精度の動画を生成できることを特徴としています。
テキストのみから生成することも、画像をリファレンスとして与えて指示どおりに動かすことも、あるいは動画と指示をセットで与えて、動画の内容を編集することも可能。
▲画像:リファレンス画像「Alpacas wearing knit wool sweaters, graffiti background, sunglasses」
▲動画:「Alpacas dancing to the beat」で踊らせた例
動画から特定の被写体を取り除く、マスクして一部を編集するといった高度なクリエイティブコントロールに応えることも特徴としています。
▲画像:プロンプト「Drone shot along the Hawaii jungle coastline, sunny day」で生成したハワイの海岸線ドローン空撮風動画(左)に、「Kayaks in the Water」でカヤックを追加した例
▲動画:シーンごとに短いプロンプトを与え、一連の動画として生成した例。
A fast-tracking shot through a bustling dystopian sprawl with bright neon signs, flying cars and mist, night, lens flare, volumetric lighting.
A fast-tracking shot through a futuristic dystopian sprawl with bright neon signs, starships in the sky, night, volumetric lighting.
A neon hologram of a car driving at top speed, speed of light, cinematic, incredible details, volumetric lighting.
The cars leave the tunnel, back into the real world city Hong Kong.
▲動画:映像作家・俳優・ミュージシャンのドナルド・グローヴァーとコラボレーションしたプロジェクトのプレビュー。
GoogleはVeoについて、動画内容の理解・高解像度動画の描画・物理法則のシミュレーションといった要素の手法を向上することで、さまざまな分野のAI研究の進展を促し、人間同士のやりとりやコミュニケーションを助ける新たなプロダクト開発を可能にすると表現しています。
動画を生成するクリエーター向けツールに留まらず、GoogleのAIプロダクト全般に影響を与える技術と位置づけているようです。
Veoは本日より、labs.google の新たなツール VideoFX上で一部のクリエーター向けにプライベートプレビューとして提供を開始します。
Veoの機能の一部は、将来的にはYouTubeのショート動画などのアプリやサービスに組み込んで提供見込みです。
文字が書ける最新画像生成モデル Imagen 3も
Googleは Veo とあわせて、最新の画像生成モデル Imagen 3も発表しています。
フォトリアルからイラスト調まで複数のスタイルで、従来のモデルからAI的なアーティファクトが大きく減少したほか、より長いプロンプトのニュアンスまで再現できるほか、Googleの歴代画像生成モデルでもっともテキストの描画が改善しています。
Imagen 3は本日より、ImageFXを通じて一部のクリエーター向けにプライベートプレビューとして提供します。