2024.09.19 07:50

Sora: OpenAI のテキストからビデオへの変換モデル

Sora は、60 秒のビデオクリップを生成できる AI モデルです。鮮明で詳細、複雑なカメラの動きを持つビデオを作成できます。また、多くのキャラクターの感情も表現できます。このソフトウェアは、既存の映像や画像に基づいてビデオを作成できます。Sora は、ユーザーの説明を聞いて、ビデオの雰囲気、好み、スタイルを理解します。ユーザーは、照明、カメラアングル、色を指定できます。

OpenAI は、さまざまな解像度、アスペクト比、期間のビデオと静止画像を使用して、テキストで条件付けされた拡散モデルを Sora に教えました。通常、大規模な言語モデルは、テキストトークンを含むインターネット規模のデータセットを使用してトレーニングされます。Sora AI は、視覚パッチを使用します。ビデオを低次元パッチに圧縮します。これらは時空間パターンに分解されます。OpenAI は、パッチを使用して、さまざまな画像やビデオを使用して生成モデルをトレーニングできると述べています。Sora は、さまざまな解像度、アスペクト比、期間のビデオと画像を作成するようにトレーニングされています。

Sora は、生のビデオ入力を受け取り、空間的および時間的に圧縮された出力を生成し、視覚データの次元を削減するネットワークを使用してトレーニングされています。また、生成された潜在変数をピクセル空間にマッピングするモデルデコーダーによってトレーニングされています。

OpenAI は、DALL-E3 再キャプションを使用してビデオを適用しました。このモデルは、テキストキャプションを作成するために非常に説明的なキャプションモデルを使用します。テキストもより正確です。キャプションは、ユーザーからの短いプロンプトをより詳細なキャプションに変換して、Sora のビデオモデルに送信できるようにするために使用されます。

Sora のビデオと画像の機能

Sora は、さまざまなビデオと画像の形式を処理できます。画像をアニメーション化したり、ビデオをループしたりできます。

拡散モデルは、ビデオ間の補間にも使用されます。これにより、ユーザーはさまざまなシーンや主題を使用してシームレスな遷移を行うことができます。

モデルは、最大 2048x2048 の解像度の画像を生成できます。 OpenAI は、1 フレームの時間範囲で空間データのグリッドにガウスパッチを配置して画像を生成するように Sora に教えました。

時間、解像度、アスペクト比の比率

Sora は、ワイドスクリーンビデオ 1920x1080p、ポートレート 1080x1920、およびその間のあらゆるものを含む、すべてのデバイス用のネイティブアスペクト比でビデオを作成します。最終バージョンを作成する前に、より低い解像度でビデオプロトタイプを作成することもできます。

Sora の改良されたフレーミングは、ビデオを正方形に収まるように切り取る通常の方法からの脱却です。

Sora: アプリケーション

SORA は、編集スキルのない人でも簡単にビデオを作成できる最新の AI ベースのテキストからビデオへの変換ツールです。この AI ツールは、ビデオの作成、ビデオに欠けているフレームの追加、既存のビデオの強化に使用できます。AI モデルは、高品質のビデオを作成するための強力なツールです。これらは SORA の主なアプリケーションです:

このソフトウェアは、ストーリーテラー、映画制作者、コンテンツクリエイターがコンセプトを視覚化して開発するのに役立ちます。また、ショット、アスペクト比、選択したムードを使用して、魅力的なビデオを作成します。テキストから、映画の予告編やアニメーションを作成できます。また、短編映画、ドキュメンタリービデオ、ドキュメンタリーも作成できます。

プロデューサーとビデオ編集者は、VFX などのクリエイティブな機能を追加したり、背景を変更したり、キャラクターを追加したりして、ビデオを編集できます。インタラクティブビデオは、視聴者の入力に基づいてパーソナライズできます。

学習者は、科学の知識を深めるのに役立つ魅力的で有益なビデオにアクセスすることもできます。

コンテンツクリエイターは、YouTube Shorts や Instagram などのプラットフォーム向けに、リールやストーリーなどの短い形式のビデオを作成できます。

マーケティング担当者や広告主は、プロモーションビデオを使用してサービスや製品を宣伝できます。Sora AI は、従来の方法よりも低コストで広告素材を作成できると主張しています。

Sora は、デザイナー、イノベーター、映画製作者がプロトタイプをテストおよび作成できるようにするツールです。また、映画のシーンを作成したり、未来を設計したり、新製品を設計したりする際に、シナリオ、アイデア、製品を視覚化するのに役立ちました。

Sora の代替手段は何ですか?

テキストから直接ビデオを作成できる他の多くのオプションがあります。

Runway-Gen-2

これも、Runway と Discord 経由で利用できる、テキストからビデオを生成する AI です。調査によると、73.53% のユーザーが Stable Diffusion 1.5 よりも (Runway Gen2) を好み、86.24% が Text2Live よりも Runway Gen2 を選択しました。これは、ビデオからビデオ（テキスト/画像）、テキストから画像（テキストから画像）、画像から音声（音声からテキスト）、テキストから音声への変換、および背景の削除を行うマルチモーダル AI システムです。

「駆動画像」を提供することで、ユーザーは任意の画像のスタイルを各ビデオフレームに適用できます。入力画像とプロンプトを適用することで、ユーザーはモックアップをテクスチャのないレンダリングからリアルなレンダリングに変換できます。完全にスタイル設定されたアニメーションレンダリングに変換することもできます。標準プランと無制限プランのほか、Gen-1 と Gen-2 の限定編集のみを許可する無料バージョンも利用できます。無制限のビデオ生成には月額 76 ドルかかります。

Google Lumiere

Space-Time-U-Net (STUNet) を使用して画像またはテキストからビデオを生成する AI モデルである Google Lumiere は、STUNet を使用してビデオを作成する新しい AI です。テキストからビデオへの拡散モデル VideoPoet はこのモデルに置き換えられました。STUNet は、空間要素の使用と動きと時間の変化の理解を通じてシームレスなビデオを生成します。 LUMIERE は、各動画に最大 80 フレームの動画を作成します。Lumiere の機能には、画像から動画への生成、スタイル生成、映画撮影などがあります。

Pictory

AI 搭載の動画エディターである Pictory は、動画を編集できるツールです。コンテンツマーケティング担当者、学習者および教育者、企業および組織、エンタープライズコンテンツチーム、デジタルマーケティング担当者はすべてこれを使用できます。Pictory には、AI 動画ジェネレーターとエディター、AI キャプションと字幕、AI オーディオジェネレーター、AI テンプレートが含まれています。高度な人工知能が重要な洞察を引き出し、魅力的な動画に変換します。また、ブログ投稿を魅力的な動画に変換します。Pictory は、3,000,000 を超えるロイヤリティフリーの画像、動画、音楽トラックを提供しています。ユーザーは大規模なメディアライブラリにアクセスできます。月額わずか 19 ドルから始まるスタータープランには、最大 60 分の文字起こしと 5,000 曲が含まれています。

Sora のリスクは何ですか?

Sora のモデルは新しいため、そのリスクは完全には理解されていない可能性があります。ただし、他のテキストから画像へのモデルと同じである可能性があります。

Sora は不適切なビデオを作成する可能性があります。これらのビデオには、露骨なコンテンツ、憎悪のイメージ、違法行為の宣伝、または特定のグループの軽蔑的な描写が含まれる可能性があります。不適切な素材の定義は、ビデオの対象者 (Sora を使用する子供と大人) とビデオが作成されたコンテキストによって異なることに注意してください。

OpenAI のサンプルビデオには、現実ではないシーンが示されています。実際のシナリオや人物が正確でないディープフェイク (偽のビデオ) を作成できる可能性があります。政治家とその敵対者の AI によって生成されたリアルなビデオは、意図的に虚偽の物語を広めたり、信頼できる情報源に嫌がらせをしたりするために使用される可能性があります。この戦術は、他の国やコミュニティに対する憎悪を助長し、国民の信頼を損なうことを目的としています。

他の生成モデルと同様に、Sora はトレーニングに使用したデータに依存します。つまり、トレーニングデータに文化的な偏見や固定観念がある場合、生成されたビデオにもこれらの問題が発生する可能性があります。https://chatjapanese.org/

chatgptkorea's Ownd

0コメント

1000 / 1000