テキストからビデオへのAIモデルVidu2024年04月28日 22:51

国立国会図書館デジタルコレクション「五衣色染分 黒 (五衣色染分)」を加工して作成
中国のテクノロジー企業ShengShu-AIと清華大学によるテキストからビデオへのAIモデルViduの発表は、人工知能分野における中国の進歩における重要なマイルストーンを示している。Viduは、OpenAIの注目すべき成果であるSoraと同等であると宣伝されており、重要なAI技術における中国の急速な進歩を強調している。

 ワンクリックで16秒の1080Pビデオクリップを生成するViduの機能は印象的であり、その効率性とさまざまな業界での潜在的なアプリケーションを示している。DiffusionモデルとTransformerモデルの要素を統合したUniversal Vision Transformer(U-ViT)アーキテクチャに基づいて構築されたViduは、テキストからビデオへの生成に対する洗練されたアプローチを示している。

 U-ViTの開発はSoraのアーキテクチャよりも前から行われており、AI研究の限界を押し広げる中国への積極的な取り組みを浮き彫りにしている。光や影の効果、顔の表情などの物理法則に従って、複雑なディテールでリアルなシーンをシミュレートするViduの能力は、没入型コンテンツを作成するための有用性を高める。

 さらに、Viduは中国の文化的要素を理解しているため、その汎用性に別の次元が加わり、パンダやドラゴンなどの象徴的な中国のキャラクターをフィーチャーした画像の生成が可能になる。このローカライゼーションの側面は、中国市場およびそれ以外の市場におけるViduの魅力をさらに高める。

 Viduの発表は、中国がAI技術の進歩における主要なプレーヤーとして浮上し、世界のAI環境に革新的なソリューションを提供することを意味する。

【視点】

最近発表された中国発のAIモデル「Vidu」について簡単に説明する。

機能:テキストの説明から16秒の1080pビデオクリップを生成する。
開発元:清華大学とShengShu-AIの共同研究。

主な機能:
照明、影、表情などのリアルな要素を含むビデオを作成する。
静止画像だけでなく、動的なシーンを生成する。
特に中国文化の要素(パンダ、ドラゴン)の描写に長けている。
ソラとの比較:米国が開発したSoraのテキストからビデオへのモデルに対する中国の答えを検討した。Viduの開発者は、基盤となる技術(U-ViT)はSoraの技術(DiT)よりも前からあると主張している。

Viduは、特にテキストからビデオへの生成分野におけるAIの進歩を象徴している。

・Viduの概要:中国の新しいテキストからビデオへのAIモデル

開発元:ShengShu-AI and Tsinghua University (中国)
機能:テキストの説明から16秒の1080pビデオクリップを生成する。
主張されているのは、OpenAIのSora(別のテキストからビデオへのモデル)と同等である。

・技術的なハイライト

Universal Vision Transformer (U-ViT) と呼ばれる自社開発アーキテクチャを採用。
拡散モデルとトランスフォーマーモデルを組み合わせて、テキストからビデオへの生成を行う。
U-ViTのコア技術は、SoraのDiTアーキテクチャよりも早くから提案されていた。

・生成能力

光、影、顔の表情で現実世界の物理をシミュレートする。
静止画像だけでなく、複雑な動的シーンを生成する。
特に、パンダやドラゴンなど、中国ならではの要素の表現に長けている。

・ViduはSoraの強力な競争相手であり、中国のAI技術の進歩を示しているようである。

・開発元:ShengShu-AI and Tsinghua University (中国)

・機能:テキストの説明から16秒の1080p ビデオクリップを生成する。

・ポジショニング:OpenAIの「Sora」(2024年2月発売)と並ぶ中国初のモデルとされる。

・テクノロジー:Universal Vision Transformer(U-ViT)と呼ばれる自社開発のアーキテクチャを採用し、DiffusionモデルとTransformerモデルを組み合わせている。

・強み

照明、影、表情でリアルなシーンを生成する。
静止画像だけでなく、動的なビデオクリップを作成する。
特定の中国の要素(パンダ、ドラゴン)を理解し、ビジュアルを生成できる。

・このAIモデルは、テキストからビデオへの技術における中国の進歩を強調し、この分野での米国の取り組みの競争相手としての地位を確立している。

引用・参照・底本

Chinese team unveils first text-to-video AI model on par with Sora GT 2024.04.27

https://www.globaltimes.cn/page/202404/1311367.shtml

コメント

トラックバック