12 月 7 日のビッグ モデル コレクション
[12 月 7 日のビッグ モデル コレクション] Google の大キラーがついに登場、Gemini 最大の衝撃リリース: 真のスーパー GPT4、3 つのメジャー バージョン、携帯電話で直接利用可能、オープンソース、商用化可能! パフォーマンスは Stable Difusion の 2.5 倍優れています。Meta は、現在は無料ですが、英語のプロンプト ワードのみをサポートする独立した AI 画像ジェネレーターを開始します。
小規模モデルは「すべてを分割」することもでき、メタは SAM を改善し、パラメータは元のバージョンのわずか 5% です
リンク: https://news.miracleplus.com/share_link/12601
2023年のコンピュータビジョン分野に向けて、「セグメントエニシングモデル」が注目を集めている研究開発です。 Segment Anything の主な機能は、キューベースの Visual Transformer (VIT) モデルです。このモデルは、1,100 万枚の画像からの 10 億を超えるマスクを含む視覚データセット SA-1B でトレーニングされ、画像上の任意のターゲットをセグメント化します。 この機能により、SAM は視野の基本モデルとなり、視野を超えた分野でも応用価値を生み出すことができます。 最近の研究で、Meta の研究者は別の改善アイデア、SAM を使用したマスク画像事前トレーニング (SAM) を提案しました。 これは、MAE 事前トレーニング手法と SAM モデルを活用して、高品質の事前トレーニングされた VT エンコーダーを取得することによって実現されます。
x-Dreamer は、2D 生成と 3D 生成の分野の間にある次元の壁を橋渡し、高品質なテキストから 3D 生成を実現します。
リンク: https://news.miracleplus.com/share_link/12602
この記事では、CG-LORA と AMA loss という 2 つの主要なイノベーションで主に構成されている x-Dreamer と呼ばれるフレームワークを紹介します。 。
写真がビデオの主人公にスムーズに置き換わります。どんなに大きな動きがあったとしても、OK1 メタ&シンガポール国立大学
リンク: https://news.miracleplus.com/share_link/12603
後半は大喜びでしたが、今ではビデオの主人公をたった 1 枚の写真に置き換えることができ、エフェクトも非常にスムーズです。 「Videoswap」と呼ばれるこの新しいビデオ編集モデルを見てみましょう。 スタイルの転送であれ、テーマ/背景の転送であれ、このビデオ編集タスクの主な課題は、時間的な一貫性を確保しながら、ソース ビデオからモーション軌跡を抽出して新しいビデオに転送し、新しい要素にオーバーレイする方法です。 以前のモデルのほとんど (原則には、ソース モーションのエンコード、アテンション マップの使用、オプティカル フローなど) ができず、時間的一貫性がうまく機能しないか、形状の変化を厳密に制限していません。 ここで、videoSwap は、オブジェクトの移動軌跡を記述するために少数のセマンティック ポイントを使用することを提案します。