12 月 21 日の Big Model Daily

情報1数年前 (2024)发布 AIWindVane

52 0 0

[12 月 21 日の Big Model Daily] 新しいユニバーサル 3D ラージモデルの作成、VAST が 3D 生成を「第 2 レベル」の時代に導く; Google Gemini 技術レポートがリリースされ、900 人以上の著者が参加; GPT-4 が科学研究に取り組み、成功を収める4分で再現ノーベル自然賞受賞者のいま、「トランスフォーマーへの挑戦者」マンバがMacbookで動く！ GitHub は半日で 500 個以上のスターを獲得しました

新しいユニバーサル 3D ラージモデルを作成する VAST は、3D 生成を「第 2 レベル」の時代にもたらします

https://news.miracleplus.com/share_link/13969
3D の生成 AI は、「ChatGPT」の瞬間を長い間待っていました。従来の 3D モデリングには、ゲーム、映画、テレビ、建築などの多くの業界が関与しています。一般に、専門家による手作業に依存しています。制作サイクルは、短いもので数日、長いものでは数か月かかります。単一の 3D の作成コストモデルには少なくとも数千元必要です。 2D 画像生成の分野における生成 AI テクノロジーの成功体験により、人々は 3D モデリングに革命をもたらす AI の可能性を理解できるようになりました。 1兆ドルの軌跡はこれから始まるようだが、現在市場に出ている3D世代のAI技術にはまださまざまな欠点があり、それらを輝かせる製品が誰もが期待している。 VAST が自社開発した 3D 大型モデル Tripo は、古典的な「アボカドアームチェア」が絶妙な形で素早くスムーズに生成されるとき、生成 AI によって新たなマイルストーンの瞬間を迎えました。

A100の代わりに4090? トークン生成速度は A100 よりわずか 18% 低く、大きな推論エンジンが人気

https://news.miracleplus.com/share_link/13970
上海交通大学のチームは最近、超強力な CPU/GPU LLM 高速推論エンジンである PowerInfer を発表しました。この推論エンジンの速度はどれくらいですか? 単一の NVIDIA RTX 4090 GPU で LLM を実行すると、PowerInfer の平均トークン生成レートは 13.20 トークン/秒、ピーク時は 29.08 トークン/秒で、これはトップサーバーの A100 GPU よりも 18% 低いだけであり、さまざまな LLM に適用できます。それだけでなく、PowerInfer は、モデルの精度を維持しながら、最も高度なローカル LLM 推論フレームワーク llama.cpp と比較して、単一の RTX 4090 (24G) で Falcon (ReLU)-40B-FP16 を実行すると 11 倍以上の高速化を達成します。 . セックス。具体的には、PowerInfer は、LLM のオンプレミス展開用の高速推論エンジンです。マルチエキスパートシステム (MoE) を使用するものとは異なり、PowerInfer は、LLM 推論の高度な局所性を利用して、GPU-CPU ハイブリッド推論エンジンを巧みに設計します。

Google Gemini テクニカルレポートがリリース、900 人以上の著者が参加

https://news.miracleplus.com/share_link/13971
2 週間前、人々は Google が提案した「ネイティブマルチモーダル大規模モデル」Gemini に興奮し、GPT-4 を超える強力なパフォーマンスと、画像、ビデオ、その他の分野を理解する能力を主張し、人々に未来を予感させました。しかし、Googleがデモしたデモが効果を誇張している疑いがあったため、Geminiはすぐに論争に陥った。しかし、生成 AI の分野における最近の重要な発展として、Gemini に対する人々の期待はますます高まっており、チームはすぐに研究を実施し、テスト論文を発表しました。本日発表された 64 ページの技術レポートは、私たちの疑問の多くについてより直観的な説明を提供するかもしれません。この技術レポート「Gemini: A Family of Highly Capable Multimodal Models」の著者には、Jeff Dean 氏、Oriol Vinyals 氏、Koray Kavukcuoglu 氏、Demis Hassabis 氏、その他の Google 研究界の大物、さらに Sergey Brin 氏などの企業の共同創設者が含まれています。

写真とアクションコマンドだけで、Animate124 は簡単に 3D ビデオを生成できます

https://news.miracleplus.com/share_link/13972
過去 1 年間、DreamFusion は新しいトレンド、つまり 3D 静的オブジェクトとシーンの生成を主導し、生成技術の分野で広く注目を集めてきました。昨年を振り返ると、3D 静的生成テクノロジの品質と制御が大幅に進歩しました。技術開発はテキストベースの生成から始まり、徐々に単一ビュー画像に統合され、さらに複数の制御信号を統合するように発展しました。それに比べ、3D ダイナミックシーンの生成はまだ初期段階にあります。 2023 年の初めに、Meta は MAV3D を発表し、テキストに基づいて 3D ビデオを生成する最初の試みとなりました。ただし、オープンソースのビデオ生成モデルが不足しているため、この分野の進歩は比較的遅いです。しかし今では、グラフィックとテキストを組み合わせた3D動画生成技術が登場しました！テキストベースの 3D ビデオ生成は多様なコンテンツを生成できますが、オブジェクトの詳細やポーズの制御には依然として限界があります。 3D 静的生成の分野では、単一の画像を入力として使用して 3D オブジェクトを効果的に再構築できます。これに触発されて、シンガポール国立大学 (NUS) とファーウェイの研究チームが Animate124 モデルを提案しました。このモデルは、単一の画像と対応するアクションの説明を組み合わせて、3D ビデオ生成の正確な制御を可能にします。

集合写真を撮るときに人が欠ける心配はもうありません。Anydoor は写真編集のための「あらゆるドア」を開きます

https://news.miracleplus.com/share_link/13973
Anydoor は、香港大学、アリババ、アントグループによる新たな成果であり、写真編集の「あらゆる扉」を開きます。どのアイテムも写真1枚で別の絵の世界へ。

ChatGPT には新しいチャットアーカイブ機能があり、独自のチャットデータベースを構築できます。

https://news.miracleplus.com/share_link/13974
OpenAIは12月21日、ユーザーがチャット記録を削除せずに保存できるアーカイブ機能をChatGPTに追加したことをソーシャルプラットフォーム上で発表した。小さな機能ではありますが、科学研究、医療、執筆、金融、弁護士などテキストを頻繁に使用する業界では非常に役立ち、独自のテキストデータデータベースを構築し、緻密な管理を行うことができます。たとえば、法務担当者は ChatGPT に 100,000 件のチャットレコードを持っており、この機能を通じてそれらを管理および保存し、添付ファイルを通じて ChatGPT にアップロードすることで、ChatGPT が独自のチャットドキュメントに基づいて特定のコンテンツに回答できるようになり、データの正確性が確保されます。。または、1 年後、ChatGPT を使用してチャットの正確なチャット履歴を再確認してください。