Big Model Daily、11 月 11 ~ 12 日

[Big Model Daily、11 月 11 ~ 12 日] OpenAI が安定した拡散を救った! オープンソースの Dall·E3 と同じデコーダ、Ilya Song Yang 氏らによる; Google DeepMind が AGI を評価、ChatGPT がどこにあるか推測; NVIDIA 特別版チップが発売される予定: 最高パフォーマンスは H100 の 20% 未満; Google の大規模モデル調査大きな論争に巻き込まれています: トレーニング データを超えて一般化することは完全に不可能ですか? ネットユーザー:AGI特異点は延期される
OpenAI が安定拡散を救います! オープンソースの Dall・E3 同じデコーダ、Ilya Song Yang らによる
リンク: https://news.miracleplus.com/share_link/11637
予想外なことに、OpenAI は「競合する」Stable Diffusion を利用しました。 注目の「AI Spring Festival Gala」で、OpenAI は一度に 2 つのプロジェクトをオープンソース化しました。そのうちの 1 つは SD 専用の VAE モデルである整合性デコーダーでした。 複数顔、文字入り画像、線制御など、より高品質で安定した画像生成が可能になります。 Big V ブロガーは、このデコーダは Dall・E 3 と同じであるべきだと分析しました。OpenAI は、Dall・E 3 の論文も GitHub プロジェクト ページで提供しています。 そして、この整合性デコーダにはかなりの歴史があります。 これは、OpenAI の共同作成者で主任科学者の Ilya 氏、OpenAI の中国の新星 Song Yang 氏らによって提案された一貫性モデルに由来しています。 今年上半期にこのモデルがオープンソース化されたとき、業界に衝撃を与え、「拡散モデルに終止符を打つことができる」と評価された。 少し前に、Song Yang らは、画像生成の品質をさらに向上させるために、モデルのトレーニング方法を最適化しました。
Google DeepMind が AGI をランク付け、ChatGPT がどこにあるか推測します
リンク: https://news.miracleplus.com/share_link/11638
AGI をどのように分割するかについては、Google DeepMind が標準を示しています。 このフレームワークを開発するために、DeepMind は AGI の既存の定義を分析し、次の 6 つの原則を抽出しました。 1. プロセスではなく、モデルの機能に焦点を当てます。 2. 汎用性とパフォーマンスに注目してください。 3. 認知タスクとメタ認知タスクに焦点を当てます。 4. 導入ではなく、可能性に焦点を当てます。 5. 生態学的効果に焦点を当てる。 6. 目的地だけでなく、AGI 開発パスに焦点を当てます。 これらの原則に基づいて、DeepMind はパフォーマンスと汎用性の 2 つの側面から「AGI のレベル」を提案しました。 レベル 0: Amazon Mechanical Turk などの AI なし; レベル 1: ChatGPT、Bard、Llama 2 などの未熟な人間と同等以上の新興、レベル 2: 有能)、人間のレベルの 50% に達しますが、幅広いタスクではまだ達成されていない; レベル 3: エキスパート、人間レベルの 90% に達しているが、幅広いタスクではまだ達成されていない、Imagen と Dall-E 2 は特定のタスクで達成されている。レベル 4: マスター (Virtuoso)、人間のレベルの 99% に達していますが、幅広いタスクではまだ達成されていませんが、ディープ ブルーと AlphaGo は特定のタスクで達成されています; レベル 5: スーパーヒューマン (Superhuman)、100% を超えていますタスクに関してはまだ実装されていませんが、一部のタスクでは、AlphaFold、AlphaZero、StockFish が実装されています。
Lex Fridman 氏が Musk 氏と語る | 宇宙は単なる巨大なコンピューター シミュレーションかもしれません; GPU クラスターと人間の脳の間には、依然として 6 桁のギャップがあります…
リンク: https://news.miracleplus.com/share_link/11639
金曜日、マサチューセッツ工科大学の科学者レックス・フリッドマン氏はマスク氏と4度目の対談を行い、この最新プログラムでは人間、哲学、ゲーム競争、経済、戦争、ソーシャルメディア、AI、ロボット、そして2~3年の短期的なテーマについて議論した。さまざまな分野のトレンドや話題。 AIとロボットに関してマスク氏は、私たちの脳は計算効率が非常に高く、エネルギーを節約しており、高度な脳機能は身体の制御に使われるものを除いて10ワット未満であり、脳の思考部分は10ワット未満であると述べた。この 10 ワットのエネルギーでも、10 MW GPU クラスターよりも優れた小説を生成できるため、ここには 6 桁の差があります。 マスク氏は、AIがこれまで今日の成果を達成できたのは主に強力な計算と大量のエネルギー投資によるものだが、これで終わりではないと考えている。 通常、どのようなテクノロジでも、最初に機能させてから最適化します。そのため、時間の経過とともに、これらのモデルはより小型になり、より少ないコンピューティングとエネルギー消費で合理的な出力で製造できるようになると思います。
Google の大規模モデル研究は大きな論争に陥っています。トレーニング データを超えて一般化することは完全に不可能ですか? ネットユーザー:AGI特異点は延期される
リンク: https://news.miracleplus.com/share_link/11640
Google Transformer は今日の大規模モデルの背後にあるインフラストラクチャであり、私たちがよく知っている GPT の「T」はそれを指します。 一連の大規模なモデルは、強力なコンテキスト学習機能を実証し、例を迅速に学習して新しいタスクを完了できます。 しかし現在、Google の研究者もその致命的な欠陥を指摘しているようです。トレーニング データ、つまり人間の既存の知識を超えると、データは無力です。 しばらくの間、多くの専門家は、AGI が再び手の届かないものになったと信じていました。
Baidu CTO 王海峰氏: Wenxinyiyan のユーザーベースは 7,000 万人に達しました
リンク: https://news.miracleplus.com/share_link/11641
今年は烏鎮サミットの10回目であり、百度の最高技術責任者であり、深層学習技術および応用国家工学研究センターの所長である王海峰氏は、フロンティアデジタルテクノロジーイノベーションおよびセキュリティフォーラムと人工知能エンパワーメント産業発展に出席した。最新のWenxin Big Model 4.0テクノロジーを解釈し、大規模な産業モデルを詳しく説明するフォーラム。 Wang Haifeng 氏は、Wenxinyiyan が現在 7,000 万人のユーザーと 4,300 のシナリオに達していることを明らかにしました。
Nvidiaの特別バージョンのチップが発売される:最高性能はH100の20%未満
リンク: https://news.miracleplus.com/share_link/11642
米商務省は10月17日、中国に対して最も厳しい輸出規制を発動し、H800などのAIアクセラレーターが制裁の焦点となった。 制裁にはグラフィックスカードの能力と計算能力の制限が含まれるため、H100に続き、要件を満たすように設計されたNvidiaのカスタムチップも制限される。 新たな禁止措置は10月23日に発効した。 一部のディーラーは、A800とH800 GPUが輸入できなくなったことを受けて、Nvidiaは国内市場向けに新しいサーバーチップと2つの新しいGPUを開発し、今後数日以内に3つの新しいチップを国内メーカーに納入すると述べた。 A800 GPU と H800 GPU に続き、Nvidia は人工知能トレーニング、推論、エンドサイド アプリケーション シナリオにそれぞれ対応する HGX H20 と GPU L20 および L2 を開発し、今年末までにリリースおよび量産される予定です。 このうち HGX L20 は、Hopper アーキテクチャをベースとした HGX アクセラレータ カードです。 このモデルは、容量 96 GB、帯域幅 4Tb/s のハイスペック HBM3 メモリを提供します。 コンピューティング性能の点では、このモデルは 296 TFLOPS の INT8 コンピューティング能力を備えており、Tensor コアを介した BF16 では 148 TFLOPS、FP32 では 44 TFLOPS、FP64 では 1 TFLOP に達します。 最後に、900 GB/秒の NVLINK リンクとともに PCIe 5.0 インターフェイスを備えています。
一般的な異常検出の新たな夜明け: 華科科学技術大学などが GPT-4V の総合的な異常検出パフォーマンスを明らかに
リンク: https://news.miracleplus.com/share_link/11643
近年、大規模マルチモーダルモデル(LMM)の開発が急速に進んでいますが、その中でもOpenAIが最近発表したGPT-4V(ision)は最も優れた性能を持っており、強力なマルチモーダル認識能力を持ち、以下のような複数のタスクで成果を上げています。シーンの理解と画像生成としてはうまく機能しました。 私たちは、LMM の出現が、一般的な異常検出の研究に新しいパラダイムと新しい機会を提供すると信じています。 一般的な異常検出における GPT-4V のパフォーマンスを評価するために、華中科学技術大学、ミシガン大学、トロント大学の研究者が共同で、4 つのデータ モダリティと 9 つの異常検出タスクを含む 15 の異常に関する研究を実施しました。 4V は検出データセットに基づいて包括的にテストされました。 具体的には、テストされたデータセットには画像、点群、ビデオ、時系列、その他のモダリティが含まれており、産業用画像の異常検出/測位、医療画像の異常検出/測位、点群の異常検出、論理的異常の検出、歩行者の異常検出をカバーします。 、トラフィック異常検出、タイミング異常検出、その他 9 つの異常検出タスク。
GPT-4 はあなたよりも上手に質問できます。大規模なモデルに自分自身を語らせ、人間との対話の障壁を打ち破ります。
リンク: https://news.miracleplus.com/share_link/11644
人工知能分野の最新の傾向では、人工的に生成されたプロンプトの品質が大規模言語モデル (LLM) の応答精度に決定的な影響を与えます。 OpenAI は、これらの大規模な言語モデルのパフォーマンスには、正確で詳細かつ具体的な質問が重要であると提案しています。 しかし、一般ユーザーは自分の質問が LLM にとって十分に明確であることを保証できるでしょうか? 特定の状況における人間の自然な理解と機械の解釈の間には大きな違いがあることは注目に値します。 たとえば、「偶数月」という概念は人間にとって明らかに 2 月、4 月などの月を指しますが、GPT-4 はそれを偶数日の月と誤解する可能性があります。 これは、日常のコンテキストを理解する際の人工知能の限界を明らかにするだけでなく、これらの大規模な言語モデルとより効果的にコミュニケーションする方法について熟考するよう促します。 人工知能技術の継続的な進歩に伴い、人間と機械の間の言語理解のギャップをどのように埋めるかは、将来の研究の重要なテーマです。 これに関して、カリフォルニア大学ロサンゼルス校 (UCLA) の Gu Quanquan 教授が率いる一般人工知能研究所は、大規模な言語モデル (GPT-4 など) の曖昧さに対処する革新的な方法を提案する研究報告書を発表しました。問題の理解と解決策。 この研究は、博士課程の学生であるDeng Yihe氏、Zhang Weitong氏、Chen Zixiang氏によって完了しました。
トロント大学のチームは、AlphaFold を使用してタンパク質の構造について新たな洞察を獲得
リンク: https://news.miracleplus.com/share_link/11645
AlphaFold タンパク質構造データベースには、何百万ものタンパク質の予測構造が含まれています。 安定した構造をとらない本質的に無秩序な領域 (IDR) を含むほとんどのヒトタンパク質では、これらの領域は一般に、信頼性の低い構造予測を反映して、AlphaFold2 の信頼スコアが低いと考えられます。 トロント大学の研究チームは、AlphaFold2 がヒト IDR のほぼ 15% に信頼できる構造を割り当てることを示しました。 条件付きで折りたたまれる(結合または他の特定の条件下で)ことが知られているIDRのサブセットの実験NMRデータと比較することにより、研究者らは、AlphaFold2が条件付きで折りたたまれた状態の構造を一般に予測できることを発見した。 既知の条件付きで折りたたまれた IDR のデータベースに基づいて、チームは、AlphaFold2 が 10% の偽陽性率で最大 88% の精度で条件付きで折りたたまれた IDR を識別できると推定しています。 一方、研究者らは、ヒトの疾患変異では条件付きで折りたたまれたIDRが一般的なIDRよりも5倍近く豊富に存在することを発見し、真核生物のIDRの20%未満と比較して、原核生物のIDRの最大80%が条件付きで折りたたまれていると予測されている。
写真やビデオから直接 3D ガウス分布が生成されます。 無料トライアル、正式に商品化
リンク: https://news.miracleplus.com/share_link/11646
3D スキャン アプリケーションで有名な Polycam は、3D GAUSSIAN SPLATS (以下、「3DGS」) のテストを終了し、正式に商用利用を開始したと公式 Web サイトで発表しました。 3DGS は、写真やビデオから 3D ガウス分布を直接生成できる生成 AI 製品です。 プラグインを通じて、生成された製品を Unity や Unreal などのゲーム開発エンジンにインポートして使用したり二次編集したりすることもできます。これは、3D デザイナー、不動産業者、博物館の展示、医学研究、電子商取引の展示に非常に役立ちます。 、など。 現在、3DGS は無料のオンライン エクスペリエンス中であり、リージョン ロックなしで直接アクセスできます。 一度に 1,000 枚の写真や 15 分間のビデオをアップロードするなど、より高度な機能を使用したい場合は、料金を支払う必要があります。 一般の人にとっては、無料の機能で十分です。 さらに、アップロードされた素材はすべて自分のものであるため、生成されたコンテンツを商用利用する場合に著作権のリスクはありません。
ランウェイの新機能「モーションブラシ」は再びAI界を驚かせました。ペイントするだけで絵が動き始めます。
リンク: https://news.miracleplus.com/share_link/11647
50秒のトレーラービデオが再びAI界を興奮させた。 昨日、Runway は、ビデオ生成ツール Gen-2 で、生成されたコンテンツの動きを制御する新しい方法である「モーション ブラシ」機能を間もなく開始すると発表しました。