12/25大型モデル日刊

【12/25大型モデル日刊】AI高速化のために誕生:インテルのXeonは200億パラメータの大規模モデルを実行可能に; Transformerに挑むMambaの起源とは? 著者の博士論文は SSM の進化経路を明らかにしています; マスク氏は Grok は制御不能であると答えました: それらはすべてネチズンによって悪い方向に導かれ、テスト段階は改善され続けるでしょう; OCR は終わったのですか? Megvii は、ドキュメントレベルの OCR をサポートし、中国語と英語をサポートし、オープンソースになっているマルチモーダルな大規模モデルを提案しています。
AI の高速化のために誕生: Intel の Xeon は 200 億のパラメータを持つ大規模モデルを実行できるようになりました
リンク: https://news.miracleplus.com/share_link/14275
最近、インテルのサーバーCPUが新たな進化を遂げています。 第 5 世代インテル(®) Xeon(®) スケーラブル プロセッサーが正式にリリースされました。 Intelは、AIの高速化を目的に設計され、より強力なパフォーマンスを備えたプロセッサが誕生したと述べた。
トランスフォーマーに挑むマンバの原点とは? 著者の博士論文はSSMの進化経路を明らかにする
リンク: https://news.miracleplus.com/share_link/14276
最近、「Mamba」と呼ばれる研究が、言語モデリングにおいて Transformer に匹敵する、あるいはそれを上回る可能性があります。 これはすべて、著者によって提案された新しいアーキテクチャ、選択的状態空間モデル (選択的状態空間モデル) のおかげです。これは、以前、著者である Albert Gu 氏が主導していた S4 アーキテクチャ (シーケンス モデリングのための構造化状態空間) の一部です。マンバの論文、単純な一般化。
マンバの論文の発表後、多くの研究者が SSM (状態空間モデル)、S4、およびその他の関連研究に興味を持つようになりました。 その中で、ある研究者は飛行機の中でこれらの論文をすべて読むと言いました。 この点に関しては、Albert Gu 氏がより良いアドバイスを提供しています。彼の博士論文は実際にこれらすべての展開を整理しており、より体系的に読むことができるかもしれません。
マスク氏は、Grokは制御不能になっていると答え、すべてネチズンが悪事に導いたものであり、テスト段階で改善し続けるだろうと述べた。
リンク: https://news.miracleplus.com/share_link/14277
中立性と声を上げる勇気は、「ChatGPT の Musk バージョン」である Grok が宣伝してきたセールス ポイントです。
しかし最近、ネチズンはその回答がますます偏っていることに気づき、コメントを投稿せずにはいられず、さらには @Musk 自身も投稿します。
同時に、グロクのパフォーマンスはマスク自身も警戒させた。
彼は、Grokの訓練に使用されたインターネット情報が複雑すぎて「刺激的なスパム」に満ちており、これはネットユーザーの発言を間接的に認めているに等しいと不満を述べた。
同時にマスク氏は、「現在のGrokは単なるベータ版であり、将来的には改善されるだろう」とも述べた。
ソフトマックス アテンションとリニア アテンションのエレガントな融合であるエージェント アテンションは、アテンションの新たなアップグレードを促進します。
リンク: https://news.miracleplus.com/share_link/14278
ソフトマックス アテンションとリニア アテンションの利点を組み合わせることで、エージェント アテンション モジュールには次の特性があります。
(1) 計算量が少なく、モデル表現能力が高い。 これまでの研究では通常、ソフトマックス注意力と線形注意力を 2 つの異なる注意力パラダイムとして扱い、それぞれの問題と限界を解決しようとしました。 エージェント アテンションは、これら 2 つの形式のアテンションをエレガントにブレンドするため、それらの利点を自然に継承しながら、計算の複雑さが低く、モデルの高い表現力を享受できます。
(2)より大きな受容野を利用できる。 線形計算の複雑さのおかげで、モデルの計算を増やすことなく、エージェントの注意がより大きな受容野を自然に取り入れることができます。 たとえば、Swin Transformer のウィンドウ サイズは 7^2 から 56^2 に拡張できます。つまり、追加の計算を導入することなく、グローバル セルフ アテンションが直接使用されます。
OCRはもう終わりですか? Megvii は、ドキュメントレベルの OCR をサポートし、中国語と英語をサポートし、オープンソースになっている大規模なマルチモーダル モデルを提案しています。
リンク: https://news.miracleplus.com/share_link/14279
Vary は大きな可能性と非常に高い上限を示しています。OCR は長いパイプラインを必要とせず、エンドツーエンドで直接出力でき、ユーザーのプロンプトに応じて latex、word、markdown などのさまざまな形式を出力できます。
このアーキテクチャは、大規模モデルの前にある非常に強力な言語を介して、「レバレッジ」や「デュポール」などの OCR でタイプミスが起こりやすい単語を回避することもできます。あいまいな文書の場合、次の助けを借りてより強力な言語の優先順位付けを達成することも期待されています。言語優先、OCR 効果。
このプロジェクトは公開されるやいなや、多くのネチズンの注目を集め、一部のネチズンは「ゲームを潰せ!」と叫んだ。