11月6日ビッグモデル日報
【11月6日ビッグモデル日報】Kai-fu Lee氏、「世界最強」のオープンソース大型モデルを正式発表:一度に40万字の漢字を処理、中国語と英語の両方を制覇; SFは現実を反映、「」を見る中国の xAI AI レイアウトと最先端のアプリケーションからのマスク経済」; Yuanxiang XVERSE-65B: 高性能で無条件の無料商用利用が可能な、中国最大のオープンソース モデルが登場
Kai-Fu Lee 氏は、「世界で最も強力な」オープンソースの大規模モデルを正式に発表しました。一度に 400,000 個の漢字を処理し、中国語と英語の両方でリストを独占しました
リンク: https://news.miracleplus.com/share_link/11465
オープンソース大型モデルの世界に新たな重鎮が加わりました、今回は、大手模型会社イノベーションワークスの会長兼最高経営責任者(CEO)であるリー・カイフー氏が立ち上げたオープンソース大型モデルの「Yi」シリーズです。 Zero One Thousand Things は今年 3 月末に正式に設立され、6 月と 7 月に業務を開始したと報告されており、Kaifu Li 博士が創設者兼 CEO です。
11 月 6 日、Zero-Yiwuwu は、Yi-6B および Yi-34B バージョンを含む、事前トレーニングされたオープンソース大規模モデルの「Yi」シリーズを正式にリリースしました。これは、オープンソース大規模モデル コミュニティに「小さな衝撃」を与えました。 Hugging Face English オープンソース コミュニティ プラットフォームと C-Eval 中国語評価の最新リストによると、Yi-34B 事前トレーニング モデルは複数の SOTA 国際最高パフォーマンス指標の認定を達成し、世界的なオープンソースの「ダブルチャンピオン」となっています。 LLaMA2、Falcon、その他のオープンソースの競合製品を打ち破る大規模モデル。

SFが現実に輝く「マスク経済学」のAIレイアウトと最先端アプリケーションをxAIの視点から見る
リンク: https://news.miracleplus.com/share_link/11466
先週末、マスク氏は、彼自身の AI 垂直統合に関する xAI の製品を にリリースしました。 では、「グロク」とは何を意味するのでしょうか? この言葉が初めて登場したのは、20 世紀 SF 文学の「ビッグ 3」の 1 人、ロバート A. ハインラインの『見知らぬ土地のストレンジャー』で、「グロク」とは、物事の本質を理解するという意味です。 ハインラインの設定では、「グロク」は火星の言語で非常に豊かで複雑な概念です。それは「水を飲む」という物理的作用をカバーしており、人間と宇宙の間の深いつながりと理解を暗示しています。それには完全な認識が含まれます。ある生物を別の生物や物体に理解し、同化させること。

ショッキング! GPT-4Vイリュージョンチャレンジ記録:間違っているはずのものが正しく、間違ってはいけないものが逆に間違っている
リンク: https://news.miracleplus.com/share_link/11467
GPT-4V は視覚的なエラー マップに挑戦し、その結果は「驚くべき」ものでした。 なぜこのようなことが起こるのでしょうか。一部の幻想を認識し、他の幻想ではそれをうまく実行しません。 まず、色の錯覚写真について、ネチズンは最初、プロンプトの言葉に問題があると考えました。 しかし、一部のネチズンは、どの木がより明るいかを尋ねたとき、すべてのピクセルが非常に厳密に平均化されていれば、GPT-4Vの答えは正しいだろうと指摘しました。 遠くの画像を認識できないという問題については、GPT-4V が左から右へしか画像を読み込まないためではないかと考えるネットユーザーもいます。 「なぜ人間のようにめまいがしたり、幻想に惑わされたりするのは、まったく知的なAIとは言えないのですか?」という質問については、多くの人が、これは驚くべきことではなく、訓練の問題であると述べました。 つまり、大規模なモデルは人間のデータ、人間のフィードバック、人間の注釈に基づいてトレーニングされており、当然人間と同じ間違いを犯すことになります。

Yuanxiang XVERSE-65B: 中国最大のオープンソース モデルが登場、高性能で無条件無料商用利用可能
リンク: https://news.miracleplus.com/share_link/11468
国内ではこれまでに70億~130億パラメータの大規模モデルを多数オープンソース化して実装実績が出ており、オープンソースのエコシステムは一応確立されている。 エージェントなどのタスクの複雑さとデータ量が増加するにつれて、より大きなモデルに対する業界やコミュニティの需要がますます緊急になってきています。 研究によると、パラメーターの数が増え、トレーニング データの質が高くなるほど、大規模モデルのパフォーマンスを継続的に向上させることができます。 業界の一般的なコンセンサスは、パラメータのしきい値 500 ~ 600 億に達した場合にのみ、大規模なモデルが「スマートに出現」し、マルチタスクで強力なパフォーマンスを発揮できるということです。 ただし、この規模のモデルのトレーニングには費用がかかり、高い技術要件が必要となるため、現在は主にクローズドソースの有料モデルとして提供されています。 海外のオープンソース エコシステムでは、Llama2-70B や Falcon-180B などのベンチマーク モデルは条件付きオープンソースであり、月間アクティブ ユーザーまたは収入に商業的な上限があり、トレーニング データの欠如により中国語機能に明らかな欠点があります。 さらに、最近米国で公布された AI チップの禁止により、中国の大型模型産業の開発速度がさらに制限される可能性があります。 業界は、生態学的ギャップを埋め、中国語アプリケーションにより強力な理解、推論、長文生成機能を提供する高性能の大規模国産モデルを緊急に求めています。 こうした中、Yuanxiang XVERSE Companyは、650億パラメータを備えた高性能汎用大型モデル「XVERSE-65B」をオープンソース化し、業界初となる無条件で商用利用を無償化すると発表した。 。 さらに、13B モデルは完全にアップグレードされ、小型モデルの能力の上限が増加しました。 これにより、多くの中小企業、研究者、AI 開発者が大規模モデルの自由を早期に実現し、コンピューティング能力、リソースの制約、特定のタスク要件に応じて Yuanxiang の大規模モデルを自由に使用、変更、抽出できるようになります。 、研究と応用における画期的な進歩を促進します。

GPU推論速度が4倍に向上、256Kコンテキストは世界最長:Wuwen Core Domeが大規模モデル最適化記録を更新
リンク: https://news.miracleplus.com/share_link/11469
LLM の推論コストを削減することは不可欠であり、推論速度の向上が効果的な重要な手段となっています。 実際、研究コミュニティは、DeepSpeed、FlexGen、vLLM、OpenPPL、FlashDecoding、TensorRT-LLM など、LLM 推論タスクを高速化するための多くのテクノロジを提案してきました。 当然のことながら、これらのテクノロジーにはそれぞれ独自の長所と短所があります。 このうち、FlashDecodingは、FlashAttentionの作者であるスタンフォード大学チームのTri Daoらによって先月提案された最先端の手法で、データを並列にロードすることでLLMの推論速度を大幅に向上させ、次のような効果があると考えられています。非常に効果的である可能性があります。 しかし同時に、不必要な計算オーバーヘッドも発生するため、最適化の余地はまだたくさんあります。 この問題をさらに解決するために、最近、Infinigence-AI、清華大学、上海交通大学の共同チームが新しい手法である FlashDecoding++ を提案しました。これは、以前の手法よりも強力な加速機能をもたらすだけでなく (GPU 推論速度も向上します) 2 ~ 4 倍)、さらに重要なことに、NVIDIA および AMD GPU もサポートしています。 その中心となるアイデアは、非同期メソッドを通じてアテンション計算における真の並列性を実現し、「大量の」行列乗算のデコード ステージの計算を最適化して高速化することです。
ユーザー行動表現の多用途性を大幅に向上させた Ant の新モデルが CIKM 2023 Best Application Paper Award を受賞
リンク: https://news.miracleplus.com/share_link/11470
米国コンピュータ協会ACMが主催する学術会議CIKM 2023が英国バーミンガムで開催され、8,000名を超える学術関係者が参加し、応用研究トラック(応用研究トラック)の投稿論文235件の中から最優秀論文が選出されました。 Applied Paper Award は、Ant Group のユーザー行動表現モデルに関する研究論文が受賞しました。

北京大学の身体化された知性の新たな成果: 訓練は必要なく、指示に従えば柔軟に動ける
リンク: https://news.miracleplus.com/share_link/11471
北京大学のドンハオ氏のチームによる身体的ナビゲーションの最新の成果はここにある: 追加のマッピングやトレーニングは必要なく、次のようなナビゲーション指示を話すだけでよい: 部屋を横切って前に歩き、パンティを通ってキッチンに続く。ここで、ロボットは、指示分析、視覚認識、完了推定、意思決定テストなどの一連の主要な視覚言語ナビゲーション タスクを完了するために、大規模なモデルで構成される「専門家チーム」との活発なコミュニケーションに依存しています。