12月13日大型モデル日報集

情報1数年前 (2023)发布 AIWindVane
55 0
12月13日大型モデル日報集

【12月13日大型モデル日報集】行き止まりのないオールラウンドオープンソース、XingboチームのLLM360で大規模モデルを真に透明化、100倍高速化に向けてフルスタックTransformer推論最適化、2%の計算能力を利用RLHF は LLM に有害な出力を停止させ、バイトは LLM の学習を忘れるよう提案した; 訓練は 2 年半続き、テスラの人型ロボット オプティマス第 2 世代が発売された; トランスフォーマーは再びビジネスを始めた! 新たに4億ドルの資金調達、Google、Nvidia、AMDが参加、以前は長期間ステルスモードで開発


行き止まりのないオールラウンドなオープンソース、Xingbo チームの LLM360 は大規模モデルを真に透過的にします

 

リンク: https://news.miracleplus.com/share_link/13100

オープンソース モデルはその活発な活力を示しており、その数が増加しているだけでなく、パフォーマンスもますます向上しています。 独自のモデルは、技術的パフォーマンスとイノベーション能力の点で並外れた力を発揮していますが、オープンソースではないという性質が LLM の開発の障害となっています。 Cerebras、Petuum、MBZUAI の研究者は共同で LLM360 を提案しました。 これは、トレーニング コードとデータ、モデル チェックポイント、中間結果など、LLM トレーニングに関連するすべてのものをコミュニティに提供することを提唱する、包括的なオープンソース LLM イニシアチブです。 LLM360 の目標は、LLM トレーニング プロセスを透明性があり、誰にとっても再現可能にし、それによってオープンで協力的な人工知能研究の開発を促進することです。


RLHF の 2% の計算能力を使用して LLM の有害な出力を停止し、Byte は LLM の学習を忘れることを提案します

 

リンク: https://news.miracleplus.com/share_link/13101

大規模言語モデル (LLM) の開発に伴い、実務者はさらなる課題に直面しています。 LLM からの有害な返信を回避するにはどうすればよいですか? トレーニング データ内の著作権で保護されたコンテンツをすばやく削除するにはどうすればよいですか? LLM の幻覚 (虚偽の事実) を減らすにはどうすればよいですか? データ ポリシーの変更後に LLM を迅速に繰り返すにはどうすればよいですか? これらの問題は、人工知能に対する法的および倫理的コンプライアンス要件がますます成熟するという一般的な傾向の下で、LLM を安全かつ信頼できる展開するために重要です。 ByteDance は、LLM が位置合わせのための忘却学習を実行する方法を提案しています。 この記事では、LLM で「忘れる」操作、つまり、有害な動作を忘れたり、学習を忘れたり (機械学習を忘れる) を実行する方法を研究します。著者は、LLM 調整シナリオの 3 つについて、学習を忘れることの明白な影響を示します: (1) 有害な出力の削除。 2) ) 侵害している保護されたコンテンツを削除します; (3) 大きな言語 LLM 幻想を排除します。


100 倍の高速化に向けて: フルスタックの Transformer 推論の最適化

 

リンク: https://news.miracleplus.com/share_link/13102

この記事では、A100 メモリ階層などのハードウェア仕様から、FlashAttendant や vLLM などの MLSys メソッド、Expert Mixing などのモデル アーキテクチャ、および Speculative Decoding とそのバリアントなどのデコード アルゴリズムに至るまで、フルスタックの Transformer 推論の最適化について説明します。 私たちは基本的な事実を特定しました。Transformer の推論はメモリに依存しており、ほとんどの最適化 (MLSys またはモデリングによる) はこの事実に基づいているか、この事実を利用しています。 ロールプレイング ゲームにバフを追加するのと同じように、Transformer の推論が徐々に拡大し、スピードアップする様子がわかります。


GPT-4 を搭載した初の人型ロボット! プログラミングは不要 + ゼロサンプル学習、口頭フィードバックに基づいて動作を調整可能

 

リンク: https://news.miracleplus.com/share_link/13103

事前のプログラミングやトレーニングなしで GPT-4 に人型ロボットを制御させるとどうなるでしょうか? 東京大学および日本のオルタナティブ・マシン・カンパニーで博士号を取得。 GPT-4 を搭載した人型ロボットの最初の研究を調査しました。 この研究によれば、ユーザーは事前にロボットをプログラムする必要がなく、言語入力、つまりGPT-4としばらくチャットするだけで、ロボットは指示に従って動作を完了することができます。


2 年半の研究を経て、テスラの人型ロボット オプティマスの第 2 世代がオンライン化されました

 

リンク: https://news.miracleplus.com/share_link/13104

何の前触れもなく、テスラの人型ロボット「オプティマス」の第二世代が登場しました。 12 月 13 日の朝、マスク氏は突然 X に関するビデオを公開しました。多くの説明もなく、マスク氏はそのビデオ コンテンツを直接使用して、オプティマスの多くの新機能をデモンストレーションしました。 不気味の谷効果を引き起こすには、構想から幼児期まで2年半の練習が必要で、今回のオプティマスの登場は世界を驚かせた。


Microsoft の小型モデルが大型モデルを上回る: 27 億パラメータ、携帯電話も動作可能

 

リンク: https://news.miracleplus.com/share_link/13105

先月、MicrosoftのCEOであるNadella氏はIgniteカンファレンスで、自社開発の小型モデルPhi-2が完全にオープンソースとなり、常識推論、言語理解、論理推論のパフォーマンスが大幅に向上すると発表した。 本日、Microsoft は Phi-2 モデルとその新しいプロンプト テクノロジであるプロンプトベースに関する詳細を発表しました。 わずか 27 億のパラメーターを備えたこのモデルは、Llama2 7B、Llama2 13B、Mistral 7B を上回るパフォーマンスを発揮し、ほとんどの常識的な推論、言語理解、数学、およびコーディング タスクに関して Llama2 70B との差を縮めます (またはさらに優れています)。 同時に、小型の Phi-2 はラップトップや携帯電話などのモバイル デバイス上で実行できます。 Nadella 氏は、Microsoft はクラス最高の小型言語モデル (SLM) と SOTA プロンプト テクノロジを研究開発開発者と共有できることを非常に嬉しく思っていると述べました。


トランスフォーマーは新しいビジネスを始める最初のゲームです! 新たに4億ドルの資金調達、Google、Nvidia、AMDが参加、以前は長期間ステルスモードで開発

 

リンク: https://news.miracleplus.com/share_link/13106

『トランスフォーマー』の著者が設立した大手モデル会社は、さらに5,650万米ドル(人民元に換算すると4億元以上)の投資を受けた。 Nvidia、AMD、および 2 人の創設者の以前の雇用主である Google はすべて、この資金調達ラウンドに参加しています。 シードラウンドで受け取った資金を含めると、設立から1年も経っていない同社は6,500万ドル近くを受け取った。


Sequoia America と Index は、このドイツの AI サプライチェーン企業に 5,400 万ドルを投資しています。

 

リンク: https://news.miracleplus.com/share_link/13107

ドイツのスタートアップ Tacto Technology GmbH は最近、Sequoia Capital と Index Ventures が主導する資金調達ラウンドを完了し、総額 5,400 万ドルの資金を調達しました。 Tacto は AI テクノロジーを使用して、企業がコスト削減の機会を特定し、原材料やエネルギーなどの主要なコストの価格設定を分析できるように支援しており、このアプローチにより調達支出を約 10% 削減できると述べています。

© 版权声明

関連記事

コメントなし

コメントはありません…