1月5日から1月7日までの大規模モデル日報集

情報1数年前 (2024)发布 AIWindVane
54 0
1月5日から1月7日までの大規模モデル日報集

【1月5日から1月7日までの大規模モデル日報集】大規模モデル(LLM)の発生により、1+1>2の効果を達成するためにさまざまなモデルを構築できるのか、言語モデルは時間をどのように認識するのか? 「時間ベクトル」について学ぶ; 新しいムーア時代: 2024 LLM 予想


大規模モデル (LLM) が爆発的に増加しているため、1+1>2 の効果を達成するためにさまざまなモデルを構築できるでしょうか?

 

リンク: https://news.miracleplus.com/share_link/15171

今日の大規模言語モデル (LLM) は万能の戦士のようなもので、常識と事実に基づく推論、世界の知識の理解、一貫したテキストの生成が可能です。これらの基本機能に基づいて、研究者は一連の努力を行ってきました。これらのモデルを微調整して、コード生成、コピー編集、数学問題解決などのドメイン固有の機能を実装します。 しかし、これらのドメイン固有のモデルは、標準的なコード生成には優れているものの、一般的な論理的推論には不慣れであるなど、いくつかの厄介な問題を提示し始めています。 上記のトレーニング コストとデータの課題を解決するために、Google はモデルの組み合わせに関する実用的な設定を提案および検討しました。これらの設定には、(i) 研究者が 1 つ以上の拡張モデルとアンカー モデルにアクセスできる、(ii) 重みの変更を許可しない、などがあります。 (iii) 特定のモデルのスキルを組み合わせたものを表す少量のデータのみにアクセスできます。


ネットワークケーブルに沿って登るのが現実となり、対話を通じてリアルな表現や動きを生成できるAudio2Photoreal

 

リンク: https://news.miracleplus.com/share_link/15172

冷たい電話画面越しに友人とチャットしているときは、相手の声の調子を推測する必要があります。 彼が話すとき、彼の表情や行動さえもあなたの心に現れます。 もちろんビデオ通話ができれば一番良いのですが、実際はいつでもビデオ通話ができるわけではありません。 遠く離れた友人とチャットする場合、それは冷たい画面のテキストや表情のないアバターではなく、リアルでダイナミックで表現力豊かなデジタル仮想人物です。 この仮想人物は、友人の笑顔、目、微妙な体の動きさえも完璧に再現することができます。 もっと優しくて温かい気持ちになれるでしょうか? これはまさに「ネットワークケーブルに沿って這ってあなたを見つけます」という文を体現しています。 これはSFの空想ではなく、現実に実現可能な技術です。


Google 画像生成 AI がマルチモーダル命令をマスター

 

リンク: https://news.miracleplus.com/share_link/15173

大規模言語モデル (LLM) を使用する場合、命令の微調整が重要であることは誰もが知っています。 適切に適用できれば、指示を微調整することで、LLM をさまざまなタスクの完了に役立てることができ、LLM を詩人、プログラマー、劇作家、科学研究助手、さらには投資マネージャーに変えることができます。 大型モデルがマルチモーダル時代に入った今でも、命令の微調整は有効なのでしょうか? たとえば、マルチモーダル命令を通じて画像生成の制御を微調整できますか? 言語生成とは異なり、画像生成には最初からマルチモダリティが含まれます。 モデルがマルチモダリティの複雑さを効果的に把握できるようにすることはできるでしょうか? この問題を解決するために、Google DeepMind と Google Research は、画像生成にマルチモーダルな命令方法を使用できることを提案しました。 この手法では、さまざまなモダリティの情報を織り交ぜて画像生成の条件を表現できます。


大型モデルの欠点を補うことに特化したRAGの新展開とは? このレビューはそれをわかりやすく説明しています

 

リンク: https://news.miracleplus.com/share_link/15174

同済大学の研究者Wang Haofen氏のチームと復旦大学のXiong Yun教授のチームは、コアパラダイム、主要技術から将来の開発トレンドに至るまでRAGを包括的に整理した検索強化生成(RAG)のレビューを発表した。 この研究は、研究者向けに RAG テクノロジー開発の明確な青写真を描き、将来の研究と探索の方向性を示しています。 同時に、開発者がさまざまなテクノロジの長所と短所を特定するための参考資料を提供し、さまざまなアプリケーション シナリオでこれらのテクノロジを最も効果的に利用する方法を示します。


TF-T2Vはテキストアノテーションが不要でAI動画の量産コストを削減! Huake、Ali らが共同作成

 

リンク: https://news.miracleplus.com/share_link/15175

ここ 2 年ほどで、LAION-5B、Stable Diffusion、DALL-E 2、ControlNet、Composer などの大規模な画像やテキストのデータセットが公開され、驚くべき効果をもたらす画像生成手法が次々と登場しました。 画像生成の分野は急成長しています。 ただし、画像生成と比較すると、ビデオ生成には依然として大きな課題があります。 まず、ビデオ生成では高次元データを処理し、余分な時間次元によってもたらされる時間モデリングの問題を考慮する必要があるため、時間ダイナミクスの学習を促進するには、より多くのビデオとテキストのペア データが必要です。 ただし、ビデオの正確な時間的アノテーションは非常に高価です。 これにより、ビデオとテキストのデータ セットの規模が制限されます。たとえば、既存の WebVid10M ビデオ データ セットには 1,070 万のビデオとテキストのペアが含まれており、データ スケールでは LAION-5B 画像データ セットには遠く及ばず、ビデオの規模が大幅に制限されています。世代モデル、拡張子。 上記の問題を解決するために、華中科技大学、アリババグループ、浙江大学、アントグループの共同研究チームは最近、TF-T2Vビデオソリューションをリリースしました。


言語モデルは時間をどのように認識するのでしょうか? 「時間ベクトル」について学ぶ

 

リンク: https://news.miracleplus.com/share_link/15176

言語モデルは時間をどのように正確に認識するのでしょうか? 言語モデルの時間認識をどのように利用して、出力をより適切に制御したり、脳を理解したりできるでしょうか? ワシントン大学とアレン人工知能研究所による最近の研究では、いくつかの洞察が得られます。 彼らの実験結果は、時間的変化は微調整されたモデルの重み空間である程度エンコードされており、重み補間は新しい期間に適応するように言語モデルをカスタマイズするのに役立つことを示しています。


新しいムーア時代: 2024 年の LLM 予想

 

リンク: https://news.miracleplus.com/share_link/15177

今後 5 ~ 10 年間の最も重要なトレンドは何ですか? ChatGPT の誕生は、この質問に対する答えをもたらし、また将来のデジタル エコシステムに明確なシグナルをもたらしました。それは、AI が将来の技術革新とビジネス モデルの変化の中核となるべきであるということです。 2024 年に LLM がどのように変化するかについては、誰も標準的な答えを持っていません。唯一確かなことは、「新しいムーアの法則」が変わらないということです。つまり、モデルのレベルは 1 ~ 2 世代ごとに 1 ~ 2 世代向上する可能性があるということです。年ごとに、モデルのトレーニングのコストは 18 か月ごとに元の値の 1/4 に削減され、推論コストは 18 か月ごとに元の値の 1/10 に削減されます。


マサチューセッツ ブリガム病院: ChatGPT の臨床意思決定の精度は 71.7% です。

 

リンク: https://news.miracleplus.com/share_link/15178

米国最大の非営利医療機関の 1 つであるマサチューセッツ州のブリガム病院は、臨床医療意思決定における ChatGPT の応用に関する研究論文を発表しました。 同病院は、診断の提案、診断検査の推奨から最終診断、看護管理の決定に至るまで、ChatGPTの精度は71.7%であり、臨床意思決定全体におけるそのパフォーマンスは驚くべきものであると述べた。 特に初期診断と比較して、ChatGPT は最終診断タスクで 76.9% という最高の精度を示しました。

© 版权声明

関連記事

コメントなし

コメントはありません…