1月8日ビッグモデルデイリーコレクション

情報1数年前 (2024)发布 AIWindVane

55 0 0

【1月8日ビッグモデルデイリーコレクション】AI通訳ビデオがあなたの口にやってくる？この「錯覚」問題は Vista-LLaMA で解決されます。4 行のコードで大規模モデルのコンテキストが 3 倍になり、アルパカミストラルに適用できます。低エネルギー消費と高速、EPFL とマイクロソフトの研究チームによる新しい方法: 深層物理ニューラルネットワークバックプロパゲーションを使用しないトレーニング、Microsoft 幹部の Dee Templeton 氏が OpenAI 取締役会に参加

口を開けるだけでAIが動画を解釈してくれる？この「錯覚」問題は Vista-LLaMA で解決されます。

リンク: https://news.miracleplus.com/share_link/15242

近年、GPT、GLM、LLaMAなどの大規模言語モデルは自然言語処理の分野で大きな進歩を遂げており、ディープラーニング技術に基づいて複雑なテキストコンテンツを理解して生成することができます。ただし、これらの機能をビデオコンテンツ理解の分野に拡張することは、まったく新しい課題です。ビデオには、豊富で多様な視覚情報が含まれているだけでなく、時系列での動的な変化も含まれているため、大規模な言語モデルが情報を抽出することがより困難になります。ビデオ。複雑さのために。この課題に直面して、バイトダンスと浙江大学は、信頼性の高いビデオ記述を出力できるマルチモーダル大規模言語モデルである Vista-LLaMA を提案しました。 Vista-LLaMA はビデオコンテンツの複雑さに合わせて特別に設計されており、ビデオフレームを正確な言語記述に効果的に変換できるため、ビデオコンテンツの分析と生成の品質が大幅に向上します。

1 つずつラベルを付ける必要はなく、1 つのプロンプトを使用して、効率的かつ正確なバッチ画像セグメンテーションを実現します。

リンク: https://news.miracleplus.com/share_link/15243

Segment Anything Model (SAM) の提案は画像セグメンテーションの分野で大きな注目を集めており、その優れた汎化性能は広く関心を集めています。しかし、それにもかかわらず、SAM は依然として避けられない問題に直面しています。SAM がターゲットオブジェクトの位置を正確にセグメント化するには、各画像に独自の視覚的手がかりを手動で提供する必要があります。 SEEM や AV-SAM などの一部の現在の方法は、より多くのモダリティからの入力情報を提供することで、どのオブジェクトがセグメント化されるべきかをモデルがよりよく理解できるようにガイドします。ロンドン大学クイーン・メアリーの研究者は、GenSAM と呼ばれるトレーニング不要のセグメンテーション手法を提案しました。これは、タスクに共通のテキストプロンプトを提供するだけで、タスクの下にあるすべてのラベルのないサンプルを効果的にセグメント化できます。

4 行のコードにより、アルパカミストラルに適用できる大規模モデルのコンテキストが 3 倍になります

リンク: https://news.miracleplus.com/share_link/15267

微調整は必要ありません。たった 4 行のコードで、大きなモデルのウィンドウの長さを最大 3 倍まで劇的に増やすことができます。さらに、「プラグアンドプレイ」であり、理論的にはあらゆる大規模モデルに適応でき、Mistral と Llama2 でのテストに成功しています。この技術を使用すると、大きなモデル (LargeLM) を LongLM に変換できます。最近、テキサス A&M 大学やその他の機関の中国人学者らが、新しい大型モデルウィンドウ拡張手法 SelfExtended (略して SE) を発表しました。 Mistral では、研究者らはモデルの 24,000 の長さのテキストに 5 桁の数字をランダムに挿入して検索し、SE 処理後、結果はオールグリーン (合格) のテスト結果を示しました。

40% 以上の感度と 90% の精度を備えた De novo ペプチドシークエンシング、ディープラーニング主導のタンデム質量分析分析手法

リンク: https://news.miracleplus.com/share_link/15268

DNA や RNA とは異なり、タンパク質には正確でハイスループットのシーケンス手法が欠けており、バリアントコール、新規エピトープ同定、メタプロテオミクスなど、配列が未知の用途でのプロテオミクスの利用が妨げられています。ドイツのミュンヘン工科大学 (TUM) の研究者は、タンデム質量分析のための新規ペプチド配列決定法である Spectralis を導入しました。 Spectralis は、アミノ酸質量ごとに間隔をあけたスペクトルピークを接続する畳み込みニューラルネットワーク層を含むいくつかのイノベーションを活用し、デノボペプチドシークエンシングの重要なタスクとしてフラグメントイオンシリーズ分類を提案し、ペプチドマップの信頼性スコアリングを行います。データベース検索によって提供される実際のスペクトルについて、Spectralis は 40% 以上の感度と最大 90% の精度を達成しており、これは現在の SOTA のほぼ 2 倍の感度です。未同定のスペクトルへの適用により、その優位性が確認され、バリアント呼び出しへの適合性が実証されます。

低エネルギー消費と高速、EPFL とマイクロソフトの研究チームによる新しい方法: 深層物理ニューラルネットワークのバックプロパゲーションなしのトレーニング

リンク: https://news.miracleplus.com/share_link/15269

大規模なディープニューラルネットワーク (NN) やその他の人工知能 (AI) アプリケーションの最近の開発に伴い、それらのトレーニングと操作に必要なエネルギー消費についての懸念が高まっています。物理ニューラルネットワークはこの問題の解決策になる可能性がありますが、従来のアルゴリズムをハードウェアに直接実装すると、複数の困難に直面します。従来の逆伝播アルゴリズムを使用したニューラルネットワークのトレーニングには、スケーラビリティの欠如、トレーニング中の操作の複雑さ、デジタルトレーニングモデルへの依存など、いくつかの課題が伴います。ローザンヌ工科大学 (EPFL) と Microsoft Research を含む共同チームは、物理ローカル学習 (PhyLL) アルゴリズムによって強化されたシンプルなディープニューラルネットワークアーキテクチャを提案しました。このアーキテクチャは、特性の詳細な知識がなくても、ディープ物理ニューラルネットワークの教師なしトレーニングを実行できます。非線形物理層の。研究者らは、このアプローチを使用して、母音と画像の分類に関する実験でさまざまな波動ベースの物理ニューラルネットワークをトレーニングし、このアプローチの一般化可能性を実証しました。

マルチラウンド対話推論の速度が 46% 向上し、オープンソースソリューションは LLM マルチラウンド対話の長さ制限を突破します

リンク: https://news.miracleplus.com/share_link/15244

大規模言語モデル (LLM) の世界では、複数の対話を処理することが常に課題でした。 MIT Guangxuan Xiaoらが最近立ち上げたStreamingLLMは、推論速度と生成効果を犠牲にすることなく、複数ラウンドの対話で合計400万トークンのストリーミング入力を実現し、推論速度を22.2倍向上させることができる。ただし、StreamingLLM はネイティブ PyTorch を使用して実装されており、低コスト、低遅延、高スループット、およびマルチラウンド対話推論シナリオのその他の要件を最適化する余地がまだあります。 Colossal-AI チームは、SwiftInfer をオープンソース化し、TensorRT に基づいた StreamingLLM を実装しました。これにより、大規模モデル推論のパフォーマンスがさらに 46% 向上し、複数ラウンドの対話推論のための効率的で信頼性の高い実装ソリューションが提供されます。

Microsoft幹部のDee Templeton氏がOpenAIの取締役会に加わる

リンク: https://news.miracleplus.com/share_link/15270

1月6日、ブルームバーグは、マイクロソフト幹部のディー・テンプルトン氏が投票権のないオブザーバーとしてOpenAI取締役会に加わったと報じた。現在、OpenAI の取締役は合計 4 名で、その中には元 Salesforce 共同 CEO ブレット・テイラー (会長)、元米国財務長官ラリー・サマーズ、世界最大の知識 Q&A コミュニティである Quora の共同創設者であるアダム・ディアンジェロ、そして新たに加わったディー。また、Microsoft が 2019 年 7 月 22 日に OpenAI に 10 億米ドルを投資して以来、OpenAI 取締役会に人物を任命するのはこれが初めてです。