1月8日ビッグモデルデイリーコレクション

【1月8日ビッグモデルデイリーコレクション】AI通訳ビデオがあなたの口にやってくる? この「錯覚」問題は Vista-LLaMA で解決されます。4 行のコードで大規模モデルのコンテキストが 3 倍になり、アルパカ ミストラルに適用できます。低エネルギー消費と高速、EPFL とマイクロソフトの研究チームによる新しい方法: 深層物理ニューラル ネットワークバックプロパゲーションを使用しないトレーニング、Microsoft 幹部の Dee Templeton 氏が OpenAI 取締役会に参加
口を開けるだけでAIが動画を解釈してくれる? この「錯覚」問題は Vista-LLaMA で解決されます。
リンク: https://news.miracleplus.com/share_link/15242
近年、GPT、GLM、LLaMAなどの大規模言語モデルは自然言語処理の分野で大きな進歩を遂げており、ディープラーニング技術に基づいて複雑なテキストコンテンツを理解して生成することができます。 ただし、これらの機能をビデオ コンテンツ理解の分野に拡張することは、まったく新しい課題です。ビデオには、豊富で多様な視覚情報が含まれているだけでなく、時系列での動的な変化も含まれているため、大規模な言語モデルが情報を抽出することがより困難になります。ビデオ。複雑さのために。 この課題に直面して、バイトダンスと浙江大学は、信頼性の高いビデオ記述を出力できるマルチモーダル大規模言語モデルである Vista-LLaMA を提案しました。 Vista-LLaMA はビデオ コンテンツの複雑さに合わせて特別に設計されており、ビデオ フレームを正確な言語記述に効果的に変換できるため、ビデオ コンテンツの分析と生成の品質が大幅に向上します。
1 つずつラベルを付ける必要はなく、1 つのプロンプトを使用して、効率的かつ正確なバッチ画像セグメンテーションを実現します。
リンク: https://news.miracleplus.com/share_link/15243
Segment Anything Model (SAM) の提案は画像セグメンテーションの分野で大きな注目を集めており、その優れた汎化性能は広く関心を集めています。 しかし、それにもかかわらず、SAM は依然として避けられない問題に直面しています。SAM がターゲット オブジェクトの位置を正確にセグメント化するには、各画像に独自の視覚的手がかりを手動で提供する必要があります。 SEEM や AV-SAM などの一部の現在の方法は、より多くのモダリティからの入力情報を提供することで、どのオブジェクトがセグメント化されるべきかをモデルがよりよく理解できるようにガイドします。 ロンドン大学クイーン・メアリーの研究者は、GenSAM と呼ばれるトレーニング不要のセグメンテーション手法を提案しました。これは、タスクに共通のテキスト プロンプトを提供するだけで、タスクの下にあるすべてのラベルのないサンプルを効果的にセグメント化できます。
4 行のコードにより、アルパカ ミストラルに適用できる大規模モデルのコンテキストが 3 倍になります
リンク: https://news.miracleplus.com/share_link/15267
微調整は必要ありません。たった 4 行のコードで、大きなモデルのウィンドウの長さを最大 3 倍まで劇的に増やすことができます。 さらに、「プラグ アンド プレイ」であり、理論的にはあらゆる大規模モデルに適応でき、Mistral と Llama2 でのテストに成功しています。 この技術を使用すると、大きなモデル (LargeLM) を LongLM に変換できます。 最近、テキサス A&M 大学やその他の機関の中国人学者らが、新しい大型モデル ウィンドウ拡張手法 SelfExtended (略して SE) を発表しました。 Mistral では、研究者らはモデルの 24,000 の長さのテキストに 5 桁の数字をランダムに挿入して検索し、SE 処理後、結果はオールグリーン (合格) のテスト結果を示しました。
40% 以上の感度と 90% の精度を備えた De novo ペプチドシークエンシング、ディープラーニング主導のタンデム質量分析分析手法
リンク: https://news.miracleplus.com/share_link/15268
DNA や RNA とは異なり、タンパク質には正確でハイスループットのシーケンス手法が欠けており、バリアントコール、新規エピトープ同定、メタプロテオミクスなど、配列が未知の用途でのプロテオミクスの利用が妨げられています。 ドイツのミュンヘン工科大学 (TUM) の研究者は、タンデム質量分析のための新規ペプチド配列決定法である Spectralis を導入しました。 Spectralis は、アミノ酸質量ごとに間隔をあけたスペクトル ピークを接続する畳み込みニューラル ネットワーク層を含むいくつかのイノベーションを活用し、デノボ ペプチド シークエンシングの重要なタスクとしてフラグメント イオン シリーズ分類を提案し、ペプチド マップの信頼性スコアリングを行います。 データベース検索によって提供される実際のスペクトルについて、Spectralis は 40% 以上の感度と最大 90% の精度を達成しており、これは現在の SOTA のほぼ 2 倍の感度です。 未同定のスペクトルへの適用により、その優位性が確認され、バリアント呼び出しへの適合性が実証されます。
低エネルギー消費と高速、EPFL とマイクロソフトの研究チームによる新しい方法: 深層物理ニューラル ネットワークのバックプロパゲーションなしのトレーニング
リンク: https://news.miracleplus.com/share_link/15269
大規模なディープ ニューラル ネットワーク (NN) やその他の人工知能 (AI) アプリケーションの最近の開発に伴い、それらのトレーニングと操作に必要なエネルギー消費についての懸念が高まっています。 物理ニューラル ネットワークはこの問題の解決策になる可能性がありますが、従来のアルゴリズムをハードウェアに直接実装すると、複数の困難に直面します。 従来の逆伝播アルゴリズムを使用したニューラル ネットワークのトレーニングには、スケーラビリティの欠如、トレーニング中の操作の複雑さ、デジタル トレーニング モデルへの依存など、いくつかの課題が伴います。 ローザンヌ工科大学 (EPFL) と Microsoft Research を含む共同チームは、物理ローカル学習 (PhyLL) アルゴリズムによって強化されたシンプルなディープ ニューラル ネットワーク アーキテクチャを提案しました。このアーキテクチャは、特性の詳細な知識がなくても、ディープ物理ニューラル ネットワークの教師なしトレーニングを実行できます。非線形物理層の。 研究者らは、このアプローチを使用して、母音と画像の分類に関する実験でさまざまな波動ベースの物理ニューラル ネットワークをトレーニングし、このアプローチの一般化可能性を実証しました。
マルチラウンド対話推論の速度が 46% 向上し、オープンソース ソリューションは LLM マルチラウンド対話の長さ制限を突破します
リンク: https://news.miracleplus.com/share_link/15244
大規模言語モデル (LLM) の世界では、複数の対話を処理することが常に課題でした。 MIT Guangxuan Xiaoらが最近立ち上げたStreamingLLMは、推論速度と生成効果を犠牲にすることなく、複数ラウンドの対話で合計400万トークンのストリーミング入力を実現し、推論速度を22.2倍向上させることができる。 ただし、StreamingLLM はネイティブ PyTorch を使用して実装されており、低コスト、低遅延、高スループット、およびマルチラウンド対話推論シナリオのその他の要件を最適化する余地がまだあります。 Colossal-AI チームは、SwiftInfer をオープンソース化し、TensorRT に基づいた StreamingLLM を実装しました。これにより、大規模モデル推論のパフォーマンスがさらに 46% 向上し、複数ラウンドの対話推論のための効率的で信頼性の高い実装ソリューションが提供されます。
Microsoft幹部のDee Templeton氏がOpenAIの取締役会に加わる
リンク: https://news.miracleplus.com/share_link/15270
1月6日、ブルームバーグは、マイクロソフト幹部のディー・テンプルトン氏が投票権のないオブザーバーとしてOpenAI取締役会に加わったと報じた。 現在、OpenAI の取締役は合計 4 名で、その中には元 Salesforce 共同 CEO ブレット・テイラー (会長)、元米国財務長官ラリー・サマーズ、世界最大の知識 Q&A コミュニティである Quora の共同創設者であるアダム・ディアンジェロ、そして新たに加わったディー。 また、Microsoft が 2019 年 7 月 22 日に OpenAI に 10 億米ドルを投資して以来、OpenAI 取締役会に人物を任命するのはこれが初めてです。