1月2日大型模型日刊コレクション

【1月2日大型模型日刊コレクション】大型模型の錯視問題に解決策はないのか? この理論は、校正された LM が必ず幻覚を引き起こすことを証明しています。ファーウェイは Transformer アーキテクチャを改良しました。 Pangu-π は特徴欠陥の問題を解決し、同じスケールで LLaMA を上回るパフォーマンスを示します; 清華大学とハーバード大学は、3 次元空間でオープンワードを効率的かつ正確に検索できる LangSplat と呼ばれる新しい AI システムを共同開発しました
Vincent Video の次の目的地である Meta はビデオの作成を開始しました
リンク: https://news.miracleplus.com/share_link/14822
テキストガイドによるビデオツービデオ (V2V) 合成は、より広範な映画業界だけでなく、短編ビデオの作成など、さまざまな分野で幅広い用途があります。 拡散モデルはイメージツーイメージ (I2I) 合成を変革しましたが、ビデオツービデオ (V2V) 合成ではビデオ フレーム間の時間的一貫性を維持するという課題に直面しています。 I2I モデルをビデオに適用すると、多くの場合、フレーム間でピクセルがちらつきます。 この問題を解決するために、テキサス大学オースティン校とMeta GenAIの研究者らは、ソースビデオ内の空間条件と時間的なオプティカルフローの手がかり(手がかり)を共同利用する新しいV2V合成フレームワーク、FlowVidを提案した。 入力ビデオとテキスト プロンプトが与えられると、FlowVid は時間の一貫したビデオを合成できます。

Tencent は 3D アセットの高解像度テクスチャを生成し、AI を使用してゲーム スキンを拡張します
リンク: https://news.miracleplus.com/share_link/14823
最近、Tencent は Paint3D と呼ばれるテクノロジーの発表を発表しました。これは、テキストまたは画像入力に基づいてテクスチャフリー 3D モデル用の高解像度で照明のない多様なテクスチャ マップを生成し、任意の 3D オブジェクトをテクスチャ ペイントすることができます。

大きなモデルの錯視の問題を解決する方法はないのでしょうか? この理論は、校正されたLMが必ず幻覚を引き起こすことを証明しています
リンク: https://news.miracleplus.com/share_link/14824
大規模言語モデル (LLM) は多くの下流タスクで優れた機能を実証していますが、実際の適用にはまだいくつかの問題があります。 中でも、LLM の「幻覚」問題は重要な欠陥です。 幻覚は、人工知能のアルゴリズムによって生成される、合理的であるように見えても、誤りまたは誤解を招く応答です。 LLM の人気が爆発的に広まって以来、研究者たちは、LLM を広範に適用することを困難にする幻覚の問題を分析し、軽減することに苦労してきました。 現在、新しい研究は次のように結論付けています: 「調整された言語モデルは幻覚に悩まされる必要がある。」 この研究論文は、Microsoft Research の上級研究員である Adam Tauman Kalai とジョージア研究所の教授である Santosh S. Vempala によって最近発表された「Calibrated Language Models Must」です。テクノロジーの幻覚。」 この論文は、Transformer のアーキテクチャやデータ品質とは無関係に、事前トレーニングされた言語モデルが特定のタイプの事実を幻覚させる固有の統計的理由があることを示しています。

ファーウェイがTransformerアーキテクチャを改良! Pangu-π は特徴欠陥の問題を解決し、そのパフォーマンスは同じスケールで LLaMA を超えます
リンク: https://news.miracleplus.com/share_link/14825
ファーウェイのPanguシリーズは、アーキテクチャレベルで革新をもたらします。 ファーウェイのノアの方舟研究所とその他の企業は共同で、新しい大規模言語モデルアーキテクチャであるPangu-πを立ち上げた。 非線形性を強化することで従来の Transformer アーキテクチャを改善し、機能崩壊の問題を大幅に軽減できます。 直接的な効果は、モデル出力の表現力が強化されることです。 同じデータでトレーニングすると、Pangu-π (7B) はマルチタスクにおいて LLaMA 2 と同等の大規模モデルを上回り、10% の推論加速を達成できます。 1B スケールで SOTA に到達できます。 同時に、この構造に基づいて大規模な金融法モデル「雲山」が開発されました。 この研究は、AI 専門家の Tao Dacheng 氏が主導しています。

「スラムダンク」は人型ロボットをシミュレートし、人間のバスケットボールの動きを 1 対 1 で模倣するもので、特定のタスクに対する報酬を必要とせず、一度見ただけで習得できます。
リンク: https://news.miracleplus.com/share_link/14826
PhysHOI と呼ばれる最近の新しい研究により、物理的にシミュレートされたヒューマノイド ロボットは、ヒューマン オブジェクト インタラクション (HOI) のデモンストレーションを見てこれらの動作やテクニックを学習し、模倣することができます。 重要なのは、PhysHOI では特定のタスクごとに特定の報酬メカニズムを設定する必要がなく、ロボットが自律的に学習して適応できるということです。 さらに、ロボット本体には合計 51×3 の独立した制御点があるため、非常に現実的なシミュレーションが可能です。

303 個の新しい分子を発見、合成、特性評価し、MIT チームは機械学習主導の閉ループ自律分子発見プラットフォームを開発しました。
リンク: https://news.miracleplus.com/share_link/14827
従来、望ましい特性を発見する分子プロセスは、手作業による実験、化学者の直観、メカニズムと第一原理の理解によって推進されてきました。 化学者が自動化装置や予測合成アルゴリズムを使用することが増えているため、自律的な研究施設が近づいています。 最近、MIT の研究者らは、統合機械学習ツールを活用した閉ループ自律分子発見プラットフォームを開発し、望ましい特性を持つ分子の設計を加速しました。 手作業で実験することなく、化学空間を探索し、既知の化学構造を活用します。 2 つのケーススタディにわたって、プラットフォームは 3,000 を超える反応を試み、そのうち 1,000 を超える反応生成物が予測され、303 の未報告の色素様分子が提案、合成、特性評価されました。

清華大学とハーバード大学は共同で、3次元空間でオープンワードを効率的かつ正確に検索できるLangSplatと呼ばれる新しいAIシステムを開発した。
リンク: https://news.miracleplus.com/share_link/14828
LangSplat は、初の 3DGS ベースの 3D 言語フィールド メソッドであり、特に SAM と CLIP を導入しており、オープンボキャブラリーの 3D オブジェクト ローカリゼーションとセマンティック セグメンテーション タスクにおいて最先端のメソッドを上回り、LERF よりも 199 倍高速です。 カリフォルニア大学バークレー校の研究者は、2023 年 3 月に言語埋め込み放射場 (LERF) を実証しました。これにより、既製のモデル (CLIP など) から NeRF に言語埋め込みが埋め込まれ、ツールを必要とせずに 3 次元レンダリングが可能になります。専門的なトレーニング環境内の物体を正確に識別します。 たとえば、書店の NeRF 環境では、ユーザーは自然言語を使用して特定の本のタイトルを検索できます。 この技術は、ロボット工学、シミュレートされたロボットの視覚トレーニング、および人間と 3 次元世界との相互作用にも使用できる可能性があります。
