11 月 3 日の Big Model Daily
[11 月 3 日の Big Model Daily] Gen-2 が AI 生成ビデオを破壊します! 4K 高解像度の大ヒット作が一言でリリースされ、ネチズン: ゲームのルールを完全に変更; ミッドジャーニーの大型アップデート: カスタム スタイルの新機能のオープン; Musk 𝕏AI の製品の最初のバッチが公開されました! 「Prompt Word ワークステーション」が登場し、コメント エリアに私が登場します。6 億人の労働者が一晩で機器を交換しました。 DingTalk AI はテストのために完全にオープンです
Gen-2 は AI 生成ビデオを破壊します! 4K 高精細の大ヒット作を一言でリリースできるネチズン:ゲームのルールが完全に変わります。
https://news.miracleplus.com/share_link/11404
これは間違いなく、生成 AI のプロセスにおけるマイルストーンです。 ちょうど深夜、Runway の象徴的な AI ビデオ生成ツール Gen-2 が「iPhone モーメント」のような壮大なアップデートをもたらしました – それはまだ単純な文章入力でしたが、今回はビデオ効果が 4K ウルトラに引き上げられました リアリズムの高さ! 今回のAI生成動画の効果は、これまでの「ひと目AI」の欠点である、支離滅裂、ちらつき歪み、低精細度などを克服していることは容易に想像できる。 そして、これがまさに Gen-2 のこの壮大なアップデートの焦点です。これにより、Vincent Video と Tusheng Video の結果の忠実性と一貫性が大幅に向上します。
Midjourney の大型アップデート: 新しいカスタム スタイル機能が利用可能になりました!
https://news.miracleplus.com/share_link/11405
Midjourneyの大型アップデートは、再び「ゲームのルールを変える」と評価されました – 新しいスタイルチューナー機能により、ユーザーは画像スタイルをカスタマイズできます。 カスタマイズされたスタイルは 1 行のコードに圧縮されます。このコード行をプロンプトの最後に貼り付ける限り、生成される図ではカスタマイズされたスタイルが維持されます。 さらに、カスタマイズされたスタイルコードも共有できるため、ネチズンは将来的にスタイル共有がプロンプト共有に取って代わると考えています。
Musk 𝕏AI の最初の製品が公開されました! 「Prompt Word Workstation」がここにあり、コメント領域に私が表示されます
https://news.miracleplus.com/share_link/11406
マスク氏の AI チームからの製品情報の最初のバッチが公開されました: AI 情報検索に関連する Grok、文字通り「プロンプト ワード ワークステーション/統合開発環境」を意味する PromptIDE。 このニュースは、𝕏AI がこれら 2 つの商標出願を提出したことを発見した Twitter ブロガー @Asuna Gilfoyle – e/acc からのものです。 マスク氏が否定せずにコメント欄に湧き出ていたことから、信憑性は低くないかもしれない。 これら 2 つの製品についてはこれ以上の情報は不明であり、リーク情報に含まれる商標の記述から「推測」することしかできません。 Grok と PromptIDE は同じ商標番号を使用しているため、具体的な説明も同じです。 これらは次の目的で使用されます。
– 情報を手動で作成し、情報を処理/生成/理解および分析するためのダウンロード不可のオンライン ソフトウェアを提供する。
– AI分野の研究開発サービス。
– コンピュータプログラムおよびソフトウェアの研究、設計、開発。
– AI分野の情報を特集したWebサイトを提供します。
– グローバルコンピュータネットワークを利用して情報を抽出および取得し、データマイニングを実施します。
– グローバルコンピュータネットワークに関連する情報のインデックスを作成します
6 億人の労働者が一夜にして設備を交換しました。 DingTalk AI はテストのために完全にオープンです
https://news.miracleplus.com/share_link/11407
DingTalk Magic Wand はベータ テスト用に発売されて以来、50 万社以上の企業が AI を使用して業務を支援するために使用してきました。 本日、DingTalk AI Magic Wand が正式にリリースされ、DingTalk チャット、ドキュメント、ナレッジ ベース、ブレイン マップ、フラッシュ ノート、Teambition を含む 17 製品と 60 以上のシナリオが完全にテスト用に公開されました。 すべてのユーザーが DingTalk を開くと、ホームページの右上隅にある「魔法の杖」エントリを通じて、または各製品ページの魔法の杖ボタンをクリックすることで、DingTalk AI を使用できます。
LeCun氏とNg Enda氏を含む370人以上が共同書簡に署名した。「AIの厳格な管理は危険であり、公開性が解毒剤である」。
https://news.miracleplus.com/share_link/11408
ここ数日、AIをどのように監督するかについての議論がますます白熱しており、大手の意見は大きく異なっている。 たとえば、チューリング賞の巨人、ジェフリー・ヒントン、ヨシュア・ベンジオ、ヤン・ルカンの3人は2つの意見を持っています。 ヒントン氏とベンジオ氏はチームで、AIの監視強化を強く求めており、さもなければ「AIが人類を滅ぼす」という危険につながりかねない。 ルカン氏は彼らの意見に同意しておらず、AIに対する強力な規制は必然的に巨大企業の独占につながり、その結果、少数の企業だけがAIの研究開発を管理することになると考えている。 自分たちの考えを表現するために、多くの人が共同書簡に署名することで自分の意見を表明しており、例えばここ数日、ベンジオ氏やヒントン氏らは「急速な発展の時代における人工知能のリスク管理」という共同書簡を発行し、次のように呼びかけた。 AI システムを開発する前に、研究者は緊急のガバナンス措置を講じる必要があります。 同時に、「人工知能の安全性とオープン性に関する共同声明」と題した公開書簡が現在ソーシャルメディア上で盛り上がっている。
GPT-4を上回るコーディング能力を誇り、ビッグコードランキングで1位を獲得し、YC創設者からも賞賛されたモデルです。
https://news.miracleplus.com/share_link/11409
GPT-4を超えるコーディング能力を持つと主張するモデルは、多くのネチズンの注目を集めています。 精度は GPT-4 より 10% 以上高くなりますが、速度は GPT-3.5 に近く、ウィンドウ長も長くなります。 開発者によると、彼らのモデルはオリジナルの GPT-4 の 67% を超える 74.7% の Pass@1 合格率を達成し、Big Code のリストでトップになりました。 このモデルはPhindと呼ばれ、それをベースにした開発者向けAI検索ツールと同じ名前です。 CodeLlama-34B に基づいて開発チームによって微調整されています。 Phind は TensorRT-LLM を使用して、H100 上で 1 秒あたり 100 トークンの速度で実行します。これは GPT-4 の 5 倍の速度です。 さらに、Phind のコンテキスト長は 16k に達し、そのうち 12k はユーザー入力に使用でき、残りの 4k は検索結果のテキスト用に予約されています。
北京大学チームは、ChatGPT にとって頭痛の種であるアルゴリズムの最適化を解決し、通常のラップトップで実行できるようになりました
https://news.miracleplus.com/share_link/11410
ChatGPTですら見て首を振ったアルゴリズムの最適化を北京大学チームが解決した。 テストの結果、新しい研究では、NOIP、Codeforce、Leetcode、その他のコンテストでの分割統治問題や動的プログラミングの問題など、検証セットの問題の 90% を解決できることが示されました。これらの問題は、多くの大規模モデルでは解決するのが困難です。 そして、それはあなた自身の普通のラップトップ上で実行することができます! 結局のところ、アルゴリズムの最適化は、大規模モデルや AI 全体の機能においても盲点です。 Nature によって公開された DeepMind AlphaTensor でさえ、プログラム合成の分野に衝撃を与えましたが、その実際の効果は業界の専門家にとって「まだ十分ではありません」。 したがって、AI が克服できないこの分野において、アルゴリズムの最適化をどのように高速化し、改善できるでしょうか。 北京大学のチームは、プログラム計算とプログラム列挙を組み合わせて 2 セットのアルゴリズム最適化ソフトウェアを作成しました。 1 つのセットは分割統治、並列化、増分計算、線分ツリーなどのアルゴリズムの最適化を処理でき、もう 1 つのセットは動的プログラミング アルゴリズムの最適化をサポートします。
たった今、ビートルズがAIによって制作された「最後の」新曲をリリースした
https://news.miracleplus.com/share_link/11411
音楽に詳しい友人であれば、ビートルズを知らない人はいないでしょう。彼らは歴史上最も偉大で最も影響力のあるロック バンドであり、現代のロック ミュージックの始まりとして広く知られています。 ビートルズは1960年にジョン・レノン、リンゴ・スター、ポール・マッカートニー、ジョージ・ハリスンによって結成されました。 1963年にバンドはデビュー・アルバム『プリーズ・プリーズ・ミー』をリリースし、1969年の『アビイ・ロード』は彼らの最高傑作とみなされている。 1970年、バンドは解散すると発表した。 ご存知のとおり、2人のバンドメンバー、ジョン・レノンとジョージ・ハリスンはそれぞれ1980年と2001年に亡くなりました。 『Now and then』は、ビートルズ音楽を愛する世界中のファンについにお届けします。 この曲の誕生にはAIが重要な役割を果たしました。 リンゴ・スターとポール・マッカートニーは、機械学習やその他の AI 技術を使用して、ジョン・レノンの忠実な録音から最終トラックをつなぎ合わせました。
LLM が「間違った質問」から学習して推論能力を大幅に向上させましょう
https://news.miracleplus.com/share_link/11412
この間、大規模言語モデルはさまざまな NLP タスク、特に複雑な思考連鎖 (CoT) 推論を必要とする数学的問題において大幅な進歩を遂げました。 たとえば、GSM8K や MATH などの難しい数学的タスクを含むデータセットでは、GPT-4 や PaLM-2 などの独自モデルが顕著な結果を達成しています。 この点で、オープンソースの大規模モデルにはまだ改善の余地がかなりあります。 数学的タスク用のオープンソースの大規模モデルの CoT 推論機能をさらに向上させるための一般的なアプローチは、注釈付き/生成された質問と推論のデータ ペア (CoT データ) を使用してこれらのモデルを微調整することです。タスク中に CoT 推論を実行します。 最近の論文で、西安交通大学、マイクロソフト、北京大学の研究者らは、別の改善案を探求しようとしました。それは、逆学習プロセス (つまり、LLM による間違いから学習すること) を通じて推論能力をさらに向上させることができるかというものです。 数学を学び始めたばかりの学生と同じように、最初はこの本の知識ポイントと例から学びますが、練習もします。 問題を解くことができなかった後、自分がどのような間違いを犯したか、そしてそれをどのように修正するかを知り、「間違った問題集」を形成します。 間違いから学ぶことで推論スキルがさらに向上します。 このプロセスに触発されたこの研究では、エラーを理解して修正することで LLM の推論機能がどのように恩恵を受けるかを探ります。
中国など28カ国がAIの安全な開発を促す「ブレッチリー宣言」を発表
https://news.miracleplus.com/share_link/11413
英国時間11月1日、中国、米国、英国、フランス、ドイツ、欧州連合を含む28カ国が英国のブレッチリー邸で初の世界的な人工知能(AI)声明「ブレッチリー利益宣言」に署名した。 。 この宣言は、AI が人間社会にもたらす大きなチャンスを明確に指摘していますが、全人類に利益をもたらすためには、AI は人間中心で、信頼でき、責任ある方法で設計および使用される必要があります。 特に、ChatGPT、Bard、Midjourney などの大規模な言語モデルや、「超」機能を備えたその他の狭い AI など、「最先端」の AI によってもたらされるリスクが指摘されています。 このようなシステムの機能は予測が難しく、悪用されたり制御を失ったりする可能性があります。 したがって、私たちは国際社会に対し、透明性と説明責任を向上させるために既存の国際フォーラムの下で政策と規制を策定するために協力し、この種の最先端のAIに関する科学的研究とリスク評価を強化して、安全で健康的で安全な社会で開発することを求めます。確実なマナーと応用AI。
大きなモデルが携帯電話に搭載され、AIが世界を変える幕が開く
https://news.miracleplus.com/share_link/11414
カメラインターフェイスを開いて、デモンストレーターは目の前の風景の写真を撮りました。 写真アルバムの中で、この写真を見つけて「拡大」機能を選択したところ、写真に写りきらなかった周辺部分が魔法のように周辺まで「拡大」されました。 一方、携帯電話は来場者の自撮りに使われているようで、フロントカメラエリアに入ると、リアルタイムで人物の背景が切り替わり、自撮り者が動き続けても、バーチャル背景はありませんが、装着すると遅延をほとんど感じません。 そして、もう少し詳しく見てみると、デモンストレーションに使用されたすべての携帯電話が機内モードになっていることがわかります。つまり、上記のすべての複雑な機能が携帯電話のローカル チップ上で実行されています。 ここは2023 Qualcomm Snapdragon Summitのデモ体験会場で、上記の携帯電話で実証されたAI機能はすべてマシン内部のSnapdragon 8 Gen 3(第3世代Snapdragon 8)プロセッサチップの演算に依存しています。それは会議で明らかになったばかりです。 大型 AI モデルが注目されている時期に、クアルコムは今年の記者会見で 2 つの新製品、Snapdragon X Elite と Snapdragon 8 Gen 3 チップを発表し、それぞれ PC とスマートフォンに代表されるモバイル デバイス上で数百億のパラメータを実現しました。大規模なモデルの実行により、生成 AI の魔法の機能がモバイル デバイスの「組み込み機能」になります。 「クラウドAI」に加え、チップの急速な発展により「端末AI」も実現し、両者が連携する「ハイブリッドAI」の時代が到来しているのかもしれない。