12月20日ビッグモデルデイリーコレクション

情報1数年前 (2024)发布 AIWindVane
54 0

12月20日ビッグモデルデイリーコレクション

【12月20日ビッグモデルデイリーコレクション】Swiftieが「Daoxiang」を歌い、国内チームのAmphionオーディオ生成が人気に; Google Gemini:CMU総合評価、Gemini ProはGPT 3.5 Turboに敗れた; Big Model +検索で完全な技術スタックを構築、Baichuan Intelligenceが使用エンタープライズカスタマイズに「強力な薬」を与える検索機能の強化、ビデオ生成は無限に長いのか? Google VideoPoet の大型モデルがオンライン、ネチズン: 革新的なテクノロジー、Microsoft Copilot に新しい主要機能が追加されました。 テキストが超リアルな音楽を直接生成、Intel Gaudi2C AI アクセラレータ カードが Linux ドライバに登場、中国向けの特別バージョンと伝えられる


Swiftyが「Daoxiang」を歌い、国内チームのAmphionオーディオ世代が人気に

 

リンク: https://news.miracleplus.com/share_link/13831

香港中文大学(深セン)データサイエンス学部の呉志志准教授のチームと上海人工知能研究所のOpenMMLabチームは、総合オーディオ生成プロジェクトAmphionをオープンソース化した。 同システムは、音声合成・変換、歌声合成・変換、効果音音楽生成などの機能を統合したオープンソースプラットフォームの構築を目指している。 これまでのところ、Amphion は GitHub のトレンド リポジトリ リストに何度も登録されています。

12月20日ビッグモデルデイリーコレクション

Google Gemini を理解する: CMU の総合評価、Gemini Pro は GPT 3.5 Turbo に負ける

 

リンク: https://news.miracleplus.com/share_link/13832

少し前に、Google は OpenAI GPT モデルの競合製品である Gemini をリリースしました。 この大型モデルには、Ultra (最も高性能)、Pro、Nano の 3 つのバージョンがあります。 研究チームが発表したテスト結果によると、Ultra バージョンは多くのタスクで GPT4 を上回り、Pro バージョンは GPT-3.5 と同等であることが示されています。 これらの比較結果は大規模な言語モデル研究にとって非常に重要ですが、正確な評価の詳細とモデルの予測はまだ公開されていないため、テスト結果の再現と検出が制限され、その暗黙の詳細をさらに分析することが困難になっています。 。 Gemini の真の強みを理解するために、カーネギー メロン大学と BerriAI の研究者は、モデルの言語理解と生成機能の詳細な調査を実施しました。

12月20日ビッグモデルデイリーコレクション

NeurIPS 2023 スポットライト | Tencent AI Lab の新たな進歩: StarCraft 2 でプロ プレイヤーに対処するための柔軟な戦略

 

リンク: https://news.miracleplus.com/share_link/13833

最近、Tencent AI Lab のゲーム AI チームは、「StarCraft 2」における意思決定知能 AI「Juewu」の最新の研究成果を発表し、AI のゲーム内戦略的適応性を大幅に向上させ、ゲーム内での戦略的適応性を大幅に向上させる革新的なトレーニング方法を提案しました。 APMを考慮した公平な対戦環境のもと、国内トップクラスのプロトスプロプレイヤー3名とプロトス対プロトス戦を最大20試合プレイし、安定して勝率50%以上を維持しました。 この結果は、NeurIPS 2023 Spotlight ペーパーに含まれています。

12月20日ビッグモデルデイリーコレクション

大規模なモデル + 検索により完全なテクノロジー スタックが構築され、Baichuan Intelligence は検索機能の強化を使用して企業のカスタマイズに「強力な薬」を提供します

 

リンク: https://news.miracleplus.com/share_link/13834

Baichuan Intelligence は、Baichuan2-Turbo-192K および Baichuan2-Turbo を含む、検索機能が強化された Baichuan2-Turbo シリーズ API を正式にオープンしました。 この一連の API は、192K の超長いコンテキスト ウィンドウをサポートするだけでなく、強化されたナレッジ ベースを検索する機能も追加します。すべてのユーザーは、特定のテキスト資料をアップロードして独自の専用ナレッジ ベースを構築し、より完全で効率的なインテリジェント ソリューションを構築できます。それぞれのビジネスニーズに応じて。 同時に、Baichuan Intelligence は公式 Web サイトのモデル エクスペリエンスもアップグレードし、PDF テキストのアップロードと URL アドレスの入力を正式にサポートし、一般ユーザーは公式 Web サイトの入口から長いコンテキスト ウィンドウと検索機能の強化を経て、一般的なインテリジェンスのレベルが急上昇することを体験できます。

12月20日ビッグモデルデイリーコレクション

ビデオの生成は無限に長くてもよいでしょうか? Google VideoPoet の大型モデルがオンライン、ネチズン: 革新的なテクノロジー

 

リンク: https://news.miracleplus.com/share_link/13835

2023 年末には、テクノロジー企業が AI ビデオ生成の最後のレベルに影響を及ぼします。 今週の火曜日、Google が提案した大規模ビデオ生成モデルがオンラインになり、すぐに人々の注目を集めました。 VideoPoet と呼ばれるこの大規模な言語モデルは、革新的なゼロショット ビデオ生成ツールと考えられています。 VideoPoet は、テキストや画像からビデオを生成できるだけでなく、スタイル転送やビデオから音声への変換も行うことができます。 結果として、多様でスムーズな動きを構築することができます。


音量生成 AI を搭載した主力携帯電話が 2024 年にインタラクティブ革命を引き起こす

 

リンク: https://news.miracleplus.com/share_link/13836

最近、さまざまな携帯電話メーカーが常に取り組んでいることは 1 つあります。それは、携帯電話に生成 AI を導入することです。 まず、10月のSnapdragon Summitで、Xiaomiは携帯電話側で実行できる60億パラメータモデルに関するニュースを発表した。 彼らが提案した AI モデルは、新世代の携帯電話システムにインストールされており、人々からのさまざまな複雑な質問に答えたり、記事や表を生成したり、コードを書いたりするのに役立ちます。 Honor は、次世代主力携帯電話 Magic 6 の生成 AI 機能を事前に実証しました。携帯電話で自然言語を通じて指示を発行することで、AI に撮影した素材を見つけてビデオに統合する適切な部分を見つけるように依頼できます。 その後、11 月に vivo や OPPO などのメーカーが新世代主力携帯電話の生成 AI 機能をリリースし、携帯電話システムも AI と深く統合されることになります。 2 週間前、GPT-4 を超えると主張した Google Gemini も、この傾向に拍車をかけました。

12月20日ビッグモデルデイリーコレクション

Microsoft Copilot に新しい主要機能が追加されました。 テキストから直接超リアルな音楽を生成

 

リンク: https://news.miracleplus.com/share_link/13837

Microsoftは12月20日、ロック、ポップ、クラシック、パンク、フォークなどの音楽をテキストを通じて生成できるコパイロット機能をコパイロットに統合するため、ヴィンセント音楽リーダーのスノ氏と協力したことを公式ウェブサイトで発表した。 Suno プラットフォームによって生成される音楽には強いロボット風味がなく、その効果は Google の Lyria や Meta の MusicGen よりも優れており、実際の人間が歌っているのとほぼ同じです。 楽器の知識があるか、楽譜を作成できるかに関係なく、テキストを使用してアイデアを Microsoft Copilot に入力するだけで、すぐにアイデアを生成できます。

12月20日ビッグモデルデイリーコレクション

テキストから正確な画像字幕を生成、Google などのオープンソース PixelLLM

 

リンク: https://news.miracleplus.com/share_link/13838

従来の大規模言語モデルは、画像関連の質問を記述し、回答し、さらには複雑な画像推論を実行することもできます。 しかし、テキストのローカリゼーションに大規模な言語モデルを使用したり、正確な座標を参照するために画像を使用したりすることは、あまり現実的ではありません。 このテクノロジーを調査するために、Google とカリフォルニア大学サンディエゴ校の研究者は、ピクセル配列大規模言語モデル PixelLLM を開発しました。 PixelLLM は、画像の位置情報を入力または出力として受け取ることができます。 入力として位置が与えられると、モデルはその位置に基づいて、指定されたオブジェクトまたは領域に関連する説明テキストを生成できます。 出力として位置を生成する場合、モデルは出力単語ごとにピクセル座標を生成できるため、高密度の単語ローカライゼーションが可能になります。

12月20日ビッグモデルデイリーコレクション

Baidu Lingjing Matrix はインテリジェント エージェント プラットフォームにアップグレードされ、誰もがインテリジェント エージェントを開発できる時代が到来しました。

 

リンク: https://news.miracleplus.com/share_link/13839

Baiduの「Spiritual Realm Matrix」プラットフォームは、新たに「Wenxin Large Model Intelligent Platform」にアップグレードされました。 Wenxin ラージ モデルに基づいて、Lingjing Matrix は開発者に多様な開発手法を提供し、開発者が自身の業界分野やアプリケーション シナリオに基づいて多様な開発手法を選択し、ラージ モデル時代のネイティブ アプリケーションを作成できるようにサポートします。 Lingjing Matrix は、中国で最も完全なインテリジェント エージェント エコシステムも備えています。強力な Wenxin 大型モデルに依存しているだけでなく、30,000 人を超える開発者が定住を申請しています。また、Baidu のグローバル シーンを利用して、より多くのトラフィック分散パスを取得することもできます。そしてビジネスチャンスです。 現在、法務インテリジェントアシスタント、TreeMindツリーダイアグラム、職場パスワードAIインテリジェント履歴書などの多くのインテリジェントエージェントが存在し、スピリチュアルマトリックスを通じて開発から配布、収益化までの道を実行しています。

12月20日ビッグモデルデイリーコレクション

Baidu Smart Cloud Qianfan AppBuilder はオープン サービスであり、誰でもネイティブ アプリケーションを開発できます。

 

リンク: https://news.miracleplus.com/share_link/13840

Baidu Smart Cloud は、AI ネイティブ アプリケーション開発ワークベンチである Qianfan AppBuilder がサービスを完全にオープンし、真に誰もが独自の AI ネイティブ アプリケーションを開発できるようになったと発表しました。

12月20日ビッグモデルデイリーコレクション

Intel Gaudi2C AI アクセラレータ カードが Linux ドライバに登場、中国向けの特別バージョンと伝えられる

 

リンク: https://news.miracleplus.com/share_link/13841

今年 7 月、Intel は中国市場向けに Gaudi2 プロセッサを発売しました。これは主に AI のトレーニングと推論を高速化するために使用されます。 新しいアクセラレータ カードのバージョンも登場し、Intel は Linux ドライバに Gaudi2C のサポートを追加したと Phoronix が報告しています。 Gaudi2C と Gaudi2 の違いは不明ですが、報告によると、Gaudi2C は依然として中国市場専用の「限定的な」亜種である可能性があります。 海外メディアのtomshardwareも、Gaudi2の合理化版ではないかと報じています。

12月20日ビッグモデルデイリーコレクション
© 版权声明

関連記事

コメントなし

コメントはありません…