11月7日ビッグモデルデイリーコレクション

【11月7日ビッグモデルデイリーコレクション】特集号! OpenAI 開発者カンファレンス Qiji Daily チームの概要
OpenAI 開発者カンファレンス Qiji Daily チームの概要
一文の要約
OpenAI は AI 時代の Apple になりつつあります: AI ニーズの創出、クローズド ソース エコロジー、GPT ストア、開発中のハードウェア…
GPT-4 Turbo: より高速、より長く、より安価、マルチモーダル、カスタマイズ可能
具体的には:
* API 呼び出しにより速度制限が解除され、速度が 2 倍になり、さらなる設定がサポートされます
* GPT-4 Turbo を発売、128K コンテキスト、約 300 ページのドキュメントをサポート (以前は 32K)
* GPT-4 Turbo の価格を値下げします。入力は GPT-4 の 3 倍、出力は 2 倍安くなり、それぞれ $0.01 と $0.03 になります。
* GPT 4 Turbo は、API 経由で画像を入力として受け入れ、字幕、分類、分析を生成できるようになりました。
* GPT4 は微調整が可能なため、企業はあらゆるステップをカスタマイズして独自のものにすることができます。
その他の詳細:
* JSON/関数呼び出しの改善。
* トレーニング データを 2023 年 4 月の期限に更新するための内蔵 RAG
* GPT3.5 は 16k をサポートします
* 現在、Dall-E 3、GPT-4V、TTS モデルが API に含まれています
* Whisper V3 はオープンソースです (API で近日公開予定)
GPTストア:次のAppleストアになるのか?
以前ChatGPTが立ち上げたプラグインモールは比較的そこそこの人気でしたが、今回は完全にユーザーの需要を喚起できるかどうかは疑問です。
重要なポイント: コードなしでパーソナル エージェントを構築し、他のユーザーとの共有をサポートし、そこから利益を得ます。
GPT という名前は、これが ChatGPT のカスタマイズされたバージョンであり、ユーザーはコードを 1 行も記述することなく、特定のタスクに合わせて ChatGPT のカスタマイズされたバージョンを作成できることを意味しています。

ライブでの実践的なデモンストレーション:
さらに、ユーザーが作成した GPT は友人と共有することもでき、今月後半には OpenAI が GPT ストアを立ち上げ、作成した GPT を使用する人の数に応じて収益を上げることもできます。
ユーザーは GPT を API に接続して、データベースの管理、電子メール、テキストメッセージ送信などのタスクを実行できます。

長い文脈:
中国の多くのモデルはロング コンテキストを実行しています。もちろん、現在ではロング コンテキストも非常に簡単に実行できます。あと 1 ステップの微調整が必要なだけです。 しかし、長いコンテキストに対応できるからといって、長いコンテキストを有効に活用できるわけではありません。関連する詳細を正確に思い出したり、複数の記事にわたって推論したりすることができず、展開にも大きな問題があります。
制御性:
言語モデルはその多様な機能で世界を驚かせますが、実装する際に本当に必要なのは、今回のアップデートの焦点でもあるJSONを安定的に生成する機能などの制御性と事実性です。 実装では、モデルが JSON 形式でのみ生成されるようにデコードを制限することも、微調整することもできます。 JSON 形式は、スキーマに従って生成されることが保証されません。
2点目は、シードに応じてコンテンツを再生できる制御可能な出力です。
サムは Logprob が戻ってきたと言いました。 Logprob は、完了をスコアリングしたり、尤度に基づいて再現が必要かどうかを判断したりするなど、言語モデルの出力をより詳細に制御するのに役立ちます。 OpenAI が開発者からのフィードバックを実際に吸収していることがわかります。
「logprobs」は非推奨になりますか、それとも最終的には新しいモデルで利用できるようになるのでしょうか? – API – OpenAI
エージェントの推論:
OpenAI によって表示されるエージェントは、コードと自然言語を組み合わせて推論を実行します。 現在、これはエージェントにとってより合理的な推論形式です。 コードは正確に計算できますが、自然言語は意図を伝え、人々の検証と理解を容易にします。
Code Interpreter の用途の 1 つは、この種の自然言語とコードが絡み合った推論コンテンツを収集することであると推測できます。

マルチモダリティ:
OpenAIは文字と画像、文字と音声を結び付けますが、もちろん機能は異なります。 画像はすでに生成に使用できますが、音声は依然として主にインタラクションに使用されます。
AIGD は素晴らしい開発を実現し、Design2Code リンクがオープンされ、GPT-4v を直接使用する場合でも、GPT-4v を使用してデータを収集する場合でも、ソフトウェア開発の効率が大幅に向上します。
ラグ:
OpenAIがアシスタントAPIをオープン
さらに、各アシスタントは最大 20 ファイルしか処理できませんが、これは非常に大きな制限です。
Twitter のトライアルによると、OpenAI の RAG 戦略は次のとおりです。
1. テキストは \n によってブロックに分割されます。
2. リコール戦略では分解に問題はないかもしれませんが、返されるテキスト ブロックの数は変化します。
3. utf-8 処理に問題があります。
もちろん、GPT-4v には PDF の処理に関して一定の利点があります。

スタートアップへの影響の可能性:
Prompt やシンプルな Rag のような浅いパーソナライゼーションをいじる必要はなく、このプラットフォームはこの種のことに非常に適しています。 jiayuan がピボットを開始しようとしています。
モデルベースなどの複雑なリコール戦略、環境との複雑な相互作用を伴うエージェント、モデルの調整などの深いパーソナライゼーションは、短期的には置き換えられませんが、より良く存続する可能性があります。 浅いパーソナライゼーションの市場は大きく、ユーザーにとって非常に魅力的で、実装が簡単で、プラットフォームにとって十分な価値がありますが、垂直すぎる市場のコストはプラットフォームにとって依然として高すぎ、プラットフォームは決して活用できません。その時までに、優れたスタートアップはモデルであれデータであれ、障壁を確立できるはずです。
さらに、プラットフォームとしての OpenAI は、この浅いパーソナライゼーションによってユーザーの認知度を高めることができます。 ユーザーが自分のニーズが満たされていないと感じれば、当然、より垂直的なサービスを求めるようになるでしょう。
具体的には、GPT-4 の方が安いため、スイープのようなエージェントの方がうまくいくはずです。

いくつかの詳細:
1. モデルのトレーニングに API データを使用しないことは非常に弱い制約です (ジャックは信じられないと表明しました) API を介したデータの分布を理解し、この方向に基づいて新しいデータを収集および合成できることの方が価値があります。
2. サティアに尋ねるこの動きは非常に興味深いものであり、二人の関係がまだ強いことを外の世界に確認するためかもしれません。
思考: AI の次のキャリアは何でしょうか?
今回の開発者カンファレンスを見る限り、ChatGPTの機能はすでに非常に強力であり、Webページを運ぶものはAIを運ぶのにはもう向いていないのではないかと思います。 おそらく、OpenAI は本当に独自の OS システムを開発したいと考えており、システム レベルで AI を導入することがより良い選択であると考えられます。
参照:
https://openai.com/blog/new-models-and-developer-products-announced-at-devday