去年くらいに作ったRAGなどAI関連のシステムを、単に今年4月のモデルに差し替えるだけで性能向上した、というのはいろいろなところであるように思います。
コーディングエージェントが、一部先進的な人だけではなく広く使われだしたのも、2月のClaude 3.7や5月にClaude 4による性能向上があってこそだと思います。
ただ、こういった、モデルを差し替えるだけでなんでも性能向上するというのは終わりつつある気がします。
2004年ごろまで続いたCPUのクロック向上が終わって、CPUを差し替えるだけで何でも性能向上する時代が終わったときに「フリーランチは終わった」と言われました。マルチコアによる並列化で性能を出すようになると、コードを並列対応に書きかえないと性能があがらなくなります。
同様に、AIも「フリーランチは終わった」になりつつあるんじゃないでしょうか。
「フリーランチは終わった」というのは元々数理最適化で万能の最適化アルゴリズムはないという話なので、AIに戻ってきたとも言えそう。
ノーフリーランチ定理 - Wikipedia
ここで、OpenAIのモデルを例に、AIの劇的進化を支えた技術をあげておきます。GPT4以降で公式な発表はないので、噂レベルで、だいたいこうなってるらしいというものになってますが、他社のモデルもだいたいこういう技術で性能向上してるようです。
モデル | 技術 | 影響 |
---|---|---|
GPT3 | 学習時スケーリング | 金をかければ性能あがるんや、とがっつり金をかけたら性能があがった |
GPT3.5 | チャット対応とRLHF | チャット対応したら普通の人に使えるように。人による評価で強化学習をすることでチャット対応のよさも向上 |
GPT4 | MoE | 比較的小さい たくさんのエキスパートモデルを選んで動かすことで、レスポンス向上、運用コスト低下。 つまり運用コストをおさえつつ性能があげれるように。 |
o1 | Reasoning | 「ステップバイステップで考えて」とすると問題解決力があがるというプロンプトテクニックをモデル自体に適用。 推論時スケーリングの始まり |
o3 | Agent | Reasoningでのthinkingを並列で複数行って、判定モデルに選ばせた思考に基づいて出力を得る |
o3の並列思考については噂レベルですが、Gemini 2.5 ProのDeep Thinkについてはこちらのレポートに。(P.9の最後)
https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf
ここで、o1やo3になると、問題解決力はあがるけど創作に弱くなるといった苦手が出てきています。
GPT4までのようにモデルの能力があがると基本的には全方面で性能があがっていたのと違ってきています。
reasoningも含め、エージェント的な動作が入ってくると、得意不得意が出てくるような気がしています。
ただ、思考力の高いモデルが出ると、データセットの作成や学習時の評価も高度化できます。おそらく、そういった面がGPT4.1や4.5などの性能向上につながってるんじゃないかと思います。
同様に、DeepSeekのようにデータセット作成に自由に使える高性能モデルが、比較的小規模なオープンウェイトモデルの性能につながってるようにも思います。
問題は、これ以降で性能向上につながるような大きな改善点がなかなか見当たらないことです。Agent動作での思考の並列化を増やしたり枝分かれ構造化したツリーにしたり(ToT: Tree of Thought)といった性能向上はあるけど、対応領域は狭まるように思います。
今後は、万能の性能向上のペースは落ちて、問題領域に特化した作りこみが必要になり、そういう意味で「フリーランチは終わった」なのではないでしょうか。
これは、逆にいうと、がんばって作っても高性能モデルで駆逐みたいなのでヤル気をなくしがちだったのが終わって、作りこみ勝負になってきてAIシステムの作り甲斐も出るんじゃないかと。
もちろん、CPUがクロック向上が終わっても地道な改善によりシングルスレッド性能があがったように、モデル単体の性能も地道にあがっていくとは思います。