初級

エージェントに関する最近の考察:OSとエージェントネイティブアプリケーション

エージェントに関する最近の考察:OSとエージェントネイティブアプリケーション

エージェントに関する最近の考察:OSとエージェントネイティブアプリケーション#

1. エージェントはOSである。垂直領域のOS構築は行き止まり#

1/ エージェントはインタラクションのパラダイムであり、スマートフォンがインタラクションのパラダイムであるのと同じです。あなたはスマホを通じて買い物をし、ソーシャルをし、資産管理をしますが、買い物専用のスマホを買うことはありません。エージェントも同じです。垂直領域はエージェント(スマホ)を構築しようとするべきではなく、エージェントの上にアプリケーションを構築すべきです。
2/ なぜなら、戦場が全く異なるからです。エージェントの戦場は、推論能力、オーケストレーション効率、インタラクション体験です。垂直領域の強みは、領域の深さ、ビジネス理解、業界データです。これらの強みはOSの戦場では役に立ちません。領域知識を使ってOpenAIやAnthropicと推論で戦うのは、ナイフで戦車と戦うようなものです。
3/ さらに、OSレイヤーの市場構造は自然に収束します。PC時代にはWindowsとMacが生き残り、モバイル時代にはiOSとAndroidが生き残りました。エージェントOSの分野でも、勝者は数十社にはなりません。垂直エージェントを構築して正面から戦うのに3年を費やすことは、自らの領域で難攻不落の要塞を築くのに費やせる3年を失うことです。

2. スキルも答えではない。天井はコピーを売ること#

4/ エージェントを構築しないなら、スキルを構築するのはどうでしょうか?スキルには2つの側面があります:プロンプトとスクリプトです。
5/ プロンプトは、エージェントに「ああ、こうすればいいんだ」というきっかけを与える一連の指示です。価値はあります。エージェントに方向性を与えます。しかし、推論作業は依然としてエージェント自身が行い、能力と帯域幅はエージェントによって消費されます。あなたはエージェントの負担を一切減らしていません。そしてプロンプトはテキストであり、コピー可能です。
6/ スクリプトは、カプセル化された外部ロジックです。スクリプト、バイナリプログラム、API、どんな形式でも構いません。ロジックは外部で実行されるため、エージェントはこの領域の問題について自分で推論する必要がありません。このタスクを処理するために消費される注意の帯域幅が減少します。これはプロンプトより一歩進んでいます。「方向を示す」から「代わりに作業を行う」へ。
7/ しかし、スクリプトに外部状態がない場合、つまりデータベースがなく、蓄積されたユーザーデータがなく、入力と出力の後に何も残らない場合、そのロジックは再現可能です。他の誰かがあなたのアプローチを理解し、書き直し、全く同じ機能を実現できます。
8/ したがって、スキルの天井はコピーを売ることです。NotionテンプレートやGPTを売るのと同じです。良くすればするほどコピーされやすくなり、成功すればするほど需要が存在することを証明し、より多くの人が同じことをしようと押し寄せます。スキルはインターフェースであり、インターフェースの背後に何もなければ、あなたは裸で走っているようなものです。

3. エージェントの2つの物理的制約#

9/ エージェントには2つの物理的制約があります。これらはバグではなく、次世代モデルによって修正されるものではありません。光速のように、願いで消し去ることはできず、エンジニアリングで回避するしかありません。
10/ 第一:コンテキスト容量。コンテキストは有限の容器です。詰め込めば詰め込むほど性能が悪化します。これは理解しやすいです。
11/ 第二:注意の帯域幅。これは直感的ではありません。金庸の小説で、周伯通には「左右互搏の術」という技があります。左手で円を描き、右手で四角を描く。円を描くだけなら簡単です。四角を描くだけなら簡単です。しかし同時に行うと、両方とも歪んでしまいます。手が足りないのではなく、注意が2つのタスクの間で争っているのです。エージェントは、1つのコンテキスト内で同時に法的推論を行い、ユーザーの意図を追跡し、次のアクションを計画します。各タスクの質は低下します。どの単一タスクもその能力を超えているわけではなく、同じ注意を奪い合っているのです。注意はゼロサムです。
12/ もしエージェントが無限の容量と完璧な注意を持っていれば、すべてを自分で行え、誰も必要としません。しかし現実は:容量は限られており、帯域幅は限られています。エージェントネイティブアプリケーションが存在する根本的な理由は、この2つの物理的制約です。

4. エージェントネイティブアプリケーション#

13/ 障壁の問題に戻ります。スキルが再現可能である根本原因は「外部状態がない」ことです。解決策は、インターフェースの背後に複製不可能なものを育てることです。3つのもの:
14/ ドメイン状態 — あなたのサービス内でのユーザーのビジネスコンテキストで、インタラクションごとに成長します。法律サービスは事件の進捗や判例引用を記憶し、投資サービスはポートフォリオの論理やリバランスの理由を記憶します。使えば使うほど厚くなり、他者はゼロから追いつけません。
15/ インフラコスト — ドメインファインチューニングされた小規模モデル、専門知識ベース、リアルタイムデータパイプライン。持続的な実金の投資であり、コードをコピーして得られるものではありません。
16/ 規模の経済によるコスト優位性 — 10万人のユーザーに同時にサービスを提供すれば、インフラの単位コストは自分で構築する誰をも圧倒します。知能とは関係のない数学的優位性です。
17/ スキルの背後にこれら3つのものがあるとき、それはもはやスキルではなく、エージェントネイティブアプリケーションです。
18/ アプリケーションは、エージェントに2種類の価値を提供し、それは2つの物理的制約に対応します:
能力解放:以前はできなかったことが、今できるようになる — コンテキスト容量の突破。コンテキストに収まらないドメイン知識やユーザー履歴は、アプリケーションが外部で管理し、呼び出し可能な状態にします。
認知的オフロード:以前は多大な労力で行われていたことが、今は簡単に行えるようになる — 注意の帯域幅の解放。ドメイン推論を外部に移し、他のタスクと争わなくなります。より速く行われるのではなく、干渉がなくなり、他のすべてがより正確に行われます。
19/ ここで、よくある誤解を正す必要があります:ドメイン状態は記憶ではありません。記憶は、一般的な記憶管理 — 何を覚え、何を忘れるか — を示唆します。それはエージェントOSレイヤーの話題です。ドメイン状態は、特定の垂直領域内でのユーザーのビジネスコンテキストであり、明確に境界付けられたビジネス状態機械です。その商業的属性は資産の蓄積です — 使えば使うほど厚くなり、移行が困難になります。これがあなたの要塞です。他の人はあなたのスキルをコピーできますが、あなたの要塞をコピーすることはできません。

5. OSとアプリケーション#

20/ それぞれに独自の命題があります。OSの命題はWHAT — 限られた容量と帯域幅の中で、ユーザーができるだけ多く、できるだけ良いことを達成するのを助けること。アプリケーションの命題はHOW — 呼び出されるたびに最大のドメイン価値を提供すること。OSは何をするかを決定し、アプリケーションはそれをどのように行うかを決定します。状態もこの線に沿って分割されます:OSはユーザーの意図とクロスドメインコンテキストを保持し、アプリケーションはドメイン状態とビジネス履歴を保持します。それぞれが自分の領域を管理し、越権行為はしません。
21/ 以前のコンピューティングパラダイムでは、アプリとOSの関係は一方向でした。WordはWindowsを速くしませんでした。淘宝はiOSを滑らかにしませんでした。エージェントパラダイムでは、それは異なります — 優れたアプリケーションはエージェントOSをより賢くします。法律アプリケーションは法的推論をエージェントの注意から外に移します。注意が干渉されなくなり、他のタスクがより正確に推論され、より多くのアプリケーションがより正確に呼び出され、それらがより多くのデータを得て、より良くなり、より多くの認知的負荷をオフロードします… フライホイールが回ります。これは認知的共生です — 一般的知能と専門知能がインターフェースを通じて結合し、単独で動作するよりも強力になります。これは以前のコンピューティングパラダイムでは起こりませんでした。
22/ 最高のコンテキストは、コンテキストがないことです。エージェントが軽ければ軽いほど、その性能は向上します。

AI要約#

以下は、上記の洞察に基づく構造化された要約です。

因果連鎖#

エージェントはOS → 垂直領域がOSを構築することは行き止まり(間違った戦場、間違った相手、予定調和の結果) → スキルの天井はコピーを売ること(プロンプトはコピー可能、外部状態のないスクリプトは再現可能) → 根本原因:エージェントには2つの物理的制約がある:コンテキスト容量(収まらない)と注意の帯域幅(収まるが性能が出せない、タスクが干渉する) → 解決策:エージェントネイティブアプリケーション(ドメイン状態 + インフラ + 規模の経済) → 2つの価値:能力解放(容量突破) + 認知的オフロード(帯域幅解放) → OSとアプリケーションの認知的共生 → 最高のコンテキストはコンテキストがないこと。

3層スペクトル#

指示からツール、サービスへは、複雑さを徐々にエージェントの外に移すプロセスです:
  • 指示(プロンプト):エージェントにきっかけを与えるが、エージェントが依然として作業を行う。帯域幅は減らない。テキストはコピー可能、障壁ゼロ。
  • ツール(スクリプト):外部実行で結果を返す。帯域幅は減少。しかし外部状態がなく、ロジックは再現可能、障壁低い。
  • サービス(アプリケーション):外部実行 + 永続状態 + インフラ。帯域幅と容量が大幅に減少。再現不可能、障壁高い。
指示からツールへの飛躍:「方向を示す」から「作業を行う」へ。ツールからサービスへの飛躍:ドメイン状態、インフラコスト、規模の経済によるコスト優位性を追加。

3つの非複製可能要素(スキルからアプリケーションへの飛躍の条件)#

  • ドメイン状態:インタラクションごとに成長し、ゼロから追いつけない。
  • インフラコスト:持続的な実金の投資が必要で、コードをコピーして得られるものではない。
  • 規模の経済によるコスト優位性:数学的支配であり、能力とは無関係。

2つの価値 × 2つの制約#

  • 能力解放コンテキスト容量の突破 → できなかったことが、できるようになる。
  • 認知的オフロード注意の帯域幅の解放 → 労力をかけて行われていたことが、簡単に行えるようになる(干渉の排除)。

OSとアプリケーションの境界#

エージェントOSの命題はWHAT(何をするか)、ユーザー意図とクロスドメインコンテキストを保持。エージェントアプリケーションの命題はHOW(どのように行うか)、ドメイン状態とビジネス履歴を保持。彼らの独特な関係は認知的共生:優れたアプリケーションはOSをより賢くし、より賢いOSはアプリケーションをより正確に呼び出す。