AIエージェントによるウェブブラウザ構築実験:1週間で100万行以上のコードを生成!
分析
重要ポイント
“彼らは、プランナーとサブプランナーを実行してタスクを作成し、そのタスクをワーカーに実行させるという方法を採用しました。これは、Claude Codeがサブエージェントを使用するのと似ています。”
“彼らは、プランナーとサブプランナーを実行してタスクを作成し、そのタスクをワーカーに実行させるという方法を採用しました。これは、Claude Codeがサブエージェントを使用するのと似ています。”
“このプロジェクトは実験的であり、実用化されていませんが、自律的なコーディングエージェントが継続的に実行された場合のスケールを示しています。”
“視覚化は、エージェントがリアルタイムでコードベースを調整し、進化させている様子を示しています。”
“Side Searchを使えば、サイドボタンをタップするだけでGeminiを起動できます。”
“CoworkはYouTubeにアクセスできます!”
“agent-browserとは、Vercelが開発したAIエージェント向けのブラウザ操作CLIです。”
“URLとインテントを送信すれば、レンダリングを処理し、LLM向けのクリーンで構造化されたデータを返します。”
“Chrome DevTools MCPは、AIアシスタントがChrome DevToolsの機能にアクセスできるようにする、Model Context Protocol(MCP)サーバーです。”
“この記事では、閲覧中のWebページ本文を要約して、新しいタブに結果を表示する Chrome 拡張「site-summarizer-extension」の使い方と仕組みを紹介します。”
“調べてみたところ、~/.gemini/antigravity/browser_recordings以下に「会話ごとに作られたフォルダ」があり、その中に大量の画像ファイル(スクリーンショット)がありました。これが犯人でした。”
“EU AI Actの要件を具体的な、検査可能な技術的チェックにどのように変換できるかを探求するために、個人的なオープンソースプロジェクトとしてこれを構築しました。”
“任意のLLMを内部知識ソース(検索エンジン、ドライブ、カレンダー、Notion、その他15以上のコネクタ)に接続し、チームと一緒にリアルタイムでチャットできます。”
“Amazonがアメリカのラスベガスで開催されているコンピューター見本市「CES 2026」で、Fire TVのホーム画面を大幅に刷新し、画面をより整理して見やすくしつつ、操作レスポンスも改善すると発表しました。”
“SSH接続先のサーバーでOpenAIのCLIツール「Codex」を使おうとすると、「ブラウザで認証してください」と言われて困りました。”
“OpenAIとPerplexityは最近、独自のWebブラウザを立ち上げました。一方、MicrosoftはEdgeブラウザにCopilot AIツールを導入し、ユーザーがコンテンツを閲覧しながらチャットボットに質問できるようにしました。”
“"開いてすぐに使えます。DockerもPython venvも依存関係もありません。"”
“特に面白いのが、ブラウザで Markdown や Diff を表示し、行単位でコメントを付けて、それを YAML 形式で Claude Code に返すという仕組み。”
“「本当にイライラして、使えなくなるレベルです...私はChatGPTが本当に好きですが、これは大きな問題になりつつあります。なぜなら、今は多くの時間を待たなければならないからです...この問題が続く場合は、他のプラットフォームに移行することを考えています。」”
“開発者は、Claudeに「機能的なNESエミュレーター」を書かせることに成功しました。”
“gistpreview.github.io の天才的なところは、GitHub によってホストされ、費用が完全に GitHub によってカバーされている、GitHub インフラストラクチャの中核部分であり、GitHub の関与なしに構築されたことです。”
“Manusが人間の監督なしにウェブブラウザを使用してタスクを実行する能力。”
“RTC Helperは、WebRTC(ウェブリアルタイムコミュニケーション)および関連するAPIをブラウザでインターセプトし、Webアプリの動作をリアルタイムで変更できる、シンプルで使いやすいソフトウェアです。”
“NestBrowseは、ネスト構造を通じてインタラクション制御をページ探索から分離する、最小限かつ完全なブラウザアクションフレームワークを導入しています。”
“ウェブを検索したり、フォームを自動的に入力したり、調査を処理したり、コンテンツを作成したり、ワークフロー全体を効率化したりできる、トップ7のエージェント型AIブラウザを簡単に見てみましょう。”
“アプリのロード中にエラーが発生しました。テンプレートのフェッチに失敗しました。”
“Gemini 3は、Gemini AppまたはブラウザのAISで使用すると、それほど優れていません。ほとんどの場合、かなり量子化されており、長時間推論せず、幻覚も多くなります。”
“MCPサーバーは、コードベースの検索、ブラウザ操作、データベースアクセスなどの機能をClaudeCodeから直接利用できるようにします。”
“Gemini 3.0 Pro & CLIのみを使用して「ワールドツアー」ブラウザゲームを構築しました。手動コーディングやバックエンドは不要です。”
“私はコーディングにClaudeを使うのが大好きですが、「新しいチャット」の混沌としたサイドバーをスクロールしたり、同じコンテキストを何度もコピー&ペーストしたりするのが、私のフローを台無しにしていました。”
“エージェントツールの使用ループ 多段階ディープサーチ ゼロコンフィグローカルRAG(ドキュメントとのチャット) 統合されたHugging Faceブラウザ(手動ダウンロードなし) オンザフライのシステムプロンプト編集 100%ローカルプライバシー(検索も含む) グローバルおよびチャットメモリ”
“ブラウザだけで動作し、すべてをURLハッシュに保存するミニマリストなテキストエディタ。”
“「Claude Code UI」は、Claude Code CLI の全機能を Web ブラウザで利用でき、さらにモバイル対応まで実現します。”
“今後AR環境だとか、持ち歩いてキャラクターと一緒に過ごすといった環境が出てくると思うんですけど、そういった場合はGPUとかCPUでいい感じに動くような対話システムが必要になってくるなと思ってます。”
“現在のLLM研究における最大の懸念は、コンテキストが長くなるほど初期の指示を失念し、論理が崩壊する「熱死(Contextual Entropy)」です。”
“”
“ナレッジワーカーは、標準的なワークフロー中に8〜12個の異なるWebアプリケーションを日常的に操作します”
“サンプル小売アプリケーションのテストを自動化”
“OpenAIは、Atlasのようなエージェント機能を備えたAIブラウザでは、プロンプトインジェクションが常にリスクになると述べています。”
“http://static.simonwillison.net/static/cors/配下のすべてのページがオープンなCORSポリシーを持っている理由を調べています。Cloudflareを通じて設定したと思いますが、どこにあるのかわかりません。”
“OpenAIは、強化学習で訓練された自動化されたレッドチームを使用して、プロンプトインジェクション攻撃からChatGPT Atlasを強化しています。この積極的な発見と修正のループは、新しいエクスプロイトを早期に特定し、AIがよりエージェント的になるにつれて、ブラウザエージェントの防御を強化するのに役立ちます。”
“”
“拡張機能を使用すると、Claude Codeはブラウザで直接コードをテストして、その動作を検証できます。”
“”
“DiscoはGoogleでAI関連の実験的製品を開発するGoogle Labsが、そんな新機能を備えた実験的なブラウザです。”
“この研究は、ブラウザAIエージェントのサンドボックス化に焦点を当てています。”
“問題点:クラウドモデル(GPT/Claude/Gemini)の推論能力が必要だが、PIIや秘密情報を誤って漏洩しないように自分を信頼できない。”
“プラットフォームは、WebGPUを搭載したガウススプラッティング上に構築されています。”
“OSGymでAIのコンピュータ使用能力を向上させましょう:…ブラウザの監獄からの脱出…”
“信頼性の高いWebエージェントを作成する上での技術的な課題、ブラウザのより脆いドキュメントオブジェクトモデル(DOM)ではなく、スクリーンショットで動作する視覚的に基づいたモデルの利点、そしてこの直感に反する選択が、複雑なWebインターフェースを処理する上ではるかに堅牢で汎用性が高いことが証明されている理由を探求します。”
“”