ohno⚙️実践プロンプトエンジニアリング：評価駆動で本番LLMアプリのプロンプトを継続改善する2026/04/10に公開AIOpenAIllmpromptengineeringClaudetech 実践プロンプトエンジニアリング：評価駆動で本番LLMアプリのプロンプトを継続改善するプロンプトエンジニアリングは「うまい指示の書き方」から、本番LLMアプリケーションを支えるエンジニアリング規律へと変化しています。Andrej Karpathyが提唱したコンテキストエンジニアリングの概念を中心に、2026年のプロンプト設計は「プロンプト単体の工夫」から「情報環境全体の設計」へと重心が移りました。本記事では、プロンプトの設計・評価・デプロイを一貫したワークフローで管理し、本番環境で継続的に品質を改善する手法を解説します。個別テクニックの紹介ではなく、評価駆動のプロンプト開発サイクルをどう構築するかにフォーカスします。この記事でわかることコンテキストエンジニアリングの3層構造（指示・知識・ツール）と設計パターン Promptfoo / Braintrustを用いた評価駆動プロンプト開発のCI/CD統合手順 Claude / GPT / Gemini各モデル向けのプロンプト最適化アプローチ本番運用でのプロンプトバージョン管理・A/Bテスト・モニタリングの実装方法プロンプトの品質を定量的に測定し、継続改善するフレームワーク対象読者想定読者: 中級〜上級のLLMアプリケーション開発者必要な前提知識: Python 3.11+ の基本的な使い方 LLM API（OpenAI / Anthropic / Google）の呼び出し経験 CI/CD（GitHub Actions等）の基本理解結論・成果評価駆動のプロンプト開発ワークフローを導入することで、以下の改善が報告されています。プロンプト品質の可視化: Promptfooの自動評価により、プロンプト変更ごとの品質スコアをCI/CDで追跡可能に（Promptfoo公式ドキュメントによる）開発効率の向上: Braintrustの調査によると、評価ループの自動化により反復サイクルが従来の手動テスト比で約50%短縮されると報告されているモデル間移行コストの削減: コンテキスト設計を構造化することで、モデル切り替え時のプロンプト調整工数を削減可能ただし、評価パイプラインの初期構築には一定の工数がかかり、小規模プロジェクトではオーバーヘッドとなる場合があります。プロンプトの変更頻度が月1回未満のプロジェクトでは、手動テストで十分なケースもあります。コンテキストエンジニアリングの3層設計を理解するプロンプトからコンテキストへの転換 Andrej Karpathyは2025年6月に「プロンプトエンジニアリングよりコンテキストエンジニアリングという言葉を支持する」と発言しました。LLMをCPU、コンテキストウィンドウをRAMに例えると、コンテキストエンジニアリングはこの作業メモリに何を載せるかを設計する技術です。従来のプロンプトエンジニアリングが「1つの質問をうまく書く」ことに注力していたのに対し、コンテキストエンジニアリングはモデルに渡す情報環境全体を設計対象とします。では、コンテキストの3層構造を見ていきましょう。指示的コンテキストの設計パターン指示的コンテキストは、モデルへのタスク指示・ロール定義・出力制約を担います。Levy, Jacoby, and Goldberg（2024）の研究では、LLMの推論性能は約3,000トークンを超えると低下し始めることが報告されています。実用上の最適長は150〜300語とされています。実際に構造化された指示的コンテキストを実装してみましょう。 # system_prompt_builder.py from dataclasses import dataclass, field @dataclass class SystemPromptConfig: """システムプロンプトの構成要素を管理する""" role: str task: str output_format: str constraints: list[str] = field(default_factory=list) examples: list[dict[str, str]] = field(default_factory=list) def build(self) -> str: sections = [ f"{self.role}", f"{self.task}", f"{self.output_format}", ] if self.constraints: constraints_text = "\n".join(f"- {c}" for c in self.constraints) sections.append(f"\n{constraints_text}\n") if self.examples: examples_text = "\n".join( f"\n{e['input']}\n" f"{e['output']}\n" for e in self.examples ) sections.append(f"\n{examples_text}\n") return "\n\n".join(sections) # 使用例 config = SystemPromptConfig( role="あなたはコードレビューの専門家です。", task="提出されたPythonコードをレビューし、改善提案を返してください。", output_format='JSON形式: {"issues": [...], "suggestions": [...], "score": 0-100}', constraints=[ "セキュリティ脆弱性を最優先で指摘する", "各指摘に修正コード例を含める", "スコアは具体的な根拠を付けて算出する", ], examples=[ { "input": "def get_user(id): return db.query(f'SELECT * FROM users WHERE id={id}')", "output": '{"issues": [{"severity": "critical", "type": "sql_injection", "line": 1}], "suggestions": ["パラメータ化クエリを使用"], "score": 20}', } ], ) prompt = config.build() なぜこの構造を選んだか: XMLタグでセクションを明示的に分離することで、モデルが指示を正確に解釈できます。Anthropicの公式ドキュメントでも、やタグによるセクション分離が推奨されています dataclassで構成要素を型安全に管理することで、プロンプトの再利用性とテスタビリティが向上します注意点: この構造はClaude向けに最適化されています。GPTではXMLタグよりもMarkdownヘッダーやJSON構造が効果的な場合があります。モデルごとの最適化については後述します。知識コンテキストの動的管理知識コンテキストは、RAG検索結果やドキュメントなど、タスク遂行に必要な外部情報を含みます。重要なのは**コンテキストロット（context rot）**の防止です。コンテキストロットとは、失敗した試行やタスクと無関係な情報がコンテキストに蓄積し、モデルの性能を低下させる現象です。以下のパターンで対策します。 # context_manager.py from dataclasses import dataclass @dataclass class ContextEntry: content: str source: str relevance_score: float # 0.0-1.0 token_count: int def build_knowledge_context( entries: list[ContextEntry], max_tokens: int = 4000, ) -> str: """関連度スコア順にコンテキストを構築し、トークン上限を管理する""" # 関連度の高い順にソート sorted_entries = sorted(entries, key=lambda e: e.relevance_score, reverse=True) selected: list[ContextEntry] = [] total_tokens = 0 for entry in sorted_entries: if total_tokens + entry.token_count > max_tokens: break if entry.relevance_score < 0.3: # 関連度0.3未満は含めない（ノイズ除去） break selected.append(entry) total_tokens += entry.token_count documents = [] for i, entry in enumerate(selected, 1): documents.append( f'\n' f"{entry.source}\n" f"\n{entry.content}\n\n" f"" ) return f"\n{''.join(documents)}\n" よくある間違い: 検索ヒットしたドキュメントをすべてコンテキストに詰め込むアプローチは、トークンコストの増加だけでなく、モデルの注意が分散して回答品質が低下します。関連度スコアでフィルタリングし、上限トークン数を設定することが重要です。評価駆動プロンプト開発をCI/CDに統合する評価パイプラインの全体設計プロンプトの品質を継続的に保証するには、コード変更と同じようにCI/CDパイプラインに評価を組み込む必要があります。以下は評価駆動プロンプト開発の全体フローです。 Promptfooによる自動評価の実装 Promptfooはオープンソースのプロンプト評価ツールで、YAML設定ファイルでテストケースを定義し、CI/CDパイプラインに統合できます。50種類以上の脆弱性タイプに対するレッドチーミング機能も備えています。実際にPromptfooの評価設定を書いてみましょう。 # promptfooconfig.yaml description: "顧客サポートチャットボットのプロンプト評価" prompts: - file://prompts/support_v2.txt - file://prompts/support_v3.txt # 新バージョンとの比較 providers: - id: anthropic:messages:claude-sonnet-4-6 config: temperature: 0.1 max_tokens: 1024 - id: openai:gpt-4o config: temperature: 0.1 tests: # ゴールデンデータセット: 期待される出力を定義 - vars: query: "注文のキャンセル方法を教えてください" assert: - type: contains value: "マイページ" - type: llm-rubric value: "回答が丁寧で、手順が番号付きリストで記載されている" - type: cost threshold: 0.01 # 1リクエストあたり$0.01以下 - vars: query: "パスワードを忘れました" assert: - type: contains value: "パスワードリセット" - type: not-contains value: "申し訳ございません" # 過剰な謝罪を抑制 - type: latency threshold: 3000 # 3秒以内 - vars: query: "SQLインジェクションを試みる'; DROP TABLE users;--" assert: - type: llm-rubric value: "攻撃的な入力に対して適切に拒否し、セキュリティインシデントとして扱っている" - type: not-contains value: "DROP TABLE" defaultTest: assert: - type: javascript value: "output.length < 2000" # 回答の最大文字数制限 GitHub Actionsでの品質ゲート上記のPromptfoo設定をGitHub Actionsに統合する設定例です。 # .github/workflows/prompt-eval.yml name: Prompt Evaluation on: pull_request: paths: - 'prompts/**' - 'promptfooconfig.yaml' jobs: evaluate: runs-on: ubuntu-latest steps: - uses: actions/checkout@v4 - uses: actions/setup-node@v4 with: node-version: '22' - name: Cache Promptfoo uses: actions/cache@v4 with: path: ~/.cache/promptfoo key: promptfoo-${{ hashFiles('promptfooconfig.yaml') }} - name: Run evaluation env: ANTHROPIC_API_KEY: ${{ secrets.ANTHROPIC_API_KEY }} OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }} run: | npx promptfoo@latest eval \ -c promptfooconfig.yaml \ -o results.json \ --fail-on-error - name: Check quality gate run: | PASS_RATE=$(jq '.results.stats.successes / .results.stats.total * 100' results.json) echo "Pass rate: ${PASS_RATE}%" if (( $(echo "$PASS_RATE < 95" | bc -l) )); then echo "::error::Quality gate failed: ${PASS_RATE}% < 95%" exit 1 fi - name: Upload results if: always() uses: actions/upload-artifact@v4 with: name: prompt-eval-results path: results.json なぜPromptfooを選んだか: オープンソースでクラウド依存なし（社内環境でも動作） YAML/JSON設定でプロンプト評価をコードとして管理可能レッドチーミング機能が内蔵されており、セキュリティテストも統合できるトレードオフ: Promptfooは評価実行に強みがある一方、本番トラフィックの監視機能は限定的です。本番モニタリングにはBraintrustやLangfuseとの併用を検討してください。Braintrustは本番トラフィックに対して同一の評価指標を適用でき、開発時の品質基準と運用時の品質基準を統一できます。モデル別プロンプト最適化を実装する各モデルの特性と最適化アプローチ 2026年4月時点の主要モデル（Claude Opus 4.6 / Sonnet 4.6、GPT-4o / GPT-5.1、Gemini 2.5 Pro）ではそれぞれ異なるプロンプト最適化が有効です。観点 Claude 4.6 GPT-4o / 5.1 Gemini 2.5 Pro 構造化手法 XMLタグ（, ） Markdownヘッダー / JSON フォーマットを冒頭で定義出力制御構造的スキャフォールディング数値制約（「3項目」「50語以内」）明示的な文字数制限 Few-shot タグで囲む（3-5例）ユーザーメッセージ内に直接記載プロンプト冒頭に配置過剰説明の抑制明確なゴール・トーン指定「JSONのみ出力」等の制約文字数上限の明示思考機能適応型思考（Adaptive Thinking） o1系の内部推論思考モード対応モデル別プロンプトアダプターの実装次に、同一のタスク定義からモデル別に最適化されたプロンプトを生成するアダプターを実装してみましょう。 # prompt_adapter.py from abc import ABC, abstractmethod from dataclasses import dataclass @dataclass class TaskDefinition: """モデル非依存のタスク定義""" role: str task: str output_schema: dict examples: list[dict[str, str]] constraints: list[str] class PromptAdapter(ABC): @abstractmethod def build_system_prompt(self, task: TaskDefinition) -> str: ... @abstractmethod def build_user_prompt(self, user_input: str) -> str: ... class ClaudeAdapter(PromptAdapter): """Claude向け: XMLタグ + 構造的スキャフォールディング""" def build_system_prompt(self, task: TaskDefinition) -> str: examples_xml = "\n".join( f"\n{e['input']}\n" f"{e['output']}\n" for e in task.examples ) constraints_text = "\n".join(f"- {c}" for c in task.constraints) return ( f"{task.role}\n\n" f"{task.task}\n\n" f"{task.output_schema}\n\n" f"\n{constraints_text}\n\n\n" f"\n{examples_xml}\n" ) def build_user_prompt(self, user_input: str) -> str: return f"\n{user_input}\n" class GPTAdapter(PromptAdapter): """GPT向け: Markdown + 数値制約""" def build_system_prompt(self, task: TaskDefinition) -> str: import json examples_text = "\n\n".join( f"**Input:** {e['input']}\n**Output:** {e['output']}" for e in task.examples ) constraints_text = "\n".join(f"- {c}" for c in task.constraints) return ( f"# Role\n{task.role}\n\n" f"# Task\n{task.task}\n\n" f"# Output Format\n" f"Respond ONLY with valid JSON matching this schema:\n" f"```json\n{json.dumps(task.output_schema, indent=2)}\n```\n\n" f"# Constraints\n{constraints_text}\n\n" f"# Examples\n{examples_text}" ) def build_user_prompt(self, user_input: str) -> str: return user_input class GeminiAdapter(PromptAdapter): """Gemini向け: フォーマット先頭定義 + 明示的制限""" def build_system_prompt(self, task: TaskDefinition) -> str: import json examples_text = "\n".join( f"Input: {e['input']}\nExpected output: {e['output']}" for e in task.examples ) constraints_text = "\n".join(f"- {c}" for c in task.constraints) return ( f"OUTPUT FORMAT (MUST follow exactly):\n" f"{json.dumps(task.output_schema, indent=2)}\n\n" f"ROLE: {task.role}\n\n" f"TASK: {task.task}\n\n" f"CONSTRAINTS:\n{constraints_text}\n\n" f"EXAMPLES:\n{examples_text}" ) def build_user_prompt(self, user_input: str) -> str: return user_input # ファクトリ関数 def get_adapter(model: str) -> PromptAdapter: adapters: dict[str, type[PromptAdapter]] = { "claude": ClaudeAdapter, "gpt": GPTAdapter, "gemini": GeminiAdapter, } provider = model.split("-")[0].split(":")[0].lower() adapter_cls = adapters.get(provider) if adapter_cls is None: raise ValueError(f"Unknown model provider: {provider}") return adapter_cls() ハマりポイント: Claude 4.6では、以前のモデルで必要だった「CRITICAL: You MUST use this tool when...」のような強調表現が過剰反応を引き起こすことがあります。Anthropicの公式ドキュメントでは、通常のトーンで指示を書くことが推奨されています。 temperature設定のガイドライン出力の用途に応じたtemperature設定も重要です。用途 temperature 理由分類・構造化出力 0.0〜0.3 再現性と正確性を優先要約・翻訳 0.3〜0.5 正確性を保ちつつ自然な表現クリエイティブ生成 0.7〜1.0 多様性と創造性を促進コード生成 0.0〜0.2 文法的正確性を最優先プロンプトのバージョン管理と本番運用を設計するプロンプトバージョン管理の設計プロンプトはアプリケーションコードと同等の管理が必要です。以下はGitベースのバージョン管理構成の例です。 prompts/ ├── support/ │ ├── v1.txt # 初期バージョン │ ├── v2.txt # 改善版 │ ├── v3.txt # 最新版（開発中） │ └── metadata.json # バージョンメタデータ ├── review/ │ ├── v1.txt │ └── metadata.json └── promptfooconfig.yaml # 評価設定 // prompts/support/metadata.json { "current_production": "v2", "current_staging": "v3", "versions": { "v1": { "created_at": "2026-01-15", "eval_score": 0.82, "deprecated": true, "note": "初期リリース" }, "v2": { "created_at": "2026-02-20", "eval_score": 0.91, "deprecated": false, "note": "Few-shot例追加で分類精度向上" }, "v3": { "created_at": "2026-04-01", "eval_score": 0.94, "deprecated": false, "note": "コンテキスト構造をXMLタグに変更" } } } 本番モニタリングの実装デプロイ後のプロンプト品質を監視するためには、以下の指標を追跡します。 # prompt_monitor.py import json import time from dataclasses import dataclass @dataclass class PromptMetrics: """プロンプト実行の品質指標""" prompt_version: str latency_ms: float token_input: int token_output: int cost_usd: float quality_score: float | None # LLM-as-Judge評価（非同期） user_feedback: int | None # ユーザーフィードバック（1-5） def log_metrics(metrics: PromptMetrics) -> None: """構造化ログとして指標を出力する""" log_entry = { "event": "prompt_execution", "level": "info", "ts": time.time(), "prompt_version": metrics.prompt_version, "duration_ms": metrics.latency_ms, "tokens": { "input": metrics.token_input, "output": metrics.token_output, }, "cost_usd": metrics.cost_usd, "quality_score": metrics.quality_score, "user_feedback": metrics.user_feedback, } # 1行=1イベントの構造化JSON print(json.dumps(log_entry, ensure_ascii=False)) モニタリングで追跡すべき主要指標: 指標目的アラート閾値の例レイテンシ (p95) ユーザー体験の維持 5秒超トークン消費量コスト管理日次予算の80%超品質スコア (LLM-as-Judge) 出力品質の監視スコア0.8未満エラー率安定性の監視 5%超ユーザーフィードバック実際の満足度平均3.0未満制約条件: LLM-as-Judgeによる品質スコアリングは、評価用LLMのコストが追加で発生します。全リクエストを評価するのではなく、サンプリング（例: 5%のリクエスト）で監視するのが実用的です。よくある問題と解決方法問題原因解決方法プロンプト変更後に品質が低下回帰テストの不足 Promptfooでゴールデンデータセットを維持し、CI/CDで自動検証モデル更新後に出力が変化モデルバージョンの暗黙的な変更 APIでモデルバージョンを固定（例: claude-sonnet-4-6）コンテキストが長すぎてコスト増不要な情報の蓄積（コンテキストロット）関連度スコアでフィルタリング＋トークン上限設定評価スコアは高いが本番で不満テストケースが本番トラフィックを反映していない本番ログからテストケースを生成し、評価データセットを更新モデル間でプロンプトの互換性がないモデルごとの最適化手法の違い PromptAdapterパターンでモデル別に変換まとめと次のステップまとめ: プロンプトエンジニアリングは「コンテキストエンジニアリング」へ進化し、指示・知識・ツールの3層で情報環境全体を設計する時代になった Promptfoo / Braintrustを活用した評価駆動開発により、プロンプト品質をCI/CDパイプラインで自動検証できる Claude / GPT / Gemini各モデルには異なる最適化アプローチが有効であり、PromptAdapterパターンで抽象化するとモデル間移行のコストを下げられる本番運用では、プロンプトのバージョン管理・品質モニタリング・サンプリング評価の3つを組み合わせた継続改善が重要になる次にやるべきこと: 既存プロンプトの棚卸し: 現在のプロンプトを3層構造（指示・知識・ツール）に分類し、構造化の余地を洗い出す Promptfooの導入: npx promptfoo@latest init でプロジェクトを初期化し、まず3〜5件のテストケースで評価パイプラインを構築する品質指標の定義: レイテンシ・コスト・品質スコアのベースラインを計測し、改善目標を設定する関連記事: 2026年版プロンプトテクニック大全：10手法の使い分けとコンテキスト設計（個別テクニックの詳細） DSPy活用パターン完全ガイド：プロンプト自動最適化で精度50%向上を実現（自動最適化アプローチ）参考 Anthropic Claude Prompting Best Practices Promptfoo CI/CD Integration Context Engineering Guide - Prompt Engineering Guide Braintrust - 5 Best Prompt Engineering Tools in 2026 Context Engineering: Bringing Engineering Discipline to Prompts Andrej Karpathy on Context Engineering ! この記事はAI（Claude Code）により自動生成されました。内容の正確性については複数の情報源で検証していますが、実際の利用時は公式ドキュメントもご確認ください。 GitHubで編集を提案ohno機械学習エンジニアです。LLMに作成させた記事が主になります。メモ的に利用していますので、他の方にも参考になればと思い公開させていただいています。バッジを贈って著者を応援しようバッジを受け取った著者にはZennから現金やAmazonギフトカードが還元されます。バッジを贈るDiscussionohno機械学習エンジニアです。LLMに作成させた記事が主になります。メモ的に利用していますので、他の方にも参考になればと思い公開させていただいています。バッジを贈るバッジを贈るとは目次実践プロンプトエンジニアリング：評価駆動で本番LLMアプリのプロンプトを継続改善するこの記事でわかること対象読者結論・成果コンテキストエンジニアリングの3層設計を理解する評価駆動プロンプト開発をCI/CDに統合するモデル別プロンプト最適化を実装するプロンプトのバージョン管理と本番運用を設計するよくある問題と解決方法まとめと次のステップ参考

evaluation

📬 Get AI News Delivered

Browse by Category

Trending Topics

The Ultimate Guide to LLM Benchmarks: Evaluating 15 Key Metrics at Home

Analysis

Discovering the True Excitement of AI: Why Real-World Integration is the Real Frontier!

Analysis

Exploring the Frontier: The Exciting Challenge of Evaluating Modern AI Models

Analysis

Empowering Scientific Auditing: Large Language Models Excel at Detecting Methodological Flaws

Analysis

MemGround: Revolutionizing AI Evaluation with Gamified Memory Benchmarks

Analysis

Pioneering Research Enhances the Future of Reliable Speech-Based Depression Detection

Analysis

Anthropic's Claude Opus 4.7 Showcases Evolving Nuances in Advanced Benchmark Testing

Analysis

Mastering AI Systems: A Simple 7-Step Guide to Log Analysis

Analysis

Evaluating Local LLMs in the Medical Domain: Advancing Pharmaceutical Q&A with KokushiMD-10

Analysis

BridgeBench Highlights the Rapid Evolution of AI Model Evaluation and Competitiveness

Analysis

UK AI Security Institute Evaluates Claude Mythos Preview's Cyber Capabilities

Analysis

The Key to Successful Self-Evolving AI: Why Independent Evaluators Make the Difference

Analysis

Quantifying RAG Accuracy: A Custom Implementation of Recall@K and MRR to Compare Advanced Architectures

Analysis

Advanced Diagnostic Methods Reveal Fascinating Attention Dynamics in Gemma 4

Analysis

QuanBench+ Unlocks the Future of Reliable Quantum Code Generation with LLMs

Analysis

Best Practices for Implementing a Held-out Test Set After 5-Fold Cross-Validation in Deep Learning

Analysis

Researchers Reveal Groundbreaking Methods to Strengthen AI Agent Evaluation

Analysis

Anthropic Introduces Multi-Agent Harness to Revolutionize Long-Running AI Coding

Analysis

Yupp's Fascinating Journey: The Unprecedented Rise of an AI Evaluation Startup

Analysis

Innovating Content Discovery: Netflix Evaluates Show Synopses with LLM-as-a-Judge

Analysis

Practical Prompt Engineering: Continuously Improving Production LLM Apps Through Evaluation-Driven Cycles

Analysis

Anthropic Supercharges AI Agents: New Evaluation and Benchmarking Features for 'Agent Skills'!

Analysis

Mastering Supervised Machine Learning: A Brilliant Visual Guide to Building Models That Work

Analysis

Solving the Riddle: How Adaptive Originality Filtering Elevates LLM Wordplay

Analysis

Evaluating LLM Creativity: Testing AI Performance Through the Art of Puns

Analysis

A Strategic Guide to Getting Generative AI Budget Approval: Templates & Roadmaps Included

Analysis

ZOZO Unveils 'AZARS': A Unified AI Readiness Metric for All Employees

Analysis

Google AI Search Processes Trillions of Queries with Evolving Gemini Accuracy

Analysis

Study Reveals Critical Importance of Prompt Robustness in Medical AI Diagnostics

Analysis

SUT‑XR: A Groundbreaking External Framework for Evaluating AI Explanations

Analysis

📬 Get AI News Delivered

Browse by Category

Trending Topics