トップトークン確率を表示するフロントエンドツール

公開:2026年1月3日 00:11
1分で読める
r/LocalLLaMA

分析

この記事は、Qwen3 vl 8bモデルを使用して日本語のアートワークのOCRエラーを修正するために、トップトークン確率を表示するフロントエンドの必要性について議論しています。ユーザーはmikupadとsillytavernの代替を探しており、OpenWebUIのような人気のあるフロントエンドの拡張機能の可能性も探っています。主な問題は、精度を向上させるために、モデルのトップトークン予測にアクセスし、潜在的に修正する必要があることです。

参照

Qwen3 vl 8bとllama.cppを使用して、日本語のアートワークからテキストをOCRしています。これは私が試した中で最も正確なモデルですが、それでも時々文字を間違えたり、完全に省略したりします。正しい予測はトップトークンの中にあると確信しているので、それらにアクセスできれば、出力を簡単に修正できます。