おにぎりトミーず🔖PodmanのコンテナLinuxでNVIDIA GPU(Geforce RTX)を使ったローカルLLM環境を構築してみた2026/04/19に公開DockerfilepodmanGradiollmGemmatech 1. はじめにこれまで、Linux 上で、別のLinuxを使って作業したい場合は、Ubuntu + KVM 環境(必要に応じてGPUパススルー)を使っていましたが、リソース効率の観点から、コンテナ環境(Podman)の方が適切であると判断したため、OS環境を変更してみました。(詳細は後述) その上で、GPU を活用したローカルチャット環境（LLM）の構築を試したいと考えたため、コンテナ内で LLM 環境を構築することにしました。なお、環境構築は、Geminiの回答を参考にしながら作成しております。また、コンテナ内で立ち上げたGemma3をアシスタントとして活用し、本記事を作成しています。 2. 前提となる環境、構成本記事で構築する環境の前提条件は以下の通りです。ハードウェアハードウェア構成は以下の環境で構築しています。 CPU: AMD Ryzen 9 7900 (AM5) マザーボード： MSI PRO X670-P WIFI GPU: GeForce RTX 4070 Ti SUPER (16GB) ストレージ: PCIe 5 Gen 2TB SSD もし、本記事を参照して構築する場合は、以下をご参照ください。 ※GPUはNVIDIA製のRTXシリーズを前提としています。VRAMは多いほどパフォーマンスが向上します。 ※RAM及びストレージは余裕を持った容量を推奨します。オペレーティングシステム (OS) Linux: Fedora 43 Server (構築時点) ※Podman の利用が可能な Linux ディストリビューションであれば、上記以外の OS でも対応可能です。コンテナ実行環境コンテナエンジン: Podman がインストール済みであること。ネットワーク環境インターネット接続: インストールに必要なソフトウェアやデータのダウンロード、アップデートが可能であること。コンテナ接続: イントラネット内のPCから、作成したコンテナへポートフォワーディングなどを利用してブラウザ経由で接続できること。 3. 構築していく上で必要な事項 NVIDIAドライバ類の適用 Gemmaのモデル選択/ダウンロード WebUIの選択 Dockerファイルサービス起動 4. NVIDIAドライバ類の適用 (ホストOS側) CUDAを利用するため、NVIDIA製のドライバをインストールする必要があります。既にインストール済みの場合は、この手順をスキップしてください。以下はFedoraを使った場合の例となります。 ! 本項の実施例で失敗した場合は、OS起動ができなくなる等のリスクがありますので、実施例より優れた安全策を取ることをお勧めします。失敗した場合の責任は当方では負いかねますので予めご承知おきください。 nouveau の無効化(OS起動時) OS標準の Nouveau ドライバーを無効化します。 sudo vi /etc/modprobe.d/blacklist.conf blacklist nouveau nouveau の無効化(カーネル上) 設定の変更 sudo vi /etc/default/grub # GRUB_CMDLINE_LINUX に "rd.driver.blacklist=nouveau" を追加 GRUB_CMDLINE_LINUX="rhgb quiet rd.driver.blacklist=nouveau" grubの更新 sudo grub2-mkconfig -o /boot/grub2/grub.cfg initramfsの更新 sudo dracut /boot/initramfs-$(uname -r).img $(uname -r) --force OS再起動を行い設定を反映 sudo reboot 追加パッケージのインストール CUDA Toolkit のインストールに必要なコンパイラやヘッダファイルなどをインストールします。 sudo dnf install gcc-c++ kernel-headers kernel-devel CUDA Toolkit 公式サイトからダウンロードし、手順通りインストールを実施します。私の場合は、"runfile (local)"を選択してインストールをしましたが、好きな方で良いと思います。 ! OS側でカーネルを更新した場合は、CUDA Toolkitの再適用が必要な場合があります。私の場合は、GPUが認識していない場合に備え、ダウンロードしたインストーラを保存し、必要に応じて以下の例にあるようなコマンドを実行しています。 sudo sh cuda_13.2.0_595.45.04_linux.run NVIDIA Container Toolkit コンテナ環境 (Podman) を利用する場合に必要となります。こちらも公式サイトの手順に従って、ダウンロード及びインストールをしています。 5. LLMモデル選択/ダウンロードローカルLLMを構築するにあたり、モデルのダウンロードは必須です。今回は、Gemmaモデルを選択し、Hugging Faceのページを参考にしました。 Gemmaモデルには様々なバージョンがあり、ファイルサイズと精度、そしてGPUメモリ（VRAM）の使用量にトレードオフの関係があります。ファイルサイズが小さいモデルは精度が劣る可能性がありますが、一方でVRAMの制限を超えると効率的な動作ができません。パッと見でどのモデルが最適か判断が難しかった為、今回はGeminiに相談してみることにしました。Geminiに私のGPU環境（GeForce RTX 4070 Ti Super、16GB VRAM）でGemma 3を使用する場合に最適なモデルを尋ねたところ、 Q6_K g が推奨される結果となりました。このモデルをダウンロードして試してみることにします。また、ファイルサイズは大きいため、後続作業をしながら、または、寝ている時間にダウンロードするのが効率が良いかと思います。補足: GPUの種類によって、Geminiからの推奨モデルは異なる可能性があります。 GGUF形式は、CPU上での推論も可能で、GPUがない環境でも動作します。今回はGemma 3を使っていますが、Gemma 4は、まだ試していません。 GLM-4.7(UD-Q3_K_XL)でも同じ方法で構築可能です。(後述のapp.pyは書き換えが必要です。) 6. WebUIの選択 Web UIライブラリについては、公開されているものが何種類か存在していますが、初心者向けで評判も良いため、Gradioを採用しました。なお、Gemmaに簡潔にまとめてもらったところ、以下のようになりました。 Gradioは、機械学習モデルのデモ作成を簡単にする強力なツールです。主なメリット: 手軽なデモ作成: ほとんどコードを書かずに、様々なデータ形式に対応したWeb UIをすぐに作成できます。開発効率の向上: プロトタイピング、モデル評価、コラボレーションが容易です。使いやすさ: シンプルなAPIと豊富なコンポーネントで、直感的にUIを構築・カスタマイズできます。簡単な共有: 一時的/永続的なURLや埋め込み機能で、デモを簡単に共有できます。幅広い活用: 研究、教育、ビジネスなど、様々な分野で利用されています。 Gradioを使ったコンテナ構築は、次の項で実施します。 7. Dockerファイルの作成 Podmanのコンテナ上でローカルLLMを構築するため、Dockerファイルの作成を行います。なお、ファイル内に示す通り Docker Hub から NVIDIAが提供するCUDAの開発環境向けUbuntu 24.04 ベースのイメージをベースとして構築しています。初心者向けの注意点として、解説すると以下のようになります。ベースイメージは NVIDIA が提供する CUDA 12.6.3 （構築時最新バージョン）のUbuntu 24.04です。サービス起動はsystemdではなく、supervisordを利用(コンテナでは一般的)。 LLMモデル(GGUF形式ファイル)は、ここでは不要で、起動時に組み込みます。一方で、Web UIフレームワーク (Gradio) のインストールはここで実施します。以下の例は、何かあったときのために、SSHサーバを追加している（無くても動く）が、本質的には不要です。初回sshログイン用に、ユーザ(onigiri-tomyz)、パスワード(XXXXXX)を設定していますが、設定は変えてください。上記以外に追加不要なパッケージ等があるかもしれませんが、ご容赦ください。内容はGeminiに作成した結果ですが、何回か調整しながらの結果となります。 Dockerfile を使用する環境や要件に合わせて、修正してください。 FROM nvidia/cuda:12.6.3-devel-ubuntu24.04 ENV DEBIAN_FRONTEND=noninteractive # 基本パッケージ更新 RUN apt-get update && apt-get upgrade -y # RUN apt-get install -y \ openssh-server \ supervisor \ vim \ iputils-ping \ dnsutils \ net-tools \ iproute2 \ sudo \ ca-certificates \ python3-pip \ python3-dev \ git \ build-essential \ cmake \ && rm -rf /var/lib/apt/lists/* # OS標準のpipはそのままに、最新のpipをインストールしてパスを通す RUN python3 -m pip install --upgrade pip --break-system-packages --ignore-installed # 以降のコマンドで最新のpipが優先されるように設定（通常は /usr/local/bin に入ります） ENV PATH=/usr/local/bin:${PATH} # pip の「externally-managed-environment」制限を永続的に無効化する # これにより、以降は --break-system-packages を付けずに pip upgrade 等が可能になります RUN mkdir -p /etc/pip && \ echo "[global]\nbreak-system-packages = true" > /etc/pip.conf # 念のため、作成したユーザーの環境でも有効になるよう設定 RUN pip3 config set global.break-system-packages true # pip自体のプロキシ設定と、ビルド依存関係のインストール RUN pip3 install --no-cache-dir --break-system-packages \ --trusted-host pypi.org \ --trusted-host files.pythonhosted.org \ setuptools \ wheel \ scikit-build-core \ ninja # CUDA関連のパス設定を強化 ENV CUDA_HOME=/usr/local/cuda ENV PATH=${CUDA_HOME}/bin:${PATH} ENV LD_LIBRARY_PATH=${CUDA_HOME}/lib64:${CUDA_HOME}/lib64/stubs:${LD_LIBRARY_PATH} # ビルド時にスタブライブラリを参照させるための設定 ENV LIBRARY_PATH=${CUDA_HOME}/lib64/stubs:${LIBRARY_PATH} # 【重要】libcuda.so.1 のシンボリックリンクを作成してリンカを騙す RUN ln -s ${CUDA_HOME}/lib64/stubs/libcuda.so ${CUDA_HOME}/lib64/stubs/libcuda.so.1 # llama-cpp-python を CUDA (cuBLAS) 有効でインストール # RTX 4070 Ti SUPER (Ada Lovelace) 用に、コンパイル引数を指定 ENV CMAKE_ARGS="-DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=89 -DGGML_CUDA_FORCE_LIB_PATH=ON" RUN pip3 install --no-cache-dir --break-system-packages \ --proxy=${HTTPS_PROXY} \ --trusted-host pypi.org \ --trusted-host files.pythonhosted.org \ --no-build-isolation \ llama-cpp-python # UIライブラリ (Gradio) のインストール RUN pip3 install --no-cache-dir gradio --break-system-packages # 作業ディレクトリの設定 WORKDIR /app # SSHディレクトリ準備 RUN mkdir -p /var/run/sshd # pam_loginuid 無効化 RUN sed -i 's/session\s\+required\s\+pam_loginuid.so/#&/' /etc/pam.d/sshd # パスワード認証有効化 RUN sed -i 's/#PasswordAuthentication yes/PasswordAuthentication yes/' /etc/ssh/sshd_config # ===== ユーザ作成 ===== ARG USERNAME=onigiri-tomyz ARG PASSWORD=XXXXXX RUN useradd -m -s /bin/bash ${USERNAME} && \ echo "${USERNAME}:${PASSWORD}" | chpasswd && \ usermod -aG sudo ${USERNAME} # sudoパスワード有効 RUN echo "${USERNAME} ALL=(ALL) ALL" >> /etc/sudoers # Supervisor設定ディレクトリ RUN mkdir -p /var/log/supervisor # supervisor設定ファイルコピー COPY supervisord.conf /etc/supervisor/conf.d/supervisord.conf EXPOSE 22 EXPOSE 7860 CMD ["/usr/bin/supervisord"] 8. Dockerファイルのビルド Dockerファイルのビルドを行う前に、サービス起動に必要なsupervisord.confの作成をします。特に必要なのは後半部分ですが、サービス起動に必要なユーザはDockerfileで作成したユーザを使用しています。 vi supervisord.conf [supervisord] nodaemon=true [program:sshd] command=/usr/sbin/sshd -D autorestart=true # チャットUIを自動起動したい場合（例: app.py） [program:chat-ui] directory=/app command=python3 app.py user=onigiri-tomyz autorestart=true その後、起動イメージの作成を実行します。名前は、"gemma-chat-ui"としていますが、お好みで決めてください。 ※sudoが含まれているのは、LAN経由でコンテナを使用する為ですので、環境によっては不要となります。 sudo podman build \ -t local-llm-chat-ui . 上記例で成功した場合、最後の方の行では、以下のようなメッセージが表示されます Successfully tagged localhost/local-llm-chat-ui:latest 念のため、作成されたイメージを確認します。 ※sudoが含まれているのは、LAN経由でコンテナを使用する為ですので、環境によっては不要となります。 sudo podman images | grep local-llm-chat-ui 9. サービス起動用として必要なファイルの作成次に、コンテナ上で、webサービス起動用のpythonファイル(app.py)を作成します。このファイルは、コンテナ起動時にLLMモデルファイルと共にアタッチメントしますので、先のイメージを作成した後で、このファイル作成をするという順番で問題ありません。 ※イメージビルド時に組み込むと修正が入る毎に都度ビルドとなるため、推奨はしません $ vi app.py import gradio as gr from llama_cpp import Llama import os # モデルのパス（コンテナ内のパス） MODEL_PATH = "/app/models/gemma-3-12b-it-Q6_K.gguf" # モデルのロード # n_gpu_layers=-1 で全レイヤーを RTX 4070 Ti SUPER の VRAM に乗せます print(f"Loading model: {MODEL_PATH}") llm = Llama( model_path=MODEL_PATH, n_gpu_layers=-1, n_ctx=8192, # コンテクストサイズ main_gpu=0, # 最初のGPUを使用 n_batch=512 # バッチサイズ（GPU利用時に重要） ) def generate_response(message, history): # Gemma 3 のプロンプト形式に合わせる prompt = "" # 修正ポイント: history の中身を安全に取り出す for interaction in history: # interaction が [user, assistant] のペアであることを確認 if isinstance(interaction, (list, tuple)) and len(interaction) >= 2: user_msg = interaction[0] assistant_msg = interaction[1] prompt += f"<|im_start|>user\n{user_msg}<|im_end|>\n" prompt += f"<|im_start|>assistant\n{assistant_msg}<|im_end|>\n" else: # 想定外の形式（文字列のみ等）が入ってきた場合はスキップ、または処理 continue #for user_msg, assistant_msg in history: # prompt += f"<|im_start|>user\n{user_msg}<|im_end|>\n" # prompt += f"<|im_start|>assistant\n{assistant_msg}<|im_end|>\n" prompt += f"<|im_start|>user\n{message}<|im_end|>\n<|im_start|>assistant\n" # ストリーミング生成 output = llm( prompt, max_tokens=2048, #stop=["<|im_end|>", "<|endoftext|>"], stop=["<|im_start|>", "<|im_end|>", "", "", ""], stream=True, temperature=0.7 # 0だと決定論的すぎてループすることがある ) response = "" for chunk in output: delta = chunk["choices"][0]["text"] if delta: response += delta yield response # Gradio UI の起動 demo = gr.ChatInterface( fn=generate_response, title="Gradio Chat UI (RTX 4070 Ti SUPER)", description="Ubuntu 24.04 + Podman + Gemma3 12B" ) if __name__ == "__main__": # コンテナ外からアクセスするため 0.0.0.0 で起動 #demo.launch(server_name="0.0.0.0", server_port=7860, show_error=True, max_threads=10) demo.queue().launch(server_name="0.0.0.0", server_port=7860, show_error=True) その後、作成したファイルとダウンロードしたgemmaモデルファイルを特定のフォルダ階層に置きます。 ※以下は作成例 $ sudo mkdir -p /srv/data/llm/gemma/app/models $ sudo cp app.py /srv/data/llm/gemma/app/ $ sudo cp gemma-3-12b-it-Q6_K.gguf /srv/data/llm/gemma/app/models $ tree /srv/data/llm/gemma/app/ /srv/data/llm/gemma/app/ ├── app.py └── models └── gemma-3-12b-it-Q6_K.gguf 10.コンテナ起動私の場合は、以下のようなshellスクリプトを作成して起動しています。 ※ホスト名は、"hauynite"としていますので、修正してください ※ネットワークセグメントは(192.168.22.0/24)としていますので、修正してください ※コンテナ用内部ネットワークは、"podman-net"としていますので、修正してください ※下記例は、ubuntuのコンテナ共通でubuntu.sources設定をしていますので、適時修正してください $ vi run_hauynite.sh #!/bin/bash CONTAINER_NAME="hauynite" IMAGE_NAME="local-llm-chat-ui:latest" NETWORK_NAME="podman-net" IP_ADDR="192.168.22.111" HOSTNAME="hauynite" DNS1="192.168.22.11" DNS2="192.168.22.12" # 既存コンテナがあれば削除 podman rm -f $CONTAINER_NAME 2>/dev/null # 起動 sudo podman run -d \ --name $CONTAINER_NAME \ --hostname $HOSTNAME \ --network $NETWORK_NAME \ --ip $IP_ADDR \ --dns $DNS2 \ --dns $DNS1 \ --device nvidia.com/gpu=0 \ --env LD_LIBRARY_PATH=/usr/local/cuda/lib64 \ -it \ -v /srv/configs/ubuntu_24.04_x86_64/apt/ubuntu.sources:/etc/apt/sources.list.d/ubuntu.sources:ro,z \ -v /srv/data/llm/gemma/app:/app:z \ $IMAGE_NAME コンテナ起動ができた場合、クライアントPCのブラウザからアクセスするとチャットが始まるという想定ですが、初回起動時は、サービスが起動できていないかもしれません。その場合は、サーバ側から手動でサービス起動を行います。【ブラウザからのアクセス例】 http://192.168.22.111:7860 【手動でサービス起動例(サーバ側から)】 sudo podman exec -it hauynite python3 /app/app.py 11.調整上記で例示した各内容については、Geminiから最初に提案された内容そのままを使った場合は、プロンプトが途中で止まる等、正常動作とはなりませんでしたので、エラー内容や発生した症状等をGeminiに聞きながら修正を行っています。私の環境では、少し実行した限りでは問題ないように見えますが、何か問題がある場合は、チャットで質問しながら設定を調整してください。なお、GPUの動作について、持続モードがoffの場合に不具合が発生する可能性があるため、場合によっては、以下のように持続モードをonにした方がよいかもしれません。 sudo nvidia-smi -pm 1 12.感想ローカルLLM環境の構築及び使ってみての感想ですが、GeminiやChatGPTで代表されるインターネット経由の対話型と同じようにはならず、以下のようなデメリットがあることが分かりました。 NVIDIA製のGPUを持っている必要があり、実用的なレベルとなるとVRAMもそれなりに必要言語モデルのファイル容量は大きいので、ダウンロードに時間がかかる問題なく使えるまでには、インターネット経由のチャットで対話し、調整が必要である（本末転倒な感じ） 1問1答形式で使うことは問題ないが、インターネット経由のチャットのようにするのは簡単ではない（更に手間がかかる）とは言え、それでも、ローカル実行ができるメリットは大きいと考えております。ベンダー側が敢えてローカルLLMを提供しているのは、インターネット経由のチャットと共存共栄を狙ってのことかと思いますが、現状はなんとなく、思惑通りとなっている気がしました。おにぎりトミーずITインフラ系エンジニアのヌシさん(本ページの管理者)の代理として、おにぎり（キャラクター）が、自作PCやサーバ構築、アプリケーション基本構成、その他IT関係について、興味の趣くまま解説していく、そんな内容のブログを作成しています。DiscussionおにぎりトミーずITインフラ系エンジニアのヌシさん(本ページの管理者)の代理として、おにぎり（キャラクター）が、自作PCやサーバ構築、アプリケーション基本構成、その他IT関係について、興味の趣くまま解説していく、そんな内容のブログを作成しています。目次1. はじめに2. 前提となる環境、構成3. 構築していく上で必要な事項4. NVIDIAドライバ類の適用 (ホストOS側)nouveau の無効化(OS起動時)nouveau の無効化(カーネル上)追加パッケージのインストールCUDA ToolkitNVIDIA Container Toolkit5. LLMモデル選択/ダウンロード6. WebUIの選択7. Dockerファイルの作成8. Dockerファイルのビルド9. サービス起動用として必要なファイルの作成10.コンテナ起動11.調整12.感想

gp

📬 Get AI News Delivered

Browse by Category

Trending Topics

Navigating the 2026 GPU Kernel Frontier: The Rise of Python-Based CuTeDSL for 大语言模型 (LLM) 推理

Analysis

The Exciting 2026 Shift: Python-Powered CuTeDSL vs. C++ in GPU Kernel Engineering

Analysis

Empowering SMEs: A Strategic Guide to Integrating ChatGPT, Copilot, and Claude

Analysis

Perfecting AI Art: How to Easily Fix Minor Flaws in Generated Images

Analysis

How Beginners Can Easily Build Websites Using ChatGPT

Analysis

The Ultimate Guide to LLM Benchmarks: Evaluating 15 Key Metrics at Home

Analysis

Claude Opus 4.7 Arrives: Reclaims the Throne with 87.6% on SWE-bench, Leaving GPT-5.4 and Gemini Behind

Analysis

ChatGPT's Image Generation AI Surpasses Expectations: Comics and Video-Style Cuts Reach Practical Levels

Analysis

Exciting New Behavior: ChatGPT Moves Away from Em Dashes!

Analysis

The Emergence of the Triad: ChatGPT, Grok, and Gemini Paving the Way for Advanced AI Agents

Analysis

Decoding the AI Mind: How Large Language Models (LLMs) Distinguish System and User Prompts

Analysis

Building a Powerful Local LLM Environment with Podman and NVIDIA RTX GPUs

Analysis

GPT Image 2 Breakthrough: Flawless Text Rendering Unlocks New AI Creative Workflows

Analysis

Anthropic and OpenAI Usher in a New Era of Specialized AI Agents

Analysis

Embracing the AI Era: How Generation Z Navigates the Transformative Job Market

Analysis

The Real Reason Behind AI Confidence: OpenAI's Breakthrough Research on Hallucination

Analysis

NVIDIA Optimizes Manufacturing Focus, Pioneering the Next Frontier of AI Computing

Analysis

An Enthusiastic Journey: 600 Hours of Harnessing the Best Generative AI Tools

Analysis

The Evolving Landscape of Generative AI: Exploring User Prompt Engineering and Model Alignment

Analysis

You're giving feedback on a new version of ChatGPT

Analysis

Streamlining the 生成式人工智能 Experience: ChatGPT Introduces a Sleek New Interface Update

Analysis

ChatGPT Successfully Helps 23-Year-Old Woman Diagnose Rare Genetic Disorder

Analysis

Incredible Efficiency: GPT-4.1-Mini Outperforms GPT-5 in Comprehensive Data Science Benchmark

Analysis

From Zero to Tech Builder: How AI Empowered a Novice to Build a Custom PC and 4 Apps

Analysis

Building a Large Language Model (LLM) from Scratch: An Open Source TypeScript Triumph

Analysis

Decoding the 大規模言語モデル (LLM): How AI Masterfully Distinguishes System and User Prompts

Analysis

Testing the Boundaries of OpenAI's Exciting New Image API!

Analysis

From Zero to World's First: How Claude Empowered a Non-Engineager to Build a Revolutionary Tool

Analysis

ChatGPT's Proactive Editing Enhances User Learning Experiences

Analysis

A Brilliant Open Source Initiative: Building LLMs from Scratch in Minimal PyTorch

Analysis

📬 Get AI News Delivered

Browse by Category

Trending Topics