AUTOBUY購物中心

Intel Arc Pro B70 在 Ubuntu 24.04 下使用 llama.cpp 部署本地 AI 模型

  • 2026-06-03 15:49:33

    先前小編已經介紹過 Arc Pro B70 在 Windows + Ollama 環境下的部署方式,這次則要進一步挑戰 Linux 平台,在 Ubuntu 24.04 下利用 llama.cpp 部署本地大型語言模型(LLM)。

    相較於 NVIDIA 平台,Intel GPU 在 Linux 環境下的安裝流程稍微複雜一些,主要原因在於 Intel 過去曾推出多套不同脈絡的運算方案。以目前 Arc Pro B70 而言,最推薦的方式是採用 GitHub 上的 Intel Compute Runtime 專案。

    參考網址:

    https://github.com/intel/compute-runtime/releases

    第一部分:安裝 Intel GPU 運算環境

    首先建立工作目錄:

    mkdir neo
    cd neo

    下載相關套件:

    wget https://github.com/intel/intel-graphics-compiler/releases/download/v2.34.4/intel-igc-core-2_2.34.4+21428_amd64.deb
    wget https://github.com/intel/intel-graphics-compiler/releases/download/v2.34.4/intel-igc-opencl-2_2.34.4+21428_amd64.deb
    wget https://github.com/intel/compute-runtime/releases/download/26.18.38308.1/intel-ocloc-dbgsym_26.18.38308.1-0_amd64.ddeb
    wget https://github.com/intel/compute-runtime/releases/download/26.18.38308.1/intel-ocloc_26.18.38308.1-0_amd64.deb
    wget https://github.com/intel/compute-runtime/releases/download/26.18.38308.1/intel-opencl-icd-dbgsym_26.18.38308.1-0_amd64.ddeb
    wget https://github.com/intel/compute-runtime/releases/download/26.18.38308.1/intel-opencl-icd_26.18.38308.1-0_amd64.deb
    wget https://github.com/intel/compute-runtime/releases/download/26.18.38308.1/libigdgmm12_22.10.0_amd64.deb
    wget https://github.com/intel/compute-runtime/releases/download/26.18.38308.1/libze-intel-gpu1-dbgsym_26.18.38308.1-0_amd64.ddeb
    wget https://github.com/intel/compute-runtime/releases/download/26.18.38308.1/libze-intel-gpu1_26.18.38308.1-0_amd64.deb

    安裝 OpenCL 相依套件:

    apt install ocl-icd-libopencl1

    安裝所有下載完成的套件:

    sudo dpkg -i *.deb

    重新開機:

    sudo reboot

    安裝 Intel oneAPI Base Toolkit

    接著安裝 Intel 官方提供的 oneAPI Base Toolkit:

    wget -O- https://apt.repos.intel.com/intel-gpg-keys/GPG-PUB-KEY-INTEL-SW-PRODUCTS.PUB | \
      gpg --dearmor | sudo tee /usr/share/keyrings/oneapi-archive-keyring.gpg > /dev/null
    
    echo "deb [signed-by=/usr/share/keyrings/oneapi-archive-keyring.gpg] https://apt.repos.intel.com/oneapi all main" | \
      sudo tee /etc/apt/sources.list.d/oneAPI.list
    
    sudo apt update
    sudo apt install -y intel-basekit

    安裝完成後,需要載入 oneAPI 環境:

    source /opt/intel/oneapi/setvars.sh

    可透過以下指令確認環境是否正常:

    which icpx
    sycl-ls

    如果看到 Arc Pro B70 出現在 SYCL 裝置清單中,即表示驅動與運算環境已成功建立。

    為了避免每次登入 SSH 都需要手動載入環境,可以加入 .bashrc

    echo 'source /opt/intel/oneapi/setvars.sh > /dev/null 2>&1' >> ~/.bashrc
    source ~/.bashrc

    第二部分:下載與編譯 llama.cpp

    更新系統套件:

    sudo apt update

    安裝 Git:

    sudo apt install -y git

    安裝 OpenSSL 開發套件:

    sudo apt install -y libssl-dev

    安裝編譯工具:

    sudo apt install -y cmake build-essential

    下載 llama.cpp 原始碼:

    git clone https://github.com/ggerganov/llama.cpp
    cd llama.cpp

    使用 Intel SYCL 後端進行編譯:

    cmake -B build -DGGML_SYCL=ON -DCMAKE_C_COMPILER=icx -DCMAKE_CXX_COMPILER=icpx
    cmake --build build -j

    編譯完成後可先測試:

    ./build/bin/llama-cli --help
    ./build/bin/llama-server --help

    若正常顯示說明資訊,即代表編譯成功。

    為了方便日後使用,也可以建立系統連結:

    sudo ln -sf ~/llama.cpp/build/bin/llama-cli /usr/local/bin/llama-cli
    sudo ln -sf ~/llama.cpp/build/bin/llama-server /usr/local/bin/llama-server

    之後即可直接輸入 llama-clillama-server 執行。

    第三部分:下載測試模型

    llama.cpp 主要使用 GGUF 格式模型,首先下載一個較小的模型驗證環境:

    cd models
    wget https://huggingface.co/bartowski/Meta-Llama-3-8B-Instruct-GGUF/resolve/main/Meta-Llama-3-8B-Instruct-Q4_K_M.gguf
    cd ..

    第四部分:執行 llama.cpp

    先啟用 Intel GPU System Management:

    export ZES_ENABLE_SYSMAN=1

    執行 Llama 3 8B 測試:

    llama-cli \
      -m Meta-Llama-3-8B-Instruct-Q4_K_M.gguf \
      -ngl 99 \
      -c 2048 \
      -t 1

    若模型成功進入互動模式,即表示 Arc Pro B70 已開始參與推論運算。

    挑戰 35B 級大型模型

    接下來嘗試載入更大型的模型:

    wget -c https://huggingface.co/unsloth/Qwen3.5-35B-A3B-GGUF/resolve/main/Qwen3.5-35B-A3B-Q4_K_M.gguf

    執行指令:

    llama-cli \
      -m Qwen3.5-35B-A3B-Q4_K_M.gguf \
      -ngl 99 \
      -c 4096 \
      -t 16 \
      -p "請用繁體中文介紹你自己"

    其中:

    • -ngl 99:盡可能將模型層全部卸載至 GPU。
    • -c 4096:設定上下文長度為 4096 Tokens。
    • -t 16:使用 16 個 CPU 執行緒輔助推論。

    由於 Arc Pro B70 擁有 32GB VRAM,因此在 Q4 量化條件下,已具備執行 30B 至 35B 級模型的能力。對於希望以單卡部署大型模型的使用者而言,這也是 Arc Pro B70 相較於主流消費級顯示卡最大的優勢之一。