先前小編已經介紹過 Arc Pro B70 在 Windows + Ollama 環境下的部署方式,這次則要進一步挑戰 Linux 平台,在 Ubuntu 24.04 下利用 llama.cpp 部署本地大型語言模型(LLM)。
相較於 NVIDIA 平台,Intel GPU 在 Linux 環境下的安裝流程稍微複雜一些,主要原因在於 Intel 過去曾推出多套不同脈絡的運算方案。以目前 Arc Pro B70 而言,最推薦的方式是採用 GitHub 上的 Intel Compute Runtime 專案。
參考網址:
https://github.com/intel/compute-runtime/releases
第一部分:安裝 Intel GPU 運算環境
首先建立工作目錄:
mkdir neo
cd neo下載相關套件:
wget https://github.com/intel/intel-graphics-compiler/releases/download/v2.34.4/intel-igc-core-2_2.34.4+21428_amd64.deb
wget https://github.com/intel/intel-graphics-compiler/releases/download/v2.34.4/intel-igc-opencl-2_2.34.4+21428_amd64.deb
wget https://github.com/intel/compute-runtime/releases/download/26.18.38308.1/intel-ocloc-dbgsym_26.18.38308.1-0_amd64.ddeb
wget https://github.com/intel/compute-runtime/releases/download/26.18.38308.1/intel-ocloc_26.18.38308.1-0_amd64.deb
wget https://github.com/intel/compute-runtime/releases/download/26.18.38308.1/intel-opencl-icd-dbgsym_26.18.38308.1-0_amd64.ddeb
wget https://github.com/intel/compute-runtime/releases/download/26.18.38308.1/intel-opencl-icd_26.18.38308.1-0_amd64.deb
wget https://github.com/intel/compute-runtime/releases/download/26.18.38308.1/libigdgmm12_22.10.0_amd64.deb
wget https://github.com/intel/compute-runtime/releases/download/26.18.38308.1/libze-intel-gpu1-dbgsym_26.18.38308.1-0_amd64.ddeb
wget https://github.com/intel/compute-runtime/releases/download/26.18.38308.1/libze-intel-gpu1_26.18.38308.1-0_amd64.deb安裝 OpenCL 相依套件:
apt install ocl-icd-libopencl1安裝所有下載完成的套件:
sudo dpkg -i *.deb重新開機:
sudo reboot安裝 Intel oneAPI Base Toolkit
接著安裝 Intel 官方提供的 oneAPI Base Toolkit:
wget -O- https://apt.repos.intel.com/intel-gpg-keys/GPG-PUB-KEY-INTEL-SW-PRODUCTS.PUB | \
gpg --dearmor | sudo tee /usr/share/keyrings/oneapi-archive-keyring.gpg > /dev/null
echo "deb [signed-by=/usr/share/keyrings/oneapi-archive-keyring.gpg] https://apt.repos.intel.com/oneapi all main" | \
sudo tee /etc/apt/sources.list.d/oneAPI.list
sudo apt update
sudo apt install -y intel-basekit安裝完成後,需要載入 oneAPI 環境:
source /opt/intel/oneapi/setvars.sh可透過以下指令確認環境是否正常:
which icpx
sycl-ls如果看到 Arc Pro B70 出現在 SYCL 裝置清單中,即表示驅動與運算環境已成功建立。

為了避免每次登入 SSH 都需要手動載入環境,可以加入 .bashrc:
echo 'source /opt/intel/oneapi/setvars.sh > /dev/null 2>&1' >> ~/.bashrc
source ~/.bashrc第二部分:下載與編譯 llama.cpp
更新系統套件:
sudo apt update安裝 Git:
sudo apt install -y git安裝 OpenSSL 開發套件:
sudo apt install -y libssl-dev安裝編譯工具:
sudo apt install -y cmake build-essential下載 llama.cpp 原始碼:
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp使用 Intel SYCL 後端進行編譯:
cmake -B build -DGGML_SYCL=ON -DCMAKE_C_COMPILER=icx -DCMAKE_CXX_COMPILER=icpx
cmake --build build -j編譯完成後可先測試:
./build/bin/llama-cli --help
./build/bin/llama-server --help若正常顯示說明資訊,即代表編譯成功。
為了方便日後使用,也可以建立系統連結:
sudo ln -sf ~/llama.cpp/build/bin/llama-cli /usr/local/bin/llama-cli
sudo ln -sf ~/llama.cpp/build/bin/llama-server /usr/local/bin/llama-server之後即可直接輸入 llama-cli 或 llama-server 執行。
第三部分:下載測試模型
llama.cpp 主要使用 GGUF 格式模型,首先下載一個較小的模型驗證環境:
cd models
wget https://huggingface.co/bartowski/Meta-Llama-3-8B-Instruct-GGUF/resolve/main/Meta-Llama-3-8B-Instruct-Q4_K_M.gguf
cd ..第四部分:執行 llama.cpp
先啟用 Intel GPU System Management:
export ZES_ENABLE_SYSMAN=1執行 Llama 3 8B 測試:
llama-cli \
-m Meta-Llama-3-8B-Instruct-Q4_K_M.gguf \
-ngl 99 \
-c 2048 \
-t 1若模型成功進入互動模式,即表示 Arc Pro B70 已開始參與推論運算。

挑戰 35B 級大型模型
接下來嘗試載入更大型的模型:
wget -c https://huggingface.co/unsloth/Qwen3.5-35B-A3B-GGUF/resolve/main/Qwen3.5-35B-A3B-Q4_K_M.gguf執行指令:
llama-cli \
-m Qwen3.5-35B-A3B-Q4_K_M.gguf \
-ngl 99 \
-c 4096 \
-t 16 \
-p "請用繁體中文介紹你自己"其中:
-ngl 99:盡可能將模型層全部卸載至 GPU。-c 4096:設定上下文長度為 4096 Tokens。-t 16:使用 16 個 CPU 執行緒輔助推論。
由於 Arc Pro B70 擁有 32GB VRAM,因此在 Q4 量化條件下,已具備執行 30B 至 35B 級模型的能力。對於希望以單卡部署大型模型的使用者而言,這也是 Arc Pro B70 相較於主流消費級顯示卡最大的優勢之一。