Intel Arc Pro B70 在 Ubuntu 24.04 下使用 llama.cpp 部署本地 AI 模型

喵小編

來自：60.250.130.216

文章：12

回應：3

樓主

2026-06-04 15:28:47

先前小編已經介紹過 Arc Pro B70 在 Windows + Ollama 環境下的部署方式，這次則要進一步挑戰 Linux 平台，在 Ubuntu 24.04 下利用 llama.cpp 部署本地大型語言模型（LLM）。

相較於 NVIDIA 平台，Intel GPU 在 Linux 環境下的安裝流程稍微複雜一些，主要原因在於 Intel 過去曾推出多套不同脈絡的運算方案。以目前 Arc Pro B70 而言，最推薦的方式是採用 GitHub 上的 Intel Compute Runtime 專案。

參考網址：

https://github.com/intel/compute-runtime/releases

第一部分：安裝 Intel GPU 運算環境

首先建立工作目錄：

mkdir neo
cd neo

下載相關套件：

wget https://github.com/intel/intel-graphics-compiler/releases/download/v2.34.4/intel-igc-core-2_2.34.4+21428_amd64.deb
wget https://github.com/intel/intel-graphics-compiler/releases/download/v2.34.4/intel-igc-opencl-2_2.34.4+21428_amd64.deb
wget https://github.com/intel/compute-runtime/releases/download/26.18.38308.1/intel-ocloc-dbgsym_26.18.38308.1-0_amd64.ddeb
wget https://github.com/intel/compute-runtime/releases/download/26.18.38308.1/intel-ocloc_26.18.38308.1-0_amd64.deb
wget https://github.com/intel/compute-runtime/releases/download/26.18.38308.1/intel-opencl-icd-dbgsym_26.18.38308.1-0_amd64.ddeb
wget https://github.com/intel/compute-runtime/releases/download/26.18.38308.1/intel-opencl-icd_26.18.38308.1-0_amd64.deb
wget https://github.com/intel/compute-runtime/releases/download/26.18.38308.1/libigdgmm12_22.10.0_amd64.deb
wget https://github.com/intel/compute-runtime/releases/download/26.18.38308.1/libze-intel-gpu1-dbgsym_26.18.38308.1-0_amd64.ddeb
wget https://github.com/intel/compute-runtime/releases/download/26.18.38308.1/libze-intel-gpu1_26.18.38308.1-0_amd64.deb

安裝 OpenCL 相依套件：

sudo apt install ocl-icd-libopencl1

安裝所有下載完成的套件：

sudo dpkg -i *.deb

重新開機：

sudo reboot

安裝 Intel oneAPI Base Toolkit

接著安裝 Intel 官方提供的 oneAPI Base Toolkit：

wget -O- https://apt.repos.intel.com/intel-gpg-keys/GPG-PUB-KEY-INTEL-SW-PRODUCTS.PUB | \
  gpg --dearmor | sudo tee /usr/share/keyrings/oneapi-archive-keyring.gpg > /dev/null

echo "deb [signed-by=/usr/share/keyrings/oneapi-archive-keyring.gpg] https://apt.repos.intel.com/oneapi all main" | \
  sudo tee /etc/apt/sources.list.d/oneAPI.list

sudo apt update
sudo apt install -y intel-basekit

安裝完成後，需要載入 oneAPI 環境：

source /opt/intel/oneapi/setvars.sh

可透過以下指令確認環境是否正常：

which icpx
sycl-ls

如果看到 Arc Pro B70 出現在 SYCL 裝置清單中，即表示驅動與運算環境已成功建立。

為了避免每次登入 SSH 都需要手動載入環境，可以加入 .bashrc：

echo 'source /opt/intel/oneapi/setvars.sh > /dev/null 2>&1' >> ~/.bashrc
source ~/.bashrc

第二部分：下載與編譯 llama.cpp

更新系統套件：

sudo apt update

安裝 Git：

sudo apt install -y git

安裝 OpenSSL 開發套件：

sudo apt install -y libssl-dev

安裝編譯工具：

sudo apt install -y cmake build-essential

下載 llama.cpp 原始碼：

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

使用 Intel SYCL 後端進行編譯：

cmake -B build -DGGML_SYCL=ON -DCMAKE_C_COMPILER=icx -DCMAKE_CXX_COMPILER=icpx
cmake --build build -j

編譯完成後可先測試：

./build/bin/llama-cli --help
./build/bin/llama-server --help

若正常顯示說明資訊，即代表編譯成功。

為了方便日後使用，也可以建立系統連結：

sudo ln -sf ~/llama.cpp/build/bin/llama-cli /usr/local/bin/llama-cli
sudo ln -sf ~/llama.cpp/build/bin/llama-server /usr/local/bin/llama-server

之後即可直接輸入 llama-cli 或 llama-server 執行。

第三部分：下載測試模型

llama.cpp 主要使用 GGUF 格式模型，首先下載一個較小的模型驗證環境：

cd models
wget https://huggingface.co/bartowski/Meta-Llama-3-8B-Instruct-GGUF/resolve/main/Meta-Llama-3-8B-Instruct-Q4_K_M.gguf
cd ..

第四部分：執行 llama.cpp

先啟用 Intel GPU System Management：

export ZES_ENABLE_SYSMAN=1

執行 Llama 3 8B 測試：

llama-cli \
  -m Meta-Llama-3-8B-Instruct-Q4_K_M.gguf \
  -ngl 99 \
  -c 2048 \
  -t 1

若模型成功進入互動模式，即表示 Arc Pro B70 已開始參與推論運算。

挑戰 35B 級大型模型

接下來嘗試載入更大型的模型：

wget -c https://huggingface.co/unsloth/Qwen3.5-35B-A3B-GGUF/resolve/main/Qwen3.5-35B-A3B-Q4_K_M.gguf

執行指令：

llama-cli \
  -m Qwen3.5-35B-A3B-Q4_K_M.gguf \
  -ngl 99 \
  -c 4096 \
  -t 16 \
  -p "請用繁體中文介紹你自己"

其中：

-ngl 99：盡可能將模型層全部卸載至 GPU。
-c 4096：設定上下文長度為 4096 Tokens。
-t 16：使用 16 個 CPU 執行緒輔助推論。

由於 Arc Pro B70 擁有 32GB VRAM，因此在 Q4 量化條件下，已具備執行 30B 至 35B 級模型的能力。對於希望以單卡部署大型模型的使用者而言，這也是 Arc Pro B70 相較於主流消費級顯示卡最大的優勢之一。