Yêu cầu trước khi bắt đầu
- Mac mini sử dụng Apple Silicon (M1/M2/M3/M4/M5)
- Ít nhất 16GB bộ nhớ hợp nhất cho Gemma 4 (mặc định là 8B)
- macOS đã cài đặt Homebrew
Bước 1: Cài đặt Ollama
Cài đặt ứng dụng Ollama trên macOS qua Homebrew cask:
brew install --cask ollama-app
Điều này sẽ cài đặt:
Ollama.apptrong/Applications/- CLI
ollamatại/opt/homebrew/bin/ollama
Bước 2: Khởi động Ollama
Chạy lệnh sau để mở ứng dụng Ollama:
open -a Ollama
Sau đó kiểm tra bằng cách:
ollama list
Bước 3: Tải Gemma 4
Kéo Gemma 4 bằng lệnh sau:
ollama pull gemma4
Bước 4: Kiểm tra mô hình
Chạy mô hình để kiểm tra:
ollama run gemma4:latest "Hello, what model are you?"
Kiểm tra sử dụng GPU:
ollama ps
Bước 5: Cấu hình tự khởi động
5a. Ollama App — Mở khi đăng nhập
Kích hoạt Launch at Login trong biểu tượng Ollama trên thanh menu.
5b. Tải trước Gemma 4 khi khởi động
Tạo launch agent để tải mô hình vào bộ nhớ sau khi Ollama khởi động:
cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE plist PUBLIC "-//Apple//DTD PLIST 1.0//EN" "http://www.apple.com/DTDs/PropertyList-1.0.dtd">
<plist version="1.0">
<dict>
<key>Label</key>
<string>com.ollama.preload-gemma4</string>
<key>ProgramArguments</key>
<array>
<string>/opt/homebrew/bin/ollama</string>
<string>run</string>
<string>gemma4:latest</string>
</array>
<key>RunAtLoad</key>
<true/>
<key>StartInterval</key>
<integer>300</integer>
<key>StandardOutPath</key>
<string>/tmp/ollama-preload.log</string>
<key>StandardErrorPath</key>
<string>/tmp/ollama-preload.log</string>
</dict>
</plist>
EOF
Nạp agent:
launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
5c. Duy trì mô hình
Giữ mô hình luôn trong bộ nhớ:
launchctl setenv OLLAMA_KEEP_ALIVE "-1"
Bước 6: Kiểm tra tổng thể
Kiểm tra trạng thái:
ollama list
ollama ps
launchctl list | grep ollama
Truy cập API
Ollama cung cấp API cục bộ:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:latest",
"messages": [{"role": "user", "content": "Hello"}]
}'
Lệnh hữu ích | Description |
| --- | --- |
| ollama list | Liệt kê các mô hình đã tải |
| ollama ps | Hiển thị mô hình đang chạy & sử dụng bộ nhớ |
| ollama run gemma4:latest | Trò chuyện tương tác |
| ollama stop gemma4:latest | Gỡ mô hình khỏi bộ nhớ |
| ollama pull gemma4:latest | Cập nhật mô hình lên phiên bản mới nhất |
| ollama rm gemma4:latest | Xóa mô hình |
Gỡ cài đặt / Xóa tự động khởi động
launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app
Điều gì mới trong Ollama v0.19+
MLX Backend trên Apple Silicon
Ollama sử dụng framework MLX của Apple cho hiệu suất suy luận nhanh hơn trên Apple Silicon.
Hỗ trợ NVFP4 (NVIDIA)
Ollama hỗ trợ định dạng NVFP4 của NVIDIA để giữ độ chính xác mô hình trong khi giảm băng thông bộ nhớ.
Cải tiến bộ nhớ tạm cho nhiệm vụ lập trình
- Tiết kiệm bộ nhớ: Ollama tái sử dụng cache giữa các cuộc hội thoại.
- Điểm kiểm thông minh: Lưu trữ snapshots của cache tại các vị trí thông minh trong prompt.
- Loại bỏ thông minh: Các phần mở đầu chung được giữ lâu hơn.