GPU
使用方法
Kubernetes v1.8 及更新版本
NVIDIA 插件
# Install docker-ce
curl https://get.docker.com | sh \
&& sudo systemctl --now enable docker
# Add the package repositories
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
&& curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
&& curl -s -L https://nvidia.github.io/libnvidia-container/experimental/$distribution/libnvidia-container.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
# Install nvidia-docker2 and reload the Docker daemon configuration
sudo apt-get install -y nvidia-docker2
sudo systemctl restart docker
# Test nvidia-smi with the latest official CUDA image
sudo docker run --rm --gpus all nvidia/cuda:11.6.2-base-ubuntu20.04 nvidia-smiGCE/GKE GPU 插件
NVIDIA GPU Operator
请求 nvidia.com/gpu 资源示例
nvidia.com/gpu 资源示例Kubernetes v1.6 和 v1.7
Dynamic Resource Allocation (DRA) 方式使用 GPU
DRA GPU 配置
1. 创建 GPU ResourceClass
2. 创建 GPU ResourceClaim
3. 使用 DRA GPU 的 Pod
v1.33 DRA GPU 新特性
1. GPU 分区(MIG 支持)
2. GPU 污点和容忍度
3. 管理员访问控制
DRA GPU 监控和调试
多种型号的 GPU
使用 CUDA 库
附录:CUDA 安装方法
AI/ML 推理工作负载的网关管理
Gateway API Inference Extension 配置
性能优势
监控 GPU 推理服务
参考文档
最后更新于