Tensorflow
Kubeflow 是 Google 发布的用于在 Kubernetes 集群中部署和管理 tensorflow 任务的框架。主要功能包括
    用于管理 Jupyter 的 JupyterHub 服务
    用于管理训练任务的 Tensorflow Training Controller
    用于模型服务的 TF Serving 容器

部署

部署之前需要确保
    一套部署好的 Kubernetes 集群或者 Minikube,并配置好 kubectl 命令行工具
    安装 ksonnet 0.8.0 以上版本
对于开启 RBAC 的 Kubernetes 集群,首先要创建管理员角色绑定:
1
kubectl create clusterrolebinding tf-admin --clusterrole=cluster-admin --serviceaccount=default:tf-job-operator
Copied!
然后运行以下命令部署
1
ks init my-kubeflow
2
cd my-kubeflow
3
ks registry add kubeflow github.com/google/kubeflow/tree/master/kubeflow
4
ks pkg install kubeflow/core
5
ks pkg install kubeflow/tf-serving
6
ks pkg install kubeflow/tf-job
7
ks generate core kubeflow-core --name=kubeflow-core
8
ks apply default -c kubeflow-core
Copied!
如果有多个 Kubernetes 集群,也可以切换到其他其集群中部署,如
1
kubectl config use-context gke
2
ks env add gke
3
ks apply gke -c kubeflow-core
Copied!
稍等一会,就可以看到 tf-hub-lb 服务的公网IP,也就是 JupyterHub 的访问地址
1
kubectl get svc tf-hub-lb
Copied!
对于不支持 LoadBalancer Service 的集群,还可以通过端口转发(http://127.0.0.1:8100)的方式来访问:
1
kubectl port-forward tf-hub-0 8100:8000
Copied!
JupyterHub 默认可以用任意用户名和密码登录。登陆后,可以使用自定义镜像来启动 Notebook Server,比如使用
    gcr.io/kubeflow/tensorflow-notebook-cpu
    gcr.io/kubeflow/tensorflow-notebook-gpu

训练示例

使用 CPU:
1
ks generate tf-cnn cnn --name=cnn
2
ks apply gke -c cnn
Copied!
使用 GPU:
1
ks param set cnn num_gpus 1
2
ks param set cnn num_workers 1
3
ks apply default -c cnn
Copied!

模型部署

1
MODEL_COMPONENT=serveInception
2
MODEL_NAME=inception
3
MODEL_PATH=gs://cloud-ml-dev_jlewi/tmp/inception
4
ks generate tf-serving ${MODEL_COMPONENT} --name=${MODEL_NAME} --namespace=default --model_path=${MODEL_PATH}
5
6
ks apply gke -c ${MODEL_COMPONENT}
Copied!

参考文档

最近更新 2yr ago