microsoft / ai-system Goto Github PK

View Code? Open in Web Editor NEW

2.9K 68.0 362.0 409.76 MB

System for AI Education Resource.

Home Page: https://microsoft.github.io/AI-System/

License: Creative Commons Attribution 4.0 International

Python 94.13% C++ 3.12% Cuda 2.62% Shell 0.13%

ai-system's Introduction

人工智能系统

English

本课程的中文名称设定为 人工智能系统，主要讲解支持人工智能的计算机系统设计，对应的英文课程名称为 System for AI。本课程中将交替使用以下词汇：人工智能系统，AI-System 和 System for AI。

本课程为微软人工智能教育与共建社区中规划的人工智能相关教程之一，在A-基础教程模块下，课程编号和名称为 A6-人工智能系统。

欢迎访问微软人工智能教育与共建社区的A-基础教程模块访问更多相关内容。

人工智能系统课程设立背景

近年来人工智能特别是深度学习技术得到了飞速发展，这背后离不开计算机硬件和软件系统的不断进步。在可见的未来，人工智能技术的发展仍将依赖于计算机系统和人工智能相结合的共同创新模式。需要注意的是，计算机系统现在正以更大的规模和更高的复杂性来赋能于人工智能，这背后不仅需要更多的系统上的创新，更需要系统性的思维和方法论。与此同时，人工智能也反过来为设计复杂系统提供支持。

我们注意到，现在的大部分人工智能相关的课程，特别是深度学习和机器学习相关课程主要集中在相关理论、算法或者应用，与系统相关的课程并不多见。我们希望人工智能系统这门课能让人工智能相关教育变得更加全面和深入，以共同促进人工智能与系统交叉人才的培养。

人工智能系统课程设立目的

本课程主要为本科生高年级和研究生设计，帮助学生：

完整的了解支持深度学习的计算机系统架构，并通过实际的问题，来学习深度学习完整生命周期下的系统设计。
介绍前沿的系统和人工智能相结合的研究工作，包括AI for Systems和Systems for AI，以帮助高年级的本科生和研究生更好的寻找和定义有意义的研究问题。
从系统研究的角度出发设计实验课程。通过操作和应用主流和最新的框架、平台和工具来鼓励学生动手实现和优化系统模块，以提高解决实际问题的能力，而不仅仅是了解工具使用。

先修课程: C/C++/Python, 计算机体系结构，算法导论

人工智能系统课程的设计与特点

课程主要包括以下三大模块：

第一部分，是人工智能的基础知识和人工智能系统的全栈概述；以及深度学习系统的系统性设计和方法学。

第二部分，为高级课程，包括最前沿的系统和人工智能交叉的研究领域。

第三部分，是与之配套的实验课程，包括最主流的框架、平台和工具，以及一系列的实验项目。

第一部分的内容将集中在基础知识，而其他两部分的内容将随着学术界和工业界的技术进步而动态调整。后两部分的内容将以模块化的形式组织，以利于调整或与其他CS的课程（比如编译原理等）相结合，作为高级讲义或者实习项目。

本课程的设计也会借助微软亚洲研究院在人工智能和系统交叉领域的研究成果和经验，其中包括微软及研究院开发的一部分平台和工具。课程也鼓励其他学校和老师根据自己的需求添加和调整更多的高级课题，或者其他的实验。

人工智能系统课程大纲

课程部分

基础课程


课程编号	讲义名称	备注
1	课程介绍	课程概述和系统/AI基础
2	人工智能系统概述	人工智能系统发展历史，神经网络基础，人工智能系统基础
3	深度神经网络计算框架基础	反向传播和自动求导，张量，有向无环图，执行图论文和系统：PyTorch, TensorFlow
4	矩阵运算与计算机体系结构	矩阵运算，CPU/SIMD, GPGPU, ASIC/TPU 论文和系统：Blas, TPU
5	分布式训练算法	数据并行，模型并行，分布式SGD 论文和系统：PipeDream
6	分布式训练系统	MPI, parameter servers, all-reduce, RDMA 论文和系统: Horovod
7	异构计算集群调度与资源管理系统	集群上运行DNN任务：容器，资源分配，调度论文和系统：Kubeflow, OpenPAI, Gandiva
8	深度学习推导系统	效率，延迟，吞吐量，部署论文和系统：TensorRT, TensorFlowLite, ONNX

高阶课程


课程编号	讲义名称	备注
9	计算图的编译与优化	IR，子图模式匹配，矩阵乘和内存优化论文和系统：XLA, MLIR, TVM, NNFusion
10	神经网络的压缩与稀疏化优化	模型压缩，稀疏化，剪枝
11	自动机器学习系统	超参调优，神经网络结构搜索（NAS）论文和系统：Hyperband, SMAC, ENAX, AutoKeras, NNI
12	强化学习系统	RL理论，RL系统论文和系统：AC3, RLlib, AlphaZero
13	安全与隐私	联邦学习，安全，隐私论文和系统：DeepFake
14	利用人工智能来优化计算机系统	人工智能应用于传统系统问题，人工智能应用于系统算法论文和系统：流媒体系统, 数据库索引, 系统参数调优, 芯片设计, 预测性资源调度

实验部分

基础实验


实验编号	实验名称	备注
实验 1	框架及工具入门示例
实验 2	定制一个新的张量运算
实验 3	CUDA实现和优化
实验 4	AllReduce的实现或优化
实验 5	配置Container来进行云上训练或推理准备

高阶实验


实验 6	学习使用调度管理系统
实验 7	分布式训练任务练习
实验 8	自动机器学习系统练习
实验 9	强化学习系统练习

人工智能系统教材

《人工智能系统》教材为微软人工智能教育与共建社区中规划的人工智能相关教材之一。我们注意到，现在的大部分人工智能相关的教材，特别是深度学习和机器学习相关课程主要集中在相关理论、算法或者应用，与系统相关的教材并不多见。我们希望人工智能系统教材能让人工智能系统教育变得更加体系化和普适化，以共同促进人工智能与系统交叉人才的培养。

附录

<TBD>

Contributing

This project welcomes contributions and suggestions. Most contributions require you to agree to a Contributor License Agreement (CLA) declaring that you have the right to, and actually do, grant us the rights to use your contribution. For details, visit https://cla.opensource.microsoft.com.

When you submit a pull request, a CLA bot will automatically determine whether you need to provide a CLA and decorate the PR appropriately (e.g., status check, comment). Simply follow the instructions provided by the bot. You will only need to do this once across all repos using our CLA.

This project has adopted the Microsoft Open Source Code of Conduct. For more information see the Code of Conduct FAQ or contact [email protected] with any additional questions or comments.

Legal Notices

Microsoft and any contributors grant you a license to the Microsoft documentation and other content in this repository under the Creative Commons Attribution 4.0 International Public License, see the LICENSE file, and grant you a license to any code in the repository under the MIT License, see the LICENSE-CODE file.

Microsoft, Windows, Microsoft Azure and/or other Microsoft products and services referenced in the documentation may be either trademarks or registered trademarks of Microsoft in the United States and/or other countries. The licenses for this project do not grant you rights to use any Microsoft names, logos, or trademarks. Microsoft's general trademark guidelines can be found at https://go.microsoft.com/fwlink/?LinkID=254653.

Privacy information can be found at https://privacy.microsoft.com/en-us/

Microsoft and any contributors reserve all other rights, whether under their respective copyrights, patents, or trademarks, whether by implication, estoppel or otherwise.

ai-system's People

Contributors

Stargazers

Watchers

Forkers

hirajanwin biqar sycomix sshuair org-mars huaizhengzhang shiyi23 foeinlove xinyuwang1126 ponykid allensmile quanfang ycomputer zhangxiaochuan leo23 aluckydog0716 figosoar sibodiamond econben luweipeng romanbrickie zhuohenglv suryatmodulus huiyao351 xiezhq-hermann lambda7xx xiaotaochen jwang1993 jiangxugithub 2015-10-10 xiyudaolang mkulasi harshsingh32 xrosliang meicale dumpmemory global-localhost global19 global19-atlassian-net bahawk yanjiegao josephchenhub wyb2333 yuemingpan stonerlei babyyang525 yk112233 zns77 bahepingjunlv zchliu ultramarine-spec heisenberg-hub mo-guan jlxue zhengxuan-luan alpha-girl dinngger michaelxschen bingps mikechen66 ustc-ayuan blackdiamond1995 puzzling229 szaher haolin-nju wkcn codecason rincloud lzu-cvpr codingmice overwang rivendile bc-li burning846 zineos tianhaofu crishawy qpc-database distributed-deep-learning hwfan vzyknc wozaimalubian gaohuan2015 g-github-science deepindeed tsaoyu ewenwan yuanchongbit cjh0613 mahmoudzamani dao99 winter1pm dystudio devhaufior shuowang-ai pinging-zju yangfan255 mard1no tansixu stevenjokess

ai-system's Issues

lab 6,7,9

应该是对应到哪个章节的呢？能否合并到正文中？

add GammarRegressor

usually, only the training change, so it is just about using the same converter for a new model.

关于教材视频链接

想问下该教材有没有上课的视频资料链接呢？

textbook 13.2

13.2.4, 每行包括不多的字，没有形成整体段落，很难理解作者要表达什么。
13.2.3 GP, MPI, EI, UCB, 都是很好的展开知识点。即使假设读者都知道这些概念（我觉得可能性不大），也应该结合具体应用场景来讲解一下细节。书就是这么写的。

textbook 1.1

markdown文件

Line 27~36，第二层缩进后的，没有并列子内容，就可以取消前面的 bullet，比如 “- 谷歌、百度、..." -> "\t谷歌、百度、..."
Line49~58，不能即用 bullet 又用序号 (1)(2)(3)
图序号的标准写法是 ”图 1.1.1“
1.1.3，神经网络的基本理论在深度学习前已基本奠定，有点儿啰嗦，可以是”神经网络基本理论的奠定“
Line 70 - 90, 可以用 bullet缩进
line 92, 逗号改为顿号

部署 OpenPAI

老师，我在执行这条指令的时候出现了这样的错误，请问一下该怎样解决？

New contents 补充in chapter 2

Dear Xiaowu哥，当前transformer, MOE and Pathways系列模型越来越重要，可否帮补一章这类模型结构？与CNN和RNN并列
https://github.com/microsoft/AI-System/tree/main/Textbook/%E7%AC%AC2%E7%AB%A0-%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E5%9F%BA%E7%A1%80

An Error by Lecture 3 - Computation frameworks for DNN

In page 19 by calculation of the gradient of L(x), there is probably an error in the second part for sin(exp(x)+exp(x)^2

Should the gradient be cos(exp(x)+exp(x)^2)(exp(x)+2exp(x)^2), i.e. there is one unnecessary exp in the answer?

Thanks

textbook 11

11.1 模型压缩，能不能实现一个简单的算法，把一个现成的模型压缩后看看前后比对的inference效果 ? 如果training过程比较难的话就写个Inference的。数据量化，稀疏化，知识蒸馏，轻量化，张量分解，随便选一个当例子。
不要有四级目录 a.b.c.d，最多只能三级，用 xxxxx 表示四级。
图11-1-1这种，点和文字重合在一起，不仔细看都看不出来，图上也没有网格。需要保证类似图的质量。

textbook 8.4

参考文献，太长

questions on lab6

Dear teachers, we have problems doing our homework-lab6, we are now stuck in one step, the problem is shown in the picture, could you please help us?thanks a lot！

术语格式与引用链接（in Chapter 安全与隐私）

Hello Xian，请参考术语格式将英文首字母大写，引用工作由于markdown比较方便加链接，可以都加上可以点进去的链接哈。

例如

textbook 1.2

line 20, 开头加回车
表 1-2-1，标准写法是表 1.2.1，并且应该放在表的上方
line 96-106，二级缩进时，不需要bullet
line 115, 10的8次方倍，直接写成 $10^8$倍
图 1.2.3 中的右上侧的蜻蜓、老鼠、人脑，没有解释其含义。V100 上有个 3？
line 131,137, 为何与 line 57,75,90 不一致？

Issues in chapter 6

请移除保持章节一致性

openpai 1.2 报错”No worker node is detected.“

在执行bash quick-start-service.sh -m ~/master.csv -w ~/worker.csv -c ~/config.yaml报错”No worker node is detected.“，查询发现错误在执行/contrib/kubespray/script/openpai-generator.py (line 304)脚本时出现。请问是否有解决方法。

Issues in Chapter 2

Update chapter 2 outline in main README.md outline #71

https://github.com/microsoft/AI-System/tree/main/Textbook/%E7%AC%AC2%E7%AB%A0-%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E5%9F%BA%E7%A1%80

Micr2

2021_USTC_JointPhD - 人工智能系统实践 - 成果提交

本 issue 将作为2021_USTC_JointPhD-人工智能系统实践项目成果的提交地址
项目截止日期： 5月26日
请在北京时间2021年5月27日17点前，在本issue下提交你的成果。

提交步骤：

创建公共仓库
请各位同学使用个人的Github账户创建名为MSRA-USTC-AISystemProject-2021的公开仓库
上传成果
请各位同学按以下目录结构，将个人成果进行整理，删去个人隐私信息，并上传至第一步中创建的公开仓库中

# 实验1
|-- lab 1
    # 图片均放在images目录下
    |-- images
        |-- image1.png
        |-- image2.jpg
    # 代码均放在src目录下
    |-- src
        |-- code1.py
        |-- code2.ipynb
    # 其他文件均放在resources目录下
    |-- resources
    # 请在README.md中放置各个文件的内容说明，你的实验流程和成果展示
    |-- README.md
# 实验6
|-- lab 6
    |-- ...

提交成果
按以下内容格式回复本issue，请注意保护个人隐私

1. 报名时提供的邮件地址: yourmail[at]your.domain
2. 个人仓库地址: https://github.com/yourname/yourrepositories
3. 补充信息(可选)

有其他疑问的地方请随时与助教联系

textbook 8.3

8.3.5 是否可以考虑放到8.7去，叫做“8.7 - 实验”
图 8.3.6 看起来很模糊，可能需要重绘
参考文献 7625 字，太长

textbook 6

表6-5-1，横向不够的话改成纵向，否则无法印刷
表6-3-1，表头不需要用 ** 加黑，它自黑。该表格的内容最好居中或者右对齐。
并行算法，有对应的 lab 吗？没有的话是否可以简单实现一个来加以说明？

textbook 10

章节序号错误

Issues in chapter 5

2 英文大小写似乎和前面不一致

figure broken link in 12.3

https://github.com/microsoft/AI-System/blob/main/Textbook/%E7%AC%AC12%E7%AB%A0-%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E5%AE%89%E5%85%A8%E4%B8%8E%E9%9A%90%E7%A7%81/img/2/12-2-4-fed.png

https://github.com/microsoft/AI-System/blob/main/Textbook/%E7%AC%AC12%E7%AB%A0-%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E5%AE%89%E5%85%A8%E4%B8%8E%E9%9A%90%E7%A7%81/12.3-%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E6%9C%8D%E5%8A%A1%E5%AE%89%E5%85%A8%E4%B8%8E%E9%9A%90%E7%A7%81%EF%BC%88Placeholder%EF%BC%89.md

basiclab lab1 mnist_tensorboard.py have some problems

my environment : CUDAtoolkit 10.0 pytorch 1.5.0 tensorflow 1.15.0
when i run python mnist_tensorboard.py , some error happened:

2021-03-21 20:15:01.978418: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] Successfully opened dynamic library cudart64_100.dll
2021-03-21 20:15:04.781186: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] Successfully opened dynamic library cudart64_100.dll
Input type (torch.FloatTensor) and weight type (torch.cuda.FloatTensor) should be the same
Error occurs, No graph saved
Traceback (most recent call last):
  File "mnist_tensorboard.py", line 199, in <module>
    main()
  File "mnist_tensorboard.py", line 182, in main
    writer.add_graph(model, images)
  File "D:\Program_Files\Anaconda3\envs\ai-system-learn\lib\site-packages\torch\utils\tensorboard\writer.py", line 707, in add_graph
    self._get_file_writer().add_graph(graph(model, input_to_model, verbose))
  File "D:\Program_Files\Anaconda3\envs\ai-system-learn\lib\site-packages\torch\utils\tensorboard\_pytorch_graph.py", line 291, in graph
    raise e
  File "D:\Program_Files\Anaconda3\envs\ai-system-learn\lib\site-packages\torch\utils\tensorboard\_pytorch_graph.py", line 285, in graph
    trace = torch.jit.trace(model, args)
  File "D:\Program_Files\Anaconda3\envs\ai-system-learn\lib\site-packages\torch\jit\__init__.py", line 875, in trace
    check_tolerance, _force_outplace, _module_class)
  File "D:\Program_Files\Anaconda3\envs\ai-system-learn\lib\site-packages\torch\jit\__init__.py", line 1027, in trace_module
    module._c._create_method_from_trace(method_name, func, example_inputs, var_lookup_fn, _force_outplace)
  File "D:\Program_Files\Anaconda3\envs\ai-system-learn\lib\site-packages\torch\nn\modules\module.py", line 548, in __call__
    result = self._slow_forward(*input, **kwargs)
  File "D:\Program_Files\Anaconda3\envs\ai-system-learn\lib\site-packages\torch\nn\modules\module.py", line 534, in _slow_forward
    result = self.forward(*input, **kwargs)
  File "mnist_tensorboard.py", line 61, in forward
    x = self.conv1(x)
  File "D:\Program_Files\Anaconda3\envs\ai-system-learn\lib\site-packages\torch\nn\modules\module.py", line 548, in __call__
    result = self._slow_forward(*input, **kwargs)
  File "D:\Program_Files\Anaconda3\envs\ai-system-learn\lib\site-packages\torch\nn\modules\module.py", line 534, in _slow_forward
    result = self.forward(*input, **kwargs)
  File "D:\Program_Files\Anaconda3\envs\ai-system-learn\lib\site-packages\torch\nn\modules\conv.py", line 349, in forward
    return self._conv_forward(input, self.weight)
  File "D:\Program_Files\Anaconda3\envs\ai-system-learn\lib\site-packages\torch\nn\modules\conv.py", line 346, in _conv_forward
    self.padding, self.dilation, self.groups)
RuntimeError: Input type (torch.FloatTensor) and weight type (torch.cuda.FloatTensor) should be the same

I think there are something wrong with tensorboard. How can I fix this?

textbook 8.1

正文6000字，参考文献4000字，比例失衡，缩短后者

Issues in chapter 12

2 Please add all the concepts (中文（英文）) in 术语表.md

制作了教材的PDF

欢迎大家使用~
https://drive.google.com/file/d/1093AWlr7w1kf0BYvj8eTXcD06En8UKNG/view?usp=sharing

textbook 9

自动化机器学习，是我们做过的NNI吗？我看到了 lab 8, 将来这个lab 8 会印到书里吗？如果不会，建议把lab 8的内容添加到第9章中以丰满之。

textbook 10

以图10.1.1举例，这里没有a,s,r的符号，读者无法和后面的解释对应起来
10.1.2 的Gt公式是可以有展开形式的，如果写出来会更容易理解
$\gamma$ 我记得是 (0,1], 不是 [0,1)
$\pi (a|s)=p(a_t=a|s_t=s)$ 这类的公式（我认为的）标准写法是 $\pi (a|s)=p(A_t=a|S_t=s)$
10.1 参考文献内容太长，与正文不成比例
10.1.2 可能需要一个三个圆叠加的图来展示三者的关系
10.1.1 和 10.1.2 请放在一个md文件中
10.2.2 中为什么会有四级索引序号的图？比如图10.2.2.1，可以改成 10.2.1
10.2.2 和 10.2.3 可以考虑合并为 10.3，这样篇幅和内容上都可以和 10.2.1（变成10.2）来匹配

textbook 12

图变形了，不用设置 width, height
12.1 差分隐私SGD算法，可不可以给个具体的数据例子来写一段代码跑一下？
12.2.1 数据隐私保护，能不能做一个简单的prototype，写代码来实现并说明一下？
12.2.2 模型隐私保护，能不能实现一个简单的水印技术来说明？

部署OpenPai遇到问题

老师，您好。我们在部署openpai的过程的第二步部署部署 Kubernetes的过程中，运行sudo bash quick-start-kubespray.sh -m ~/master.csv -w ~/worker.csv -c ~/config.yaml后master与worker机器出现了源冲突的问题，如下图。

请教您该如何解决？

MSRA-USTC Practice Project Discussion

Welcome to discuss about the practice projects here!

Issues in chapter 13

参考章节

Issues in chapter 11

Hi Shijie,
Repo中我们不维护slides，请删除，并放入teams folders

README.md中，关于“A-基础教程”的超链接失效

README.md中，关于“A-基础教程”的超链接失效。

看起来应该是：

https://github.com/microsoft/ai-edu/tree/master/%E5%9F%BA%E7%A1%80%E6%95%99%E7%A8%8B

openpai k8s error

Starting kubernetes...
setup k8s cluster

PLAY [localhost] *******************************************************************************************************************************************************************************************
[WARNING]: Could not match supplied host pattern, ignoring: bastion

PLAY [bastion[0]] ******************************************************************************************************************************************************************************************
skipping: no hosts matched

PLAY [k8s-cluster:etcd] ************************************************************************************************************************************************************************************
included: /home/openpai/pai-deploy/kubespray/roles/bootstrap-os/tasks/bootstrap-debian.yml for stu-276, iair279, stu-282

TASK [kubernetes/preinstall : Stop if access_ip is not pingable] *******************************************************************************************************************************************
changed: [iair279]
changed: [stu-276]
changed: [stu-282]
included: /home/openpai/pai-deploy/kubespray/roles/container-engine/docker/tasks/set_facts_dns.yml for stu-276, iair279, stu-282
[WARNING]: flush_handlers task does not support when conditional

TASK [download : prep_download | Create staging directory on remote node] **********************************************************************************************************************************
changed: [stu-276]
changed: [iair279]
changed: [stu-282]
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/prep_kubeadm_images.yml for stu-276
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/download_file.yml for stu-276

TASK [download : download_file | Create dest directory on node] ********************************************************************************************************************************************
changed: [stu-276]
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/extract_file.yml for stu-276
[WARNING]: noop task does not support when conditional
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/download_container.yml for stu-276
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/download_file.yml for stu-276, iair279, stu-282
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/download_file.yml for stu-276, iair279, stu-282
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/download_file.yml for stu-276, iair279, stu-282
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/download_file.yml for stu-276, iair279, stu-282
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/download_container.yml for stu-276, iair279, stu-282
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/download_container.yml for stu-276, iair279, stu-282
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/download_container.yml for stu-276, iair279, stu-282
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/download_container.yml for stu-276, iair279, stu-282
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/download_container.yml for stu-276, iair279, stu-282
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/download_container.yml for stu-276
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/download_container.yml for stu-276
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/download_container.yml for stu-276, iair279, stu-282
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/download_container.yml for stu-276, iair279, stu-282
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/download_container.yml for stu-276, iair279, stu-282
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/download_container.yml for stu-276, iair279, stu-282
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/download_container.yml for stu-276, iair279, stu-282
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/download_container.yml for stu-276, iair279, stu-282
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/set_docker_image_facts.yml for stu-276
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/check_pull_required.yml for stu-276

TASK [download : download_container | Download image if required] ******************************************************************************************************************************************
changed: [stu-276 -> 192.168.1.187]
changed: [iair279 -> 192.168.1.187]
changed: [stu-282 -> 192.168.1.187]
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/set_docker_image_facts.yml for stu-276, iair279, stu-282
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/check_pull_required.yml for stu-276, iair279, stu-282

TASK [download : download_container | Download image if required] ******************************************************************************************************************************************
changed: [stu-276 -> 192.168.1.187]
changed: [stu-282 -> 192.168.1.187]
changed: [iair279 -> 192.168.1.187]
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/set_docker_image_facts.yml for stu-276, iair279, stu-282
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/check_pull_required.yml for stu-276, iair279, stu-282

TASK [download : download_container | Download image if required] ******************************************************************************************************************************************
changed: [iair279 -> 192.168.1.187]
changed: [stu-276 -> 192.168.1.187]
changed: [stu-282 -> 192.168.1.187]
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/set_docker_image_facts.yml for stu-276
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/check_pull_required.yml for stu-276

TASK [download : download_container | Download image if required] ******************************************************************************************************************************************
changed: [stu-276 -> 192.168.1.187]
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/set_docker_image_facts.yml for stu-276
included: /home/openpai/pai-deploy/kubespray/roles/download/tasks/check_pull_required.yml for stu-276
FAILED - RETRYING: download_container | Download image if required (4 retries left).
FAILED - RETRYING: download_container | Download image if required (3 retries left).
FAILED - RETRYING: download_container | Download image if required (2 retries left).
FAILED - RETRYING: download_container | Download image if required (1 retries left).

TASK [download : download_container | Download image if required] ******************************************************************************************************************************************
fatal: [stu-276 -> 192.168.1.187]: FAILED! => {"attempts": 4, "changed": true, "cmd": ["/usr/bin/docker", "pull", "k8s.gcr.io/cluster-proportional-autoscaler-amd64:1.6.0"], "delta": "0:00:15.027078", "end": "2021-05-11 19:29:07.932611", "msg": "non-zero return code", "rc": 1, "start": "2021-05-11 19:28:52.905533", "stderr": "Error response from daemon: Get https://k8s.gcr.io/v2/: net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)", "stderr_lines": ["Error response from daemon: Get https://k8s.gcr.io/v2/: net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)"], "stdout": "", "stdout_lines": []}

NO MORE HOSTS LEFT *****************************************************************************************************************************************************************************************

PLAY RECAP *************************************************************************************************************************************************************************************************
iair279 : ok=204 changed=7 unreachable=0 failed=0 skipped=192 rescued=0 ignored=0
localhost : ok=1 changed=0 unreachable=0 failed=0 skipped=0 rescued=0 ignored=0
stu-276 : ok=295 changed=8 unreachable=0 failed=1 skipped=258 rescued=0 ignored=0
stu-282 : ok=204 changed=7 unreachable=0 failed=0 skipped=192 rescued=0 ignored=0

textbook 3 and 4

个人感觉第3章和第4章可以合并（从内容连贯性上看）。另外一个理由就是这两章内容都比较少。

Content in Security

Dear Xian and Peichen,

我们可以在安全章节添加总览内容并展开到各章吗？例如课程中这两张图分别放入内容。统揽全局

Lack part of contents at chapter 2

Dear Xiaowu哥,

Seems Chapter 2 lacks some content below. Will add it in the later version?

2.2 深度学习系统基础
2.2.1 深度学习运算的表示
2.2.2 编译框架与中间表达
2.2.3 运行态和硬件
2.2.4 分布式执行
2.2.5 深度学习系统性能优化

请问教材是还在写作当中吗？

您好！我看见Textbook目录下缺少一些章节的内容。请问本课程的教材是还在写作当中吗？以及本课程是否有配套的视频可以观看呢？

video recording of the course

Thanks for your great work. Is there an open video recording of the course? If so, could you share the link?

textbook 1.4

mistakes in textbook 3.1-基于数据流图的深度学习框架

这里表述有误 tensorflow应该是声明式 Chainer和PyTroch是命令式这里写反了

这里举例的文字和给出的示例不匹配

或许我可以开个PR来订正吗？

Make RL to chapter 10 and add readme link

https://github.com/microsoft/AI-System/tree/main/Textbook/%E7%AC%AC13%E7%AB%A0-%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E7%B3%BB%E7%BB%9F

title update ? 安全与隐私章节

原则一致性和简洁

服务-> 推理，减少问题词出现次数

2 标题修改
原始
12. 人工智能安全与隐私
12.1 人工智能内在安全与隐私
12.1.1 深度神经网络的内在安全问题
12.1.2 深度神经网络的内在隐私问题
12.2 人工智能训练安全与隐私
12.2.1 深度学习训练时的安全问题
12.2.2 深度学习训练时的隐私问题
12.2.3 联邦学习及其训练时的隐私问题
12.3 人工智能服务安全与隐私
12.3.1 深度学习服务时的安全问题
12.3.2 深度学习服务时的用户隐私问题
12.3.3 深度学习服务时的模型隐私问题

新
12. 人工智能安全与隐私
12.1 人工智能内在安全与隐私
12.1.1 深度神经网络的安全问题
12.1.2 深度神经网络的隐私问题
12.2 人工智能训练安全与隐私
12.2.1 训练系统安全
12.2.2 训练系统隐私
12.2.3 联邦学习隐私
12.3 人工智能推理安全与隐私
12.3.1 推理系统安全
12.3.2 推理系统用户隐私
12.3.3 推理系统隐私