jasonwayne / deep-learning-wiki Goto Github PK

View Code? Open in Web Editor NEW

0.0 1.0 0.0 1 KB

personal wiki for deep learning

deep-learning-wiki's Introduction

deep-learning-wiki

personal wiki for deep learning

deep-learning-wiki's People

Contributors

Watchers

deep-learning-wiki's Issues

Seq2Seq

一句话

Reference

向量搜索

一句话

Reference

https://juejin.im/entry/5b91f8075188255c80664191
https://yongyuan.name/blog/vector-ann-search.html
https://milvus.io/

Likelihood

一句话

已知事实，列出表达各个参数下，事实发生的概率，借以求参数的数值。

与Probability的区别

Probability：用已知的（影响实验结果的）参数作出（能够预测实验结果的）函数，藉以预测实验的结果。概率是给定某一参数值，求某一结果的可能性的函数。

Likelihood：用已知的（实验）数据作出（影响实验结果的）参数的函数，藉以求取参数的数值。
似然是给定某一结果，求某一参数值的可能性的函数。

例如，抛一枚匀质硬币，抛10次，6次正面向上的可能性多大？

解读：“匀质硬币”，表明参数值是0.5，“抛10次，六次正面向上”这是一个结果，
概率（probability)是求这一结果的可能性。

例如，抛一枚硬币，抛10次，结果是6次正面向上，其是匀质的可能性多大？
解读：“抛10次，结果是6次正面向上”，这是一个给定的结果，问“匀质”的可能性，即求参数值=0.5的可能性。

Reference

https://www.zhihu.com/question/50828855

Beta分布

一句话

概率的概率分布，一般被用于建模伯努利试验事件成功的概率的概率分布。

alpha = 伯努利试验成功的次数(k)+先验成功次数（ alpha* ）

beta = 伯努利试验失败的次数(n - k)+先验失败次数（ beta*）

Reference

https://www.zhihu.com/question/30269898
https://zhuanlan.zhihu.com/p/69606875
https://blog.csdn.net/watkinsong/article/details/46348853

Karush–Kuhn–Tucker conditions

一句话

KKT条件是非线性规划(nonlinear programming)最佳解的必要条件。

Reference

swish

一句话

Reference

Gibbs采样

一句话

Reference

Group Convolution

一句话

分组卷积，将输入的feature map分成组，将每个卷积核也相应的分成组，在对应的组内做卷积。设组数为g，输入的channel数为c，则g=1就是普通卷积，g=c时就是深度可分离卷积。

Reference

https://www.jianshu.com/p/a936b7bc54e3

ResNet

一句话

Reference

ResNet及其变种的结构梳理、有效性分析与代码解读

squeeze-and-excitation

一句话

Reference

self-attention

一句话

Reference

Q1: self-attention为什么叫self-attention?

Kendall's tau

一句话

判断两个有序分类变量是否相关，支持三种情况：

两个有序分类变量
两个连续变量
一个有序分类，一个连续变量

Kendall's tau的独特能力在于可以对有序分类变量进行相关性的判断。

Reference

https://www.youtube.com/watch?v=oXVxaSoY94k
https://www.mediecogroup.com/method_article_detail/171/

Higgs DataSet

一句话

经典机器学习分类数据集

Reference

https://archive.ics.uci.edu/ml/datasets/HIGGS

Perplexity

一句话

困惑度，语言模型的评估指标，越低越好。

Reference

Volta架构

一句话

V100系列的架构

Reference

https://images.nvidia.com/content/volta-architecture/pdf/volta-architecture-whitepaper.pdf

IPoIB

一句话

Reference

Transformer

一句话

Reference

http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2019/Lecture/Transformer%20(v5).pdf

Jacobian matrix

一句话

Reference

Likelihood function

一句话

用带参数的式子表达事实发生的可能性

Reference

量化

一句话

在本质上，量化是对浮点值进行仿射变换（affine transformation），从而拟合 8 位整型的（int8）bucket

Reference

https://www.jiqizhixin.com/articles/2020-03-17-15

coefficient of determination

一句话

决定系数，计算方法是1 - 残差平方和 / 方差

Reference

Attention

一句话

为了解决LSTM中，所有context被编码到了一个context vector，这个context能力受限的问题。

Reference

https://zhuanlan.zhihu.com/p/78850152
https://web.stanford.edu/class/cs224n/slides/cs224n-2019-lecture08-nmt.pdf

line search

一句话

又叫backtracking line search，**就是找到一个真正下降的合适step size才进行梯度更新。不用line search的原因应该是

搜索step size的额外开销；
SGD的泛化性应该更好（不容易陷入太差的局部最优）；
会引入额外需要调的超参数；

Reference

https://www.geek-share.com/detail/2630872580.html
https://math.stackexchange.com/questions/2820729/why-not-multiple-steps-in-the-direction-of-one-gradient

仿射变换

一句话

仿射变换就是：“线性变换”+“平移”

线性变换从几何直观有三个要点：

变换前是直线的，变换后依然是直线
直线比例保持不变
变换前是原点的，变换后依然是原点

Reference

https://zh.wikipedia.org/wiki/%E4%BB%BF%E5%B0%84%E5%8F%98%E6%8D%A2
https://www.zhihu.com/question/20666664

Pearson相关系数

一句话

适用对两个线性相关，没有明显异常值，且各自符合正态分布的变量进行相关性分析。

Reference

https://www.mediecogroup.com/method_article_detail/42/

Spearman's rho

一句话

Spearman相关系数适用于判断两个非正态分布（或者有不能剔除的异常值）的连续变量之间的相关关系。

计算方法是先对变量排序后，以排行差分来进行计算，因此可以屏蔽异常值、分布的影响。

其他相关系数见#36 #37 #38

Reference

https://www.youtube.com/watch?v=V4MgE43SrgM
https://www.mediecogroup.com/method_article_detail/60/

GraphSAGE

一句话

Reference

Torch Scripts

一句话

Reference

Upsampling

一句话

Reference

https://zhuanlan.zhihu.com/p/34987599

tmux

一句话

Reference

https://blog.csdn.net/xiaochonghao/article/details/69397564

affine transformation

一句话

Reference

Gradient Accumulation

一句话

计算多个Batch的梯度以后，再做一次更新。
通常用于GPU显存不够，但需要大Batchsize训练的场景。
但会有BN层更新的问题。

Reference

https://towardsdatascience.com/what-is-gradient-accumulation-in-deep-learning-ec034122cfa
https://medium.com/huggingface/training-larger-batches-practical-tips-on-1-gpu-multi-gpu-distributed-setups-ec88c3e51255

off-policy

一句话

强化学习中的一种类型

Reference

Markov Chain Monte Carlo

一句话

马尔科夫链蒙特卡罗（Markov Chain Monte Carlo，以下简称MCMC）

Reference

https://zhuanlan.zhihu.com/p/37121528
https://www.cnblogs.com/pinard/p/6625739.html

MPS

一句话

NVIDIA提供的让多个进程更好地共同使用同一块GPU的工具。

示例

https://stackoverflow.com/questions/34709749/how-do-i-use-nvidia-multi-process-service-mps-to-run-multiple-non-mpi-cuda-app

Reference

https://www.nvidia.cn/content/dam/en-zz/zh_cn/assets/webinars/31oct2019c/20191031_MPS_davidwu.pdf
https://docs.nvidia.com/deploy/pdf/CUDA_Multi_Process_Service_Overview.pdf
https://docs.nvidia.com/deploy/mps/index.html

https://www.cnblogs.com/xingzifei/p/6136095.html
https://docs.nvidia.com/deploy/pdf/CUDA_Multi_Process_Service_Overview.pdf

XLA

一句话

XLA (Accelerated Linear Algebra) is a domain-specific compiler for linear algebra that optimizes TensorFlow computations.

Reference

Kullback–Leibler divergence

一句话

K-L divergence, KL divergence， K-L散度, KL散度。

Reference

https://www.jianshu.com/p/43318a3dc715

SVHN

一句话

The Street View House Numbers (SVHN) Dataset

街景数字识别数据集

Reference

http://ufldl.stanford.edu/housenumbers/

Noise Contrastive Estimation

一句话

Reference

nvvp

一句话

nvidia提供的profile工具

Reference

https://www.sie.es/wp-content/uploads/2015/12/cuda-profiling-tools.pdf

Gremlin

一句话

一种图引擎查询语言。

Reference

Contrastive loss

一句话

通过学习，使得：同类样本距离为0，不同类样本距离大于m。

Reference

https://zhuanlan.zhihu.com/p/93917636
https://zhuanlan.zhihu.com/p/82199561
https://gombru.github.io/2019/04/03/ranking_loss/

Python Decorator

一句话

Python语法糖，装饰器。用来完成面向切面编程。

内置的有三个decorator：
classmethod
staticmethod
property：对应java的getter，setter方法，用来隐藏私有变量，达到只读效果；以及在设置值时增加判断条件等。

Reference

https://www.zhihu.com/question/26930016

Property：https://zhuanlan.zhihu.com/p/64487092, https://www.liaoxuefeng.com/wiki/897692888725344/923030547069856

mixup

一句话

将两个Batch的图片根据Beta分布来求加权平均来混合后训练，详见JasonWayne/deep-learning-essay#82

Reference

Pascal架构

一句话

P100的架构

Reference

https://images.nvidia.com/content/pdf/tesla/whitepaper/pascal-architecture-whitepaper.pdf

Depthwise separable Convolution

一句话

深度可分离卷积，每个channel对应各自的特征图。相当于组卷积的特例。

Reference

https://www.jianshu.com/p/a936b7bc54e3

Triplet Loss

一句话

通过学习，使得类间的距离大于类内的距离。

Reference

cuda occupancy

一句话

Occupancy = Active Warps / Maximum Active Warps
cuda的利用率(utility)和占用率(occupancy)

Reference

RELU6

一句话

其他

帮助量化

将 swish 激活函数替换为「约束范围的」激活函数（relu6），因为后者将输出范围限制在 [0, 6]。做出此改变后，量化模型在 ImageNet 数据集上的 Top-1 准确度由之前的 46% 回升至 74.4%。

https://www.jiqizhixin.com/articles/2020-03-17-15

Reference

nvcc

一句话

nvcc是编译cuda程序的编译器

Reference

https://blog.csdn.net/fb_help/article/details/79283032
https://docs.nvidia.com/cuda/cuda-compiler-driver-nvcc/index.html