personal wiki for deep learning
jasonwayne / deep-learning-wiki Goto Github PK
View Code? Open in Web Editor NEWpersonal wiki for deep learning
personal wiki for deep learning
已知事实,列出表达各个参数下,事实发生的概率,借以求参数的数值。
Probability:用已知的(影响实验结果的)参数作出(能够预测实验结果的)函数,藉以预测实验的结果。 概率是给定某一参数值,求某一结果的可能性的函数。
Likelihood:用已知的(实验)数据作出(影响实验结果的)参数的函数,藉以求取参数的数值。
似然是给定某一结果,求某一参数值的可能性的函数。
例如,抛一枚匀质硬币,抛10次,6次正面向上的可能性多大?
解读:“匀质硬币”,表明参数值是0.5,“抛10次,六次正面向上”这是一个结果,
概率(probability)是求这一结果的可能性。
例如,抛一枚硬币,抛10次,结果是6次正面向上,其是匀质的可能性多大?
解读:“抛10次,结果是6次正面向上”,这是一个给定的结果,问“匀质”的可能性,即求参数值=0.5的可能性。
概率的概率分布,一般被用于建模伯努利试验事件成功的概率的概率分布。
alpha = 伯努利试验成功的次数(k)+先验成功次数( alpha* )
beta = 伯努利试验失败的次数(n - k)+先验失败次数( beta*)
https://www.zhihu.com/question/30269898
https://zhuanlan.zhihu.com/p/69606875
https://blog.csdn.net/watkinsong/article/details/46348853
KKT条件是非线性规划(nonlinear programming)最佳解的必要条件。
分组卷积,将输入的feature map分成组,将每个卷积核也相应的分成组,在对应的组内做卷积。设组数为g
,输入的channel数为c
,则g=1
就是普通卷积,g=c
时就是深度可分离卷积。
ResNet及其变种的结构梳理、有效性分析与代码解读
判断两个有序分类变量是否相关,支持三种情况:
Kendall's tau的独特能力在于可以对有序分类变量进行相关性的判断。
https://www.youtube.com/watch?v=oXVxaSoY94k
https://www.mediecogroup.com/method_article_detail/171/
困惑度,语言模型的评估指标,越低越好。
V100系列的架构
https://images.nvidia.com/content/volta-architecture/pdf/volta-architecture-whitepaper.pdf
用带参数的式子表达事实发生的可能性
在本质上,量化是对浮点值进行仿射变换(affine transformation),从而拟合 8 位整型的(int8)bucket
决定系数,计算方法是1 - 残差平方和 / 方差
为了解决LSTM中,所有context被编码到了一个context vector,这个context能力受限的问题。
https://zhuanlan.zhihu.com/p/78850152
https://web.stanford.edu/class/cs224n/slides/cs224n-2019-lecture08-nmt.pdf
又叫backtracking line search,**就是找到一个真正下降的合适step size才进行梯度更新。不用line search的原因应该是
https://www.geek-share.com/detail/2630872580.html
https://math.stackexchange.com/questions/2820729/why-not-multiple-steps-in-the-direction-of-one-gradient
仿射变换就是:“线性变换”+“平移”
线性变换从几何直观有三个要点:
https://zh.wikipedia.org/wiki/%E4%BB%BF%E5%B0%84%E5%8F%98%E6%8D%A2
https://www.zhihu.com/question/20666664
适用对两个线性相关,没有明显异常值,且各自符合正态分布的变量进行相关性分析。
Spearman相关系数适用于判断两个非正态分布(或者有不能剔除的异常值)的连续变量之间的相关关系。
计算方法是先对变量排序后,以排行差分来进行计算,因此可以屏蔽异常值、分布的影响。
https://www.youtube.com/watch?v=V4MgE43SrgM
https://www.mediecogroup.com/method_article_detail/60/
计算多个Batch的梯度以后,再做一次更新。
通常用于GPU显存不够,但需要大Batchsize训练的场景。
但会有BN层更新的问题。
https://towardsdatascience.com/what-is-gradient-accumulation-in-deep-learning-ec034122cfa
https://medium.com/huggingface/training-larger-batches-practical-tips-on-1-gpu-multi-gpu-distributed-setups-ec88c3e51255
强化学习中的一种类型
马尔科夫链蒙特卡罗(Markov Chain Monte Carlo,以下简称MCMC)
https://zhuanlan.zhihu.com/p/37121528
https://www.cnblogs.com/pinard/p/6625739.html
NVIDIA提供的让多个进程更好地共同使用同一块GPU的工具。
https://www.nvidia.cn/content/dam/en-zz/zh_cn/assets/webinars/31oct2019c/20191031_MPS_davidwu.pdf
https://docs.nvidia.com/deploy/pdf/CUDA_Multi_Process_Service_Overview.pdf
https://docs.nvidia.com/deploy/mps/index.html
https://www.cnblogs.com/xingzifei/p/6136095.html
https://docs.nvidia.com/deploy/pdf/CUDA_Multi_Process_Service_Overview.pdf
XLA (Accelerated Linear Algebra) is a domain-specific compiler for linear algebra that optimizes TensorFlow computations.
The Street View House Numbers (SVHN) Dataset
街景数字识别数据集
nvidia提供的profile工具
https://www.sie.es/wp-content/uploads/2015/12/cuda-profiling-tools.pdf
一种图引擎查询语言。
通过学习,使得:同类样本距离为0,不同类样本距离大于m。
https://zhuanlan.zhihu.com/p/93917636
https://zhuanlan.zhihu.com/p/82199561
https://gombru.github.io/2019/04/03/ranking_loss/
Python语法糖,装饰器。用来完成面向切面编程。
内置的有三个decorator:
classmethod
staticmethod
property: 对应java的getter,setter方法,用来隐藏私有变量,达到只读效果;以及在设置值时增加判断条件等。
https://www.zhihu.com/question/26930016
Property:https://zhuanlan.zhihu.com/p/64487092, https://www.liaoxuefeng.com/wiki/897692888725344/923030547069856
通过学习,使得类间的距离大于类内的距离。
Occupancy = Active Warps / Maximum Active Warps
cuda的利用率(utility)和占用率(occupancy)
将 swish 激活函数替换为「约束范围的」激活函数(relu6),因为后者将输出范围限制在 [0, 6]。做出此改变后,量化模型在 ImageNet 数据集上的 Top-1 准确度由之前的 46% 回升至 74.4%。
https://www.jiqizhixin.com/articles/2020-03-17-15
nvcc是编译cuda程序的编译器
https://blog.csdn.net/fb_help/article/details/79283032
https://docs.nvidia.com/cuda/cuda-compiler-driver-nvcc/index.html
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.