Light

mil-tokyo / webdnn Goto Github PK

View Code? Open in Web Editor NEW

2.0K 61.0 147.0 25.7 MB

The Fastest DNN Running Framework on Web Browser

Home Page: https://mil-tokyo.github.io/webdnn

License: Other

TypeScript 70.89% HTML 1.93% JavaScript 4.78% Python 19.33% C++ 1.52% GLSL 1.54%

deep-neural-networks accelerate optimization javascript webgpu

webdnn's Introduction

WebDNN

This is the alpha version of WebDNN version 2. The main difference between WebDNN 1.x and WebDNN 2.x is that WebDNN 2.x only accepts ONNX models as input, allowing ONNX models to be loaded directly into a web browser without Python preprocessing. In addition, offline model optimization is also possible.

Supported backends (acceleration technologies)

WebGL is available in most modern browsers.

WebGPU
- The draft version implemented in Chrome Canary.
- The WebGPU in iOS13 is not supported because it requires shaders based on the deprecated WSL language.
WebGL
- Use WebGL2 if available; also supports Safari, which only supports WebGL1.
WebAssembly

Environment setting

The environment which runs node.js 14, python 3.6+ and emscripten 2.0+.

yarn
python setup.py develop

Build

yarn build:all

Build outputs:

dist/webdnn.js
- Library that can load unoptimized ONNX models
dist/webdnn-core.js
- Library that can load optimized ONNX models by WebDNN

Basic usage

Load dist/webdnn.js with the <script> tag to globally add a WebDNN object. Assuming that the ONNX model model_directory/model.onnx exists, and run the model with a input tensor of the shape [1, 2].

const runner = await WebDNN.load("model_directory/");
const inputDataArray = new Float32Array([5.1, -2.3]);
const inputTensor = new WebDNN.CPUTensor([1, 2], "float32", inputDataArray);
const [outputTensor] = await runner.run([inputTensor]);

console.log(outputTensor.data);  // Float32Array

See example/minimum for the complete minimal code that works.

Test

Generate ONNX models and input/output tensors to be tested

python test/model_test/make_models.py

Run on web browser

yarn server

Open http://localhost:8080/test/model_test/runner/standard.html with web browser, check the backend you want to test, and click the Test button to run the test.

Use

python test/model_test/make_models.py --optimize

http://localhost:8080/test/model_test/runner/optimized.html

when testing, including model optimization. However, the execution time of make_models.py takes a long time.

webdnn's People

Contributors

Stargazers

Watchers

Forkers

liuguoyou jfsantos luomor mornydew benjamesbabala socjs techscientist zilongzhong dolaameng ml-lab bityangke corcovadoming huizhuzhao liviust nagyist kingwenchen muharremokutan mobijamz collawolley pustar phpmind auduno anh0001 255bits xczhanjun aixile cys4 burgalon changx03 newpouy cybort eszypher58 qifu99 zhangjk95 zumbalamambo geeky-bit wathela bupt-renpei raven38 firestone32829 kylemcdonald silasxue koryako devopsmi huningxin kajiyu tonyxia2016 rahuljain2104 mattlnl unixnme iduwei tarrysingh labbros alexxnica kryndex mitmul lilacs2039 saibabanadh angelokai hayeah johanfrisk zhaoming0 breakend2010 iver56 namanjain1812 wenh123 kmader hanfeijp anandpunera hubertsgithub huynhnguyen seranus shafiahmed xqk maniacs-oss alessandrolenzi zhangaz1 swifter-ai iwe7 axxonpy delort rwieruch muzi-8 lpyhdzx nnquangit marcorighini msu1003 cynnyx ii0 afcarl gehongpeng 24wings domyoriginal saxenauts intuitionmachine codeaudit steerapi you74674 spring-raining pampanelson

webdnn's Issues

Implement ChainerConverter

#36 ResNet50に必要なグラフ構造の整理
#?? その他主要なFunctionをサポート

Add tests

テストを用意する。
Operator, Kernelについてはデータオーダー・パディングなどを変えた入出力ケースを作り、正しい出力をするか検証。

[webkit] TP版に取り込んでもらう

コミュ力！

pythonのクラス名における "DNN" prefixの除去

必要でしょうか？ @milhidaka

Variableにsizeプロパティを実装する

内部で np.prod(self.shape) をして返す

ConvolutionKernelの高速化

現状

Im2colで実装したConvolutionのFLOPSは、パラメータにもよるがおおよそ 20[G FLOPS] 程度と低い。
im2colで作られるcol-matrixは不均等（行数が多く、列数が少ない）なため、キャッシュ効率等の面でsgemm本来の性能( 60~70[G FLOPS] )を出せていない。
また、im2col Kernelが非常に短い処理であるためCPU側のオーバーヘッドも大きい
- im2col-Convolutionを連続で呼び出し、呼び出しコストをsgemmの実行コストで隠蔽すると、およそ 40~50[G FLOPS] までは改善できる

案

そもそもそんなに問題になるのか？
- 実際にはconvは単体で呼び出されることはなく、何度も呼び出されるため、呼び出しコストは隠蔽できる
cuDNN の implicit_sgemm のようなものを実装し、im2colとsgemmを１つのカーネルにまとめる
- カーネル呼び出しを一回に減らせる
- 複雜。参考資料がない。
winogradFFT
- 早いconvolutionの実装。詳細も実装も公開されている。
- test環境に限定すれば、バッチサイズは基本的に1であるため、性能が出るか怪しい。元論文ではsuper blockingという手法で擬似的にバッチサイズを増やしているが、それでも限界がある。
- 例えば 7x7 の画像(ResNet50のconv5.x) だと super-blockingでも16枚分にしか増やせない。 winogradFFTの性能をフルに出すには今回の場合32image/batchが必要で、これでは性能は半分。
- wingogradFFTはim2colと比較して1.4x ~ 2x程度の速度向上とのことなので、これでは意味がない。

rename Optimizer → Transformer

大したことではないが、Optimizerを最適化のためというよりグラフ変換全般に使うので。
例えばconvの実装に合わせた、weightのデータオーダー変換など
ちなみにLLVMでは、このような変換規則群はPassという名前

composeをopの基本機能とする

conpnseだけ特殊過ぎて扱いづらい。コードに一貫性がない

convert PaintsChainer

画像生成系で何のモデルを使うか決める

neural style transferなど？ https://github.com/dsanno/chainer-neural-style
デモとしての見栄えを想像しつつ、どんなレイヤーがあってどれぐらいの計算コストなのかを調べて選定

ReLUの"out_size"の定義をはっきりする

今の挙動だとチャンネル数なのだが、channelwiseなレイヤーではないので違和感がある

Support chainer.functions.tanh

mnist classification (fc)の実装

fully-connectedおよびreluを実装して、mnistの識別が行えるようにする。
最適化はせず、webgpuでとりあえず動くようにする。

move Axis definition

Axis が operator.attributes にあるのはキモい

conv-fc混在モデルでのウェイト回転

Chainerのモデルでは、(n, c, h, w)でデータが流れているつもりで、
fcレイヤーがあると(n, c-h-w)という入力とみなし、これに掛けるようにウェイトのデータ順序が割り当てられる。
しかし(n, h, w, c)でデータを流している場合、fcレイヤーのウェイトとの整合性がとれない。
グラフ生成側でうまく対応する必要あり。

行列APIの設計と実装

行列の作成、カーネルを渡して演算ができる行列レベルのAPIの開発
CNNをやる予定なので多次元対応したほうがよさげ

単純なJIT実装

fc-reluの並びをより少ないカーネルの実行で処理できるようなJITを開発する。
fcの中にも行列積とバイアス加算があり、3カーネルを要する。

Inplace operation

計算グラフがcyclicになってしまうので対応方法を考える必要あり

Add elu kernel

生成されたmetalコードのビルドが通ることを確認する

metalコード生成後、コマンドラインツールを叩いて実際にビルトが通ることを確認し、不正なコードが生成されていた場合は検出できるようにする。
https://developer.apple.com/library/content/documentation/Miscellaneous/Conceptual/MetalProgrammingGuide/Dev-Technique/Dev-Technique.html#//apple_ref/doc/uid/TP40014221-CH8-SW10

Reshape kernel generator

インターフェースしか実装してない

sgemm+relu+im2colを１つのカーネルにまとめた場合の速度向上検証

#12
取り敢えず一つにまとめたカーネルを手作業で作ってみて速度測定

convolutionの実装

[webkit] ios-simulator向けビルド

名称変更

Graph optimizerとよんでいる部分をfrontendという更に大きな名前空間切って

frontend.graph
計算グラフの各種レイヤー・属性定義
frontend.graph.chainer
chainerに依存する差異を取り除き共通表現へ落とすためのモジュール
frontend.graph.caffe
caffeに依存する（以下略）
frontend.graph_optimrzer
共通表現の最適化

のように分類しませんか

conv-scale-bias形式の最適化

(conv|fc)-(scale|bias)* 形式の処理を、アフィン変換と考えてできるだけまとめる

Support chainer.functions.elu

他のフレームワークでのグラフレベル高速化技法調査

theanoとかは自動微分機能があるので、そこでなにかしらの最適化があるはず。
また、keras.jsやMXNet、CNNDroidのテスト用システムでの最適化も調べたい。

Flattenの必要性判定

次のいずれかの場合、Flattenは省略できる

データオーダーが変化しない
変化はするが、軸サイズが1なため実質変化しない

この場合

X --[Flatten]--> Y

について、

Flatten に Nonsense 属性をつけておき、カーネル生成時にスキップする
Y をXと同じ場所にAllocateする

LayerをNodeに統合

現在のNodeが持っている「複数レイヤーをまとめる機能」はCompositeLayer（仮名）という、Nodeを継承したクラスとする

WebAssembly backend

シングルスレッドCPUで実現可能な範囲で、多くのモダンブラウザでそこそこの速度が出るバックエンド

sgemmカーネルの移植

sgemmカーネルのソースコードをKernelBuilderへ移植する

move operator/variable attributes

これは本来 Operator, Variable とは非依存なはずだが、 operators, variables ディレクトリ以下に置かれているせいで依存関係が発生しており import が非常にしづらくなっている

convolutionのサンプルモデル作成

convolutionを含んだDNNの動作確認のためのデータ作成

Optimizeのルール切り替えフラグの実装

Definition of reshape

In some cases, axis of variables have to be re-interpreted.
In Chainer, linear layer accepts 4D (n, c, h, w) variable and interpret it as 2D (n, chw).
In Keras, 2D variable can be interpreted as (n, c) and (n, t). (t means time-series)
In order to match these variables with variables with semantic axis order, some operations are needed.

Reshape
- Interpret variable as C-order and change the length of each axis.
Remove axis with length 1
Insert axis with length 1
Replace axis meaning (channel -> time)

Flatten can be implemented with the combination of reshape ((n,h,w,c) -> (n,1,1,hwc)) and remove axis.

OptimzierRuleのPriority指定方法

複数のルールが干渉した結果、最適化が十分に働かない可能性があるので
priorityを定義できる機構が必要

fallback版カーネル作成

速度は気にしない、動作確認用のpure jsリファレンス実装を作る。

Optimizer AffineConcatを用いるとウェイトが少し大きくなる

ResNet50の変換で、
最適化なしだと102228384バイトなのが最適化すると102334624バイトになる。
使われないウェイトが書き出されている？
削除されたレイヤーはremove_all()を読んで変数へのリンクを切っているはずだが、なにか切り忘れているかもしれない。

[webkit] promise attributeの実装

conv+BN+ReLU

よくあるセットなので特殊なカーネルを組んだほうが良さそう

Allocatorの改善

現状は、全てのメモリを重ならないように確保しているが、生存区間がかぶっていない2つの変数があれば積極的に最適化すべき。Variableの生存区間を見て、メモリ割付を最適化する

ResNet-50のモデル変換

ここまでは出張前に用意しておきたい

memorylayoutによるconcatの省略

条件

concatがinplace
concatするaxisがメモリオーダーで一番外側
memory layoutが隣接している

が揃えばconcatは省略できる
そのためには

frontend側でチャンネルオーダに関するattributeを追加する
backendのAllocaterにも最適化ルールを拡張できる機構を作る

が必要

ios+WebGPUのパフォーマンス測定

CompositionにおけるAttributeの継承方法

足し算した後にただ和集合をとれば良いわけではない

PostElementwise + Elementwise != PostElementwise
    Elementwise + Elementwise == Elementwise

より一般に属性 T と S について T + S => S というルールが定義されているときに

{ T    } + { S, R } == { R, S }
{ T, R } + { S    } == { R, S }
{ T, R } + { S, R } == { R, S }

はそれぞれ成り立つのか？
独立な属性、従属な属性を管理してやる必要がある？

channel-wise layerの定義

biasなどを実装するためのレイヤーの抽象化方法を検討
mnistが動くところまでやる

compose関係の可視化

backendの一種として、ブラウザで計算グラフを確認できるsvg込みのhtmlを吐くようにする

ファイルの分割

ファイルをもう少し分割しディレクトリ構造等整理する

convert NeuralStyleTransfer

deconvが必要

Recommend Projects

React

A declarative, efficient, and flexible JavaScript library for building user interfaces.
Vue.js

🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
Typescript

TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
TensorFlow

An Open Source Machine Learning Framework for Everyone
Django

The Web framework for perfectionists with deadlines.
Laravel

A PHP framework for web artisans
D3

Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

javascript

JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
web

Some thing interesting about web. New door for the world.
server

A server is a program made to process requests and deliver data to clients.
Machine learning

Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Visualization

Some thing interesting about visualization, use data art
Game

Some thing interesting about game, make everyone happy.

Recommend Org

Facebook

We are working to build community through open source technology. NB: members must have two-factor auth.
Microsoft

Open source projects and samples from Microsoft.
Google

Google ❤️ Open Source for everyone.
Alibaba

Alibaba Open Source for everyone
D3

Data-Driven Documents codes.
Tencent

China tencent open source team.