ss1031 / phmc2019dataanalysischallenge Goto Github PK
View Code? Open in Web Editor NEWhttps://industrial-big-data.io/phmc2019-datachallenge/
https://industrial-big-data.io/phmc2019-datachallenge/
FlightNoが最後の方のデータに関して特徴量を作ってしまうとリークが起きて過学習になってしまう仮設がある.それを解決するために各エンジンの最後の方のデータを使わないでデータセットを構築するのを試してみる.
エンジン寿命が長い順にcv_id[1-8]を繰り返し振る.cv_idを使ってStratifiedKFoldでcvを作る.
残存エンジン寿命の分布がcvごとに同じくらいになったほうが学習が安定するのではないか?という仮設
feature toolsにRUL予測があるのでそれを読む
ULR: https://github.com/Featuretools/predict-remaining-useful-life
今のところ1番参考になりそう
レジームごとに特徴量を作成してくっつける.全特徴量は"特徴量数" * "レジーム数"になる.
レジームごとに分割したほうがより特徴が出るのではないかという仮設
CVで13とか出てたけどバグ取ったら再現しなくなった.つらすぎるのでチェックアウトして見てみたい.
同じこと何回も書いているからリファクタリングしたいよね
レジームに分けて特徴量作った奴に全体のデータで特徴量作ったやつ混ぜたほうが良いのでは?
今はテストデータで起きているスプリットのタイミングだけ全データをスプリットしているが,
実行速度上げるためにスプリットの数減らして良いのでは?
Ridgeで選択した方が今回の非線形な寿命推定とい問題に適しているのではないか?という仮設
寿命は線形な関係でない.指数的に調子が悪くなることが普通,なので最適化の目的値としてMAEはふさわしくない.RMSEの方が良いのではという仮設.
横軸: FlightNo, 縦軸: 各パラメータ,
パラメータごとに同じグラフにすべてのエンジンのデータをプロットする(テストも含め)
LassoもRidgeも同時にやって特徴量を選んだらいいじゃないかという仮設
固くなにFold8でやっているけど4とか5とかしてみたら変わるかもね
Engine-RegimeごとにDiffを取ったカラムを追加してあげればよいのでは?
今,訓練データから複数スプリットしてデータ作成しているけど未来のデータで訓練していることになっているからリークしている.
一回だけスプリットしてデータセットを作成 > 訓練 > 予測の流れにしないとだめだわ
上記の流れを複数セット実施してAveragingする流れを作る
エンジンに個体差あるという仮設,個体差を見たいのではなくて故障の傾向を見たいので標準化することで個体差をキャンセルしたい.
レジームに分けたらレジーム内で全部同じ値になる特徴量がある.本質的にRegimeラベルとやっていること変わらないから削除する.
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.