ss1031 / phmc2019dataanalysischallenge Goto Github PK

https://industrial-big-data.io/phmc2019-datachallenge/

Python 0.23% Jupyter Notebook 99.77%

phmc2019dataanalysischallenge's Issues

寿命は線形な関係でない．指数的に調子が悪くなることが普通，なので最適化の目的値としてMAEはふさわしくない．RMSEの方が良いのではという仮設．

固くなにFold8でやっているけど4とか5とかしてみたら変わるかもね

今，訓練データから複数スプリットしてデータ作成しているけど未来のデータで訓練していることになっているからリークしている．
一回だけスプリットしてデータセットを作成 > 訓練 > 予測の流れにしないとだめだわ
上記の流れを複数セット実施してAveragingする流れを作る

レジームに分けて特徴量作った奴に全体のデータで特徴量作ったやつ混ぜたほうが良いのでは？

レジームごとに特徴量を作成してくっつける．全特徴量は"特徴量数" * "レジーム数"になる．

レジームごとに分割したほうがより特徴が出るのではないかという仮設

FlightNoが最後の方のデータに関して特徴量を作ってしまうとリークが起きて過学習になってしまう仮設がある．それを解決するために各エンジンの最後の方のデータを使わないでデータセットを構築するのを試してみる．

エンジン寿命が長い順にcv_id[1-8]を繰り返し振る．cv_idを使ってStratifiedKFoldでcvを作る．

残存エンジン寿命の分布がcvごとに同じくらいになったほうが学習が安定するのではないか？という仮設

今のところ1番参考になりそう