๐ ๋ฉค๋ฒ ๊ตฌ์ฑ ๋ฐ ์ญํ
- ์ ํ์ฑ
- ํ ๋ฆฌ๋, ensemble ๊ตฌํ, ๋จ์ผ ๋ชจ๋ธ ํ์ต
- ๊ณฝ์์ฐ
- Weighted Sampler ๊ตฌํ, ๋จ์ผ ๋ชจ๋ธ ํ์ต
- ๊น๊ฐ์
- Loss function ์คํ, ๋จ์ผ ๋ชจ๋ธ ํ์ต
- ๊น์ ์ฐ
- ๋ณตํฉ ๋ชจ๋ธ ์คํ, K-Fold ๊ตฌํ, ๋จ์ผ ๋ชจ๋ธ ํ์ต
- ์์ค์ฃผ
- ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๋ฐ ์ฆ๊ฐ, ๋จ์ผ ๋ชจ๋ธ ํ์ต
2023.12.11 10:00 ~ 2023.12.21 19:00
- STS(Semantic Text Similarity)๋ ๋ ํ
์คํธ๊ฐ ์ผ๋ง๋ ์ ์ฌํ์ง ํ๋จํ๋ NLP Task๋ก, ์ผ๋ฐ์ ์ผ๋ก ๋ ๊ฐ์ ๋ฌธ์ฅ์ ์
๋ ฅํ๊ณ ์ด๋ฌํ ๋ฌธ์ฅ ์์ด ์ผ๋ง๋ ์๋ฏธ์ ์ผ๋ก ์๋ก ์ผ๋ง๋ ์ ์ฌํ์ง๋ฅผ ํ๋จํ๋ ๊ณผ์ ์ด๋ค.
- ๋ณธ ํ๋ก์ ํธ๋ ์ฃผ์ด์ง ๋ฐ์ดํฐ์
์ ๋ฐํ์ผ๋ก 0๊ณผ 5์ฌ์ด์ ์ ์ฌ๋ ์ ์๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ์ ๋ชฉ์ ์ ๋๋ค.
- Train Data : 9,324๊ฐ
- Test Data : 1,100๊ฐ
- Dev Data : 550๊ฐ
Column |
์ค๋ช
|
id |
๋ฌธ์ฅ ๊ณ ์ ID. ๋ฐ์ดํฐ์ ์ด๋ฆ, ๋ฒ์ , train/dev/test |
source |
๋ฌธ์ฅ์ ์ถ์ฒ - petition(๊ตญ๋ฏผ์ฒญ์), NSMC(๋ค์ด๋ฒ ์ํ), slack(์
์คํ
์ด์ง) |
sentence1 |
๋ฌธ์ฅ ์์ ์ฒซ๋ฒ์งธ ๋ฌธ์ฅ |
sentence2 |
๋ฌธ์ฅ ์์ ๋๋ฒ์งธ ๋ฌธ์ฅ |
label |
๋ฌธ์ฅ ์์ ๋ํ ์ ์ฌ๋ (0~5, ์์์ ์ฒซ๋ฒ์งธ ์๋ฆฌ๊น์ง ํ์) |
binary-label |
label์ด 2.5 ์ดํ์ธ ๊ฒฝ์ฐ๋ 0, ๋๋จธ์ง๋ 1 |
label |
์ค๋ช
|
5 |
๋ ๋ฌธ์ฅ์ ํต์ฌ ๋ด์ฉ์ด ๋์ผํ๋ฉฐ, ๋ถ๊ฐ์ ์ธ ๋ด์ฉ๋ค๋ ๋์ผํจ |
4 |
๋ ๋ฌธ์ฅ์ ํต์ฌ ๋ด์ฉ์ด ๋๋ฑํ๋ฉฐ, ๋ถ๊ฐ์ ์ธ ๋ด์ฉ์์๋ ๋ฏธ๋ฏธํ ์ฐจ์ด๊ฐ ์์ |
3 |
๋ ๋ฌธ์ฅ์ ํต์ฌ ๋ด์ฉ์ ๋๋ต์ ์ผ๋ก ๋๋ฑํ์ง๋ง, ๋ถ๊ฐ์ ์ธ ๋ด์ฉ์ ๋ฌด์ํ๊ธฐ ์ด๋ ค์ด ์ฐจ์ด๊ฐ ์์ |
2 |
๋ ๋ฌธ์ฅ์ ํต์ฌ ๋ด์ฉ์ ๋๋ฑํ์ง ์์ง๋ง, ๋ช ๊ฐ์ง ๋ถ๊ฐ์ ์ธ ๋ด์ฉ์ ๊ณต์ ํจ |
1 |
๋ ๋ฌธ์ฅ์ ํต์ฌ ๋ด์ฉ์ ๋๋ฑํ์ง ์์ง๋ง, ๋น์ทํ ์ฃผ์ ๋ฅผ ๋ค๋ฃจ๊ณ ์์ |
0 |
๋ ๋ฌธ์ฅ์ ํต์ฌ ๋ด์ฉ์ด ๋๋ฑํ์ง ์๊ณ , ๋ถ๊ฐ์ ์ธ ๋ด์ฉ์์๋ ๊ณตํต์ ์ด ์์ |
- ํผ์ด์จ ์๊ด ๊ณ์ PCC(Pearson Correlation Coefficient) : ๋ ๋ณ์ X์ Y๊ฐ์ ์ ํ ์๊ด ๊ด๊ณ๋ฅผ ๊ณ๋ํํ ์์น
- ์ ๋ต์ ์ ํํ๊ฒ ์์ธกํ๋ ๊ฒ๋ณด๋ค, ๋์ ๊ฐ์ ํ์คํ ๋๊ฒ, ๋ฎ์ ๊ฐ์ ํ์คํ ๋ฎ๊ฒ ์ ์ฒด์ ์ธ ๊ฒฝํฅ์ ์ ์์ธกํ๋ ๊ฒ์ด ์ค์ํ๊ฒ ์์ฉ
- klue/roberta-small
- klue/roberta-large
- rurupang/roberta-base-finetuned-sts
- monologg/koelectra-base-v3-discriminator
- BM-K/KoDiffCSE-RoBERTa
- snunlp/KR-ELECTRA-discriminator
.
โโโ Readme.md
โโโ wrapup-report.pdf
โโโ code
โโโ KSW
โ โโโ train_kfold.py
โโโ KSY
โ โโโ train
โ โ โโโ train_kfold_WRS.py
โ โ โโโ train_koelectra.py
โ โ โโโ train_test_aug.py
โ โ โโโ train_test_label.py
โ โ โโโ train_test_WeightedMSE.py
โ โ โโโ train_test_WRS.py
โ โโโ utils
โ โโโ data_augmentation.py
โ โโโ ensemble.py
โ โโโ inference_koelectra.py
โโโ KGY
โ โโโ loss_functions.py
โ โโโ source_tagging.py
โ โโโ trainMSE.py
โโโ AYJ
โ โโโ model_test_fin.py
โ โโโ model_test_fin2.py
โ โโโ inference.py
โ โโโ <soon update>
โ โโโ <soon update>
โโโ JHW
โ โโโ back_translate.py
โ โโโ ensemble.py
โ โโโ make_train_uniform.py
โโโ final
โโโ data
โโโ fine-tuned
โโโ output
โโโ back_translate.py
โโโ ensemble.py
โโโ make_train_uniform.py
โโโ inference.py
โโโ train.py
|
pearson |
Public |
0.9218 |
Private |
0.9311 |