Giter VIP home page Giter VIP logo

semantle-ko's Introduction

꼬맨틀 — 단어 유사도 추측 게임

이 레포지터리는 Johannes Gätjen의 Semantlich (소스코드)를 포크하여, 한국어로 플레이할 수 있도록 수정한 것입니다.

Setup

Download Word2Vec and dictionary data:

cd data
wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.ko.300.vec.gz
gzip -d cc.ko.300.vec.gz
wget https://github.com/spellcheck-ko/hunspell-dict-ko/releases/download/0.7.92/ko-aff-dic-0.7.92.zip
unzip ko-aff-dic-0.7.92.zip

Filter and save word2vec in DB

docker-compose run --rm --entrypoint python app filter_words.py
docker-compose run --rm --entrypoint python app process_vecs.py

(Optional) Regenerate secrets

docker-compose run --rm --entrypoint python app generate_secrets.py

Start server

docker-compose up

semantle-ko's People

Contributors

gaetjen avatar goodsosbvanewsjelly avatar heewonlee-nj avatar outsung avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar

semantle-ko's Issues

페이지상의 설명문 오류

맞추다로 쓰여진 것들은 맞히다가 맞습니다.

정답을 맞히다.
과녁의 정중앙을 맞혀 만점을 받았다.

맞추다는 서로 다른 무언가를 결합하는 것을 뜻합니다.

원형이 아닌 단어는 유사단어 상위 1000개에서 제외해야 합니다

꼬맨틀 재밌게 하고있습니다.

정답 맞히고 나서 상위 1000개의 단어리스트를 확인해보면 원형이 아닌 활용형의 단어들이 다수 차지하고 있을 때가 있습니다
특히 지난번 "차차"가 정답이었을 때 가장 심했던 것 같습니다.(이때는 저도 답을 못맞혔어요)

단어를 추측할때 활용형으로 굳이 넣는 유저는 거의 없을것같습니다.
그런데 상위 1000개 리스트의 다수가 활용형으로 채워져 있으면 유사도 상위권의 단어를 하나라도 찾는 자체가 매우 힘들어집니다.
애초에 원형이 아닌 활용형이 별개의 단어로 취급된다는 점이 한국어의 언어적 특성을 제대로 반영하지 못한 일종의 오류로 보입니다.
학습된 데이터 안에 활용형 단어들이 있더라도 그걸 원형으로 변환해서 유사도에 반영해야 맞는 것 같습니다.
아직 기술적 한계가 있겠지만 최대한 용언의 활용형은 별개의 단어로 취급하지 않게끔 보완해주시기 바랍니다

단어 유사도 정확성이 정말 기분나빠요

정답이 “깨소금”인데
유사도 2위가 “생강즙”이고
“소금”이 저 밑에 유사도 360위인게
개발자님에게는 납득이 가시는지..
제 견문이 얕은탓일까봐 인터넷에 생강즙 레시피도 쳐봤어요
깨소금은 한스푼도 들어가질 않더군요
글자 수만 같으면 유사도 랭킹이 올라가나요?
기준이 좀 이상한 것 같아요
단어라는게 받아들이는 사람마다 그 의미가 달라진다지만
생강즙을 보고 깨소금을 떠올리는 사람은
전세계에 단한명도 없을거에요

문과식 답은 키워드 나오면 무조건 1~10순위 안에 들게 해야함

키워드가 나왔는데 몇백순위, 몇십순위 이렇게 하니까 논리적 추론이 안됩니다.
키워드에다가 추가적으로 ~하게, ~하다, ~한, ~히 이런식으로 유사한 단어에다가 모든 경우의 수를 다 쳐 봐야 하는데 키워드 포함된 단어가 멀리 밀려있으면.. 답이 없습니다 노가다에 운빨로 때려맞히는 게임이 되버립니다.
10위 안팎이면 솔직히 정답이 나와야 하는데, 이것 때문에 쉬운 날과 어려운 날의 편차가 너무 큰 것 같습니다.

좀 더 논리적 사고 기반의 게임이 되었으면 좋겠습니다.

정답 파일 접근 권한 수정 요청

안녕하세요, 제가 너무 재밌게 하고 있습니다!!

이걸로 친구들이랑 내기를 자주 하는데요, 혹시 정답 파일을 접근 불가능하게 따로 관리해주시기는 힘들까요?

감사합니다!

정답 파일 수정 제안

친구들과 자정마다 정답을 맞히는 내기를 진행 중인데,
소스코드 확인하다가 정답을 전부 봐버렸습니다.

접근권한에 조정이 필요할 것 같은데요,
정답 파일의 경우 수정하여 읽기 권한을 막으면 어떨까 싶습니다😥😥

조심스레 여쭤보아요ㅠㅠ

단어 변경시간

질문과 답변에 따르면 단어 변경은 UTC 0900 또는 KST 0000을 기준으로 바뀐다고 나와있는데 그렇다면 시간대가 다르게 적용되는지 궁금합니다.

-UTC 0900는 KST 1800이고, KST 0000는 UTC 1500으로 시간이 맞지 않아 생긴 의문입니다.

수고가 많으십니다.

꼬맨틀 #136 유사도 문의

꼬맨틀 #136에 대한 1000개의 유사도를 확인하니 117번에 ㅞ, 201번에 ㅚ 가 들어있네요.
이런것들도 원래 포함이 되는게 맞는건지, 오류인지 문의드립니다.
아무리 봐도 저 모음들이 의미가 있다고 보이지는 않아서요.

꼬맨틀은 유사도와도 관계가 없고 단어맞추기 게임으로서도 부적합합니다

1월 25일자 꼬맨틀을 하며 확신하게 되었습니다

정답은 떠올리다고, 그 다음 유사도가 높은 것은 되돌아보다이며, 3위로 유사도가 높은 것은 느끼다, 5위는 돌아보다입니다.
그 이후로 나온 것은 음미하다, 감상하다, 맛보다, 만끽하다 순이었는데, 이 단어들은 정답과 유사도가 아주 높다고 나왔지만 실제로는 그 어떤 국어사전에서도 유사한 단어로, 같은 맥락의 단어로서도 인정하지 않고, 한국어 화자인 꼬맨틀 플레이어들도 인정하지 않을 정도로 동떨어져 있는 단어입니다.

단어가 사용되는 맥락에서의 유사도로 평가한다고 하는데, 애초에 단어가 사용되는 상황, 지문 내에서 문장 하나에 같이 사용되는 빈도는 단어의 유사도와는 관계가 전혀 없는 경우가 더 많습니다.
어떠한 경우에는 정답과 전혀 관계가 없을 뿐더러 같은 문장에서도 사용되지 않을 것 같은 음담패설이나 욕이 유사도가 아주 높게 책정됩니다.

또한 단어맞추기 게임으로서도 부적합합니다. 저는 꼬맨틀을 하면서 높은 유사도의 단어가 나오면 국어사전이나 이 단어가 나온 뉴스기사, 칼럼 등을 보며 이 단어와 사용맥락이 같은 단어는 무엇일까 입력하는데,
광안리대교나 한국방송공사 같이, 명사에 있어서는 고유명사까지 입력이 가능할 정도로 범위가 넓지만 동사는 입력한 단어들 중 3분의 2는 알 수 없는 단어라고 뜨며 입력이 거부됩니다.

우리말에서도 세계의 여러 언어에서도 가장 큰 비중을 차지하는 품사는 동사일 것이라 생각되는데, 정작 동사는 체감상 전혀 입력이 되지 않으니 어떡해야 하나요?
Wikitionary 내의 5800단어를 사용한다기엔 한국방송공사 같은 단어가 그 리스트에 있는지 의심스럽습니다. 탐미하다, 돌이키다, 반성하다, 의식하다, 인식하다. 모두 실생활에서 자주 사용하는 단어인데 왜 알 수 없는 단어라며 입력이 되지 않나요?? 특히 한자어가 들어가는 동사에서 이런 경향이 강한 것 같은데, 단어들 중 70퍼센트가 한자에서 나온 우리말을 생각하면 이해가 되지 않습니다.

아무리 생각해도 '유사도'라는 단어는 별로 적절하지 않은 것 같습니다.

반대되는 의미라도 같은 문장 내에서 언급될 확률이 높은 정도를 '유사도'라고 표현하는 것은 이용하는 사람들에게 너무 혼동을 주는 단어인 것 같습니다.

'유사하다'의 사전적 의미만 봐도 '유사'라는 말을 쓰는게 이상하다는 것을 알 수 있지 않나요?
괜히 저 단어때문에 오히려 접근이 더 어려워지는 느낌입니다.

유사도보다는 '동일맥락률'이나 아니면 다른 기타 용어를 쓰는게 더 맞지 않나 싶습니다.

기능추가 제안

안녕하세요, 꼬맨틀 항상 잘 플레이하고 있습니다~
정답 맞히고 난 후, 단어를 입력한 순서대로 정렬하는 기능이 추가된다면
친구들이랑 더 재밌게 기록을 공유할 수 있을 것 같아요~

단어 관련 문의

정답 단어는 품사의 기본형만 포함한다고 하는데, 추측 단어는 품사의 기본형이 아닌 단어도 포함하는 것 같더라고요. 이때 포함 기준이 뭔가요? '높은'과 '높게' 모두 높다의 활용형인데 '높은'은 추측 단어 사전에 포함되어 있고 '높게'는 단어 사전에 포함되어 있지 않다고 해서 궁금합니다.

그리고 정답을 맞혔을 때 화면에 '지금까지 추측 단어 총 갯수' 라고 뜨는데, 개수로 고쳐주세요!

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.