Giter VIP home page Giter VIP logo

scraping-ssok's People

Contributors

jiunoh avatar

Stargazers

 avatar

Watchers

 avatar  avatar  avatar

scraping-ssok's Issues

[MLP] initial version has been created

  • data which have been used:
    1. *.wakati : word2vec files
    2. word-dic.json : used as word dictionary
    3. data.json : convert wakati file to json encoded in numers instead of text itself
  • word_loader : creates word-dic.json
  • data_loader : creates data.json
  • mlp3-classifier : classifier

[Navie Bayes] initial version has been completed

The process would be:

  1. train with data of each category ( except 'notice')
  2. put data of notice as a data set
  3. result will be [title, category]

check out if you already have data
the result has been better than I've expected ( I guess )

[N-gram] 코드 실행하는 법 및 짧은 요약

실행하는 법

해당 코드는 main 파일에서 실행됩니다. sql에 타이틀 데이터가 있을 경우 알아서 읽어오며, 결과로 50% 이상의 유사성을 가진 데이터를 출력합니다.

만약 분할하는 단어의 길이를 3이 아닌 다른 숫자로 하고싶으실 경우,

ngram_title = NgramTitle(sentence_list, 다른숫자)

와 같이 수정하시면 됩니다.

다음은 결과물 예시입니다. 비교한 문장의 리스트 인덱스, 제목, 유사도를 출력합니다.

index list:  [86, 387]
title list:  ['2017-2 학부 재입학 안내 (원서접수: 07.03.~07.05. 09:00~12:00, 13:00~17:00)', '2015-2 학부 재입학 안내 (원서접수: 7.6.~7.8. 09:00~12:00, 13:00~17:00)']
similarity:  0.9836065573770492
index list:  [87, 95] 
title list:  ['2017-2 IPP 참가생 추가모집 안내', '2017-2 IPP장기현장실습 참가신청 접수 안내'] 
similarity:  0.5
index list:  [87, 146] 
title list:  ['2017-2 IPP 참가생 추가모집 안내', '2017-1 IPP장기현장실습 참가자 추가모집 안내'] 
similarity:  0.6
index list:  [87, 216] 
title list:  ['2017-2 IPP 참가생 추가모집 안내', '2016-2 일반IPP 참가자 추가모집기업 안내'] 
similarity:  0.5
index list:  [87, 241] 
title list:  ['2017-2 IPP 참가생 추가모집 안내', '2016-2 IPP 참가생 추가모집 안내'] 
similarity:  0.85

@lynring24 타이틀을 불러오느라 DBManager 클래스에 메소드를 하나 추가했습니다. N-gram 자체를 실험적이라고 생각해서 진행한 탓+브랜치를 새로 따서 따로 말씀드리지 않았습니다.

짧은 요약 및 결론

N-gram 자체가 문장에서 단어를 n의 길이로 각각 쪼개 같은 값을 매칭하는 식의 매커니즘이라, 글자가 비슷한 단어 혹은 문장 형식이 나올 경우에 유사율이 높게 나옵니다.

title list:  ['[프라임] '숙명 인성교육 프로그램(삼율 어드밴티지 워크숍)' 설명회 개최', '2017-1 '영토발','영쓰읽' 수강자 기말고사 G-MATE신청안내'] 
similarity:  0.6938775510204082

위처럼 70%의 유사율로 낮은 값이 아님에도 전혀 다른 내용인 경우도 있습니다. (참고로 N-gram은 n 값을 변경함에 따라 유사율이 달라집니다. 2-gram으로 했을 땐 전혀 연관없는 내용이 유사율 90%이상인 경우도 있었습니다. 문장의 형식이 아닌 의미로 접근했을 경우 신뢰성이 약간 떨어진다고 할 수 있습니다.)

당연히 word2vec에서 사용되는 유사한 단어 간의 관계(예: '아이폰'-'맥') 같은 경우도 캐치하지 못합니다.

결론: 이거 쓰지 말자

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.