The scraping-ssok from jiunoh

[MLP] initial version has been created

data which have been used:
1. *.wakati : word2vec files
2. word-dic.json : used as word dictionary
3. data.json : convert wakati file to json encoded in numers instead of text itself
word_loader : creates word-dic.json
data_loader : creates data.json
mlp3-classifier : classifier

[Navie Bayes] initial version has been completed

The process would be:

train with data of each category ( except 'notice')
put data of notice as a data set
result will be [title, category]

check out if you already have data
the result has been better than I've expected ( I guess )

[N-gram] 코드 실행하는 법 및 짧은 요약

실행하는 법

해당 코드는 main 파일에서 실행됩니다. sql에 타이틀 데이터가 있을 경우 알아서 읽어오며, 결과로 50% 이상의 유사성을 가진 데이터를 출력합니다.

만약 분할하는 단어의 길이를 3이 아닌 다른 숫자로 하고싶으실 경우,

ngram_title = NgramTitle(sentence_list, 다른숫자)

와 같이 수정하시면 됩니다.

다음은 결과물 예시입니다. 비교한 문장의 리스트 인덱스, 제목, 유사도를 출력합니다.

index list:  [86, 387]
title list:  ['2017-2 학부 재입학 안내 (원서접수: 07.03.~07.05. 09:00~12:00, 13:00~17:00)', '2015-2 학부 재입학 안내 (원서접수: 7.6.~7.8. 09:00~12:00, 13:00~17:00)']
similarity:  0.9836065573770492
index list:  [87, 95] 
title list:  ['2017-2 IPP 참가생 추가모집 안내', '2017-2 IPP장기현장실습 참가신청 접수 안내'] 
similarity:  0.5
index list:  [87, 146] 
title list:  ['2017-2 IPP 참가생 추가모집 안내', '2017-1 IPP장기현장실습 참가자 추가모집 안내'] 
similarity:  0.6
index list:  [87, 216] 
title list:  ['2017-2 IPP 참가생 추가모집 안내', '2016-2 일반IPP 참가자 추가모집기업 안내'] 
similarity:  0.5
index list:  [87, 241] 
title list:  ['2017-2 IPP 참가생 추가모집 안내', '2016-2 IPP 참가생 추가모집 안내'] 
similarity:  0.85

@lynring24 타이틀을 불러오느라 DBManager 클래스에 메소드를 하나 추가했습니다. N-gram 자체를 실험적이라고 생각해서 진행한 탓+브랜치를 새로 따서 따로 말씀드리지 않았습니다.

짧은 요약 및 결론

N-gram 자체가 문장에서 단어를 n의 길이로 각각 쪼개 같은 값을 매칭하는 식의 매커니즘이라, 글자가 비슷한 단어 혹은 문장 형식이 나올 경우에 유사율이 높게 나옵니다.

title list:  ['[프라임] &apos;숙명 인성교육 프로그램(삼율 어드밴티지 워크숍)&apos; 설명회 개최', '2017-1 &apos;영토발&apos;,&apos;영쓰읽&apos; 수강자 기말고사 G-MATE신청안내'] 
similarity:  0.6938775510204082

위처럼 70%의 유사율로 낮은 값이 아님에도 전혀 다른 내용인 경우도 있습니다. (참고로 N-gram은 n 값을 변경함에 따라 유사율이 달라집니다. 2-gram으로 했을 땐 전혀 연관없는 내용이 유사율 90%이상인 경우도 있었습니다. 문장의 형식이 아닌 의미로 접근했을 경우 신뢰성이 약간 떨어진다고 할 수 있습니다.)

당연히 word2vec에서 사용되는 유사한 단어 간의 관계(예: '아이폰'-'맥') 같은 경우도 캐치하지 못합니다.

결론: 이거 쓰지 말자

jiunoh / scraping-ssok Goto Github PK

scraping-ssok's People

Contributors

Stargazers

Watchers

scraping-ssok's Issues

[MLP] initial version has been created

[Navie Bayes] initial version has been completed

[N-gram] 코드 실행하는 법 및 짧은 요약

실행하는 법

짧은 요약 및 결론

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent