scraping-ssok's People
scraping-ssok's Issues
[MLP] initial version has been created
- data which have been used:
1. *.wakati : word2vec files
2. word-dic.json : used as word dictionary
3. data.json : convert wakati file to json encoded in numers instead of text itself - word_loader : creates word-dic.json
- data_loader : creates data.json
- mlp3-classifier : classifier
[Navie Bayes] initial version has been completed
The process would be:
- train with data of each category ( except 'notice')
- put data of notice as a data set
- result will be [title, category]
check out if you already have data
the result has been better than I've expected ( I guess )
[N-gram] 코드 실행하는 법 및 짧은 요약
실행하는 법
해당 코드는 main 파일에서 실행됩니다. sql에 타이틀 데이터가 있을 경우 알아서 읽어오며, 결과로 50% 이상의 유사성을 가진 데이터를 출력합니다.
만약 분할하는 단어의 길이를 3이 아닌 다른 숫자로 하고싶으실 경우,
ngram_title = NgramTitle(sentence_list, 다른숫자)
와 같이 수정하시면 됩니다.
다음은 결과물 예시입니다. 비교한 문장의 리스트 인덱스, 제목, 유사도를 출력합니다.
index list: [86, 387]
title list: ['2017-2 학부 재입학 안내 (원서접수: 07.03.~07.05. 09:00~12:00, 13:00~17:00)', '2015-2 학부 재입학 안내 (원서접수: 7.6.~7.8. 09:00~12:00, 13:00~17:00)']
similarity: 0.9836065573770492
index list: [87, 95]
title list: ['2017-2 IPP 참가생 추가모집 안내', '2017-2 IPP장기현장실습 참가신청 접수 안내']
similarity: 0.5
index list: [87, 146]
title list: ['2017-2 IPP 참가생 추가모집 안내', '2017-1 IPP장기현장실습 참가자 추가모집 안내']
similarity: 0.6
index list: [87, 216]
title list: ['2017-2 IPP 참가생 추가모집 안내', '2016-2 일반IPP 참가자 추가모집기업 안내']
similarity: 0.5
index list: [87, 241]
title list: ['2017-2 IPP 참가생 추가모집 안내', '2016-2 IPP 참가생 추가모집 안내']
similarity: 0.85
@lynring24 타이틀을 불러오느라 DBManager 클래스에 메소드를 하나 추가했습니다. N-gram 자체를 실험적이라고 생각해서 진행한 탓+브랜치를 새로 따서 따로 말씀드리지 않았습니다.
짧은 요약 및 결론
N-gram 자체가 문장에서 단어를 n의 길이로 각각 쪼개 같은 값을 매칭하는 식의 매커니즘이라, 글자가 비슷한 단어 혹은 문장 형식이 나올 경우에 유사율이 높게 나옵니다.
title list: ['[프라임] '숙명 인성교육 프로그램(삼율 어드밴티지 워크숍)' 설명회 개최', '2017-1 '영토발','영쓰읽' 수강자 기말고사 G-MATE신청안내']
similarity: 0.6938775510204082
위처럼 70%의 유사율로 낮은 값이 아님에도 전혀 다른 내용인 경우도 있습니다. (참고로 N-gram은 n 값을 변경함에 따라 유사율이 달라집니다. 2-gram으로 했을 땐 전혀 연관없는 내용이 유사율 90%이상인 경우도 있었습니다. 문장의 형식이 아닌 의미로 접근했을 경우 신뢰성이 약간 떨어진다고 할 수 있습니다.)
당연히 word2vec에서 사용되는 유사한 단어 간의 관계(예: '아이폰'-'맥') 같은 경우도 캐치하지 못합니다.
결론: 이거 쓰지 말자
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.