Graduation_Thesis repository에 수록된 코드들은 한국외국어대학교 언어인지과학과 학부 2022년 1학기 졸업논문 주제 인 '유튜브 댓글 전처리와 LDA 토픽모델링을 사용한, 삼성전자 폴더블폰에 대한 대중의 반응 분석'에 활용되었습니다.
- 유튜브 댓글을 크롤링하여 대량의 텍스트 데이터 속에서 삼성전자 폴더블폰 제품인 '갤럭시 Z flip' 과 '갤럭시 Z fold' 에 대한 대중의 반응을 분석했습니다.
- 텍스트 정제 및 정규화로 텍스트 전처리 과정을 수행하였습니다.
- 전처리를 거친 텍스트를 활용하여 '빈도분석' 과 'LDA 토픽모델링 분석' 을 수행하여 토큰들의 관계를 분석하고 대중의 반응을 분석했습니다.
- flip,fold_Youtube_comments_crawling.ipynb 파일을 이용했습니다.
- url에 Z flip 또는 Z fold 제품후기 유튜브 영상 url을 입력하면 댓글이 자동으로 추출됩니다.
- 지나치게 짧은 댓글, 즉 글자 수가 너무 적은 댓글에서는 의미 있는 정보를 직관적으로 포착하기 어렵습니다.
- 따라서 이러한 텍스트는 이상치로 간주하여 모두 제거했습니다.
- zflip3_Outlier_Detection.ipynb 파일은 Z flip 제품 후기 영상 댓글에서 이상치를 제거하는 코드이며 zfold3_Outlier_Detection.ipynb 파일은 Z fold 제품 후기 영상 댓글에서 이상치를 제거하는 코드입니다.
- flip,fold_Preprocessing&Analyze.ipynb 파일에 전처리와 분석 코드가 모두 포함되어 있습니다.
- 코드를 처음으로 실행할 때 코드에서 가장 상단에 주석으로 처리한 install 명령어들(! install pyLDAvis 제외)을 모두 실행시켜야 합니다.
- 불용어 사전인 'stopwords.txt' 와 komoran 형태소 분석기 사전인 'komoran_dict.txt' 을 다운받아 코드에 활용하세요.
- 불용어 사전을 활용하여 텍스트에서 불용어 사전에 수록된 단어들(불용어들)을 제거합니다.
- 불용어 사전에 새로 발견한 불용어를 계속 추가해도 됩니다.
- new line 단위로 단어들이 구분되어 있으므로 불용어를 사전에 추가할 때에도 이 형식에 따라 추가합니다.
- komoran 형태소 분석기 사전에 새로운 단어와 그 단어에 대응되는 품사를 추가하여 미등록 단어(out of vocabulary, oov) 문제를 해결하세요.
- 단어 (탭) 품사 형태로 komoran 형태소 분석기 사전에 추가합니다.
- 불용어 사전을 활용하여 텍스트에서 불용어 사전에 수록된 단어들(불용어들)을 제거합니다.