Giter VIP home page Giter VIP logo

graduation_thesis's Introduction

유튜브 댓글 전처리와 LDA 토픽모델링을 사용한, 삼성전자 폴더블폰에 대한 대중의 반응 분석

Graduation_Thesis repository에 수록된 코드들은 한국외국어대학교 언어인지과학과 학부 2022년 1학기 졸업논문 주제 인 '유튜브 댓글 전처리와 LDA 토픽모델링을 사용한, 삼성전자 폴더블폰에 대한 대중의 반응 분석'에 활용되었습니다.

  • 유튜브 댓글을 크롤링하여 대량의 텍스트 데이터 속에서 삼성전자 폴더블폰 제품인 '갤럭시 Z flip''갤럭시 Z fold' 에 대한 대중의 반응을 분석했습니다.
  • 텍스트 정제 및 정규화로 텍스트 전처리 과정을 수행하였습니다.
  • 전처리를 거친 텍스트를 활용하여 '빈도분석''LDA 토픽모델링 분석' 을 수행하여 토큰들의 관계를 분석하고 대중의 반응을 분석했습니다.

1. 유튜브에서 댓글 수집(크롤링)하기

  • flip,fold_Youtube_comments_crawling.ipynb 파일을 이용했습니다.
  • url에 Z flip 또는 Z fold 제품후기 유튜브 영상 url을 입력하면 댓글이 자동으로 추출됩니다.

2. 텍스트에서 이상치 제거하기

  • 지나치게 짧은 댓글, 즉 글자 수가 너무 적은 댓글에서는 의미 있는 정보를 직관적으로 포착하기 어렵습니다.
  • 따라서 이러한 텍스트는 이상치로 간주하여 모두 제거했습니다.
  • zflip3_Outlier_Detection.ipynb 파일은 Z flip 제품 후기 영상 댓글에서 이상치를 제거하는 코드이며 zfold3_Outlier_Detection.ipynb 파일은 Z fold 제품 후기 영상 댓글에서 이상치를 제거하는 코드입니다.

3. 텍스트 전처리 및 분석

  • flip,fold_Preprocessing&Analyze.ipynb 파일에 전처리와 분석 코드가 모두 포함되어 있습니다.
  • 코드를 처음으로 실행할 때 코드에서 가장 상단에 주석으로 처리한 install 명령어들(! install pyLDAvis 제외)을 모두 실행시켜야 합니다.
  • 불용어 사전인 'stopwords.txt' 와 komoran 형태소 분석기 사전인 'komoran_dict.txt' 을 다운받아 코드에 활용하세요.
    • 불용어 사전을 활용하여 텍스트에서 불용어 사전에 수록된 단어들(불용어들)을 제거합니다.
      • 불용어 사전에 새로 발견한 불용어를 계속 추가해도 됩니다.
      • new line 단위로 단어들이 구분되어 있으므로 불용어를 사전에 추가할 때에도 이 형식에 따라 추가합니다.
    • komoran 형태소 분석기 사전에 새로운 단어와 그 단어에 대응되는 품사를 추가하여 미등록 단어(out of vocabulary, oov) 문제를 해결하세요.
      • 단어 (탭) 품사 형태로 komoran 형태소 분석기 사전에 추가합니다.

graduation_thesis's People

Contributors

jihwanlee17 avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.