Giter VIP home page Giter VIP logo

hybridgpt's Introduction

hybridGPT

  • nanoGPT를 여러가지 방법으로 구조를 변경하면서 테스트 하는 프로젝트 입니다.

말뭉치

학습데이터 정리와 인코딩 방법

prepare01

  • 문장 필터링
    • prepare01\tokenizer.py 에 코드 존재함
    • 한글, 숫자, 영대문자, 몇가지 문장기호를 포함하는 경우에만 수집한다.
    • 소괄호("(", ")")가 들어가는 경우 해당 부분을 제거한다.
    • 자주사용하는 종결형 어미로 문장이 종료되는 경우만 수집한다.
    • 한 line 당 2개 이상의 문장이 있고 300글자 이상일 때만 수지한다.
  • 인코딩
    • 수집된 문장들에 대해 kiwipiepy 형태소 분석기를 이용해 형태소로 분리한다.
    • BertWordPieceTokenizer
    좋은 글은 어떻게 써야 하는가를 알기 위해서는 우선 문장이란 무엇인가 하는 것부터 생각해 보아야 할 것이다. 
    =>
    좋/VA + 은/ETM + 글/NNG + 은/JX + 어떻/VA + 게/EC + 쓰/VV + 어야/EC + 하/VX + 는가/EC + 를/JKO + 알/VV + 기/ETN + 위하/VV + 어서/EC + 는/JX + 우선/MAG + 문장/NNG + 이란/JX + 무엇/NP + 이/VCP + ᆫ가/EC + 하/VV + 는/ETM + 것/NNB + 부터/JX + 생각/NNG + 하/XSV + 어/EC + 보/VX + 어야/EC + 하/VX + ᆯ/ETM + 것/NNB + 이/VCP + 다/EF + ./SF 
    =>
    좋 은 글 은 어떻 게 쓰 어야 하 는가 를 알 기 위하 어서 는 우선 문장 이란 무엇 이 ᆫ가 하 는 것 부터 생각 하 어 보 어야 하 ᆯ 것 이 다 .
    

hybridgpt's People

Contributors

akashmjn avatar ankandrew avatar apivovarov avatar cchan avatar ctjlewis avatar danielgross avatar drisspg avatar gnobre avatar ho2103 avatar johnwildauer avatar jorahn avatar karpathy avatar kovkev avatar laihoe avatar lantiga avatar lutzroeder avatar micropanda123 avatar nat avatar nynyg avatar okuvshynov avatar otaviogood avatar pwhiddy avatar python273 avatar ramtingh avatar ryouze avatar snehalraj avatar venusatuluri avatar yassineyousfi avatar yiunsr avatar ymurenko avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.