Giter VIP home page Giter VIP logo

data-cleansing's Introduction

파이썬 데이터 클리닝 쿡북

파이썬 데이터 클리닝 쿡북(원제: Python Data Cleaning Cookbook)의 예제 코드 저장소입니다.

지저분한 데이터를 찾아 제거하고 핵심적인 통찰을 얻는 현대적 기법과 파이썬 도구

도서 소개

데이터로부터 통찰을 얻으려면 데이터 정제가 필요하다. 데이터를 적절히 정제하지 않고 곧바로 분석에 들어갔다가는 잘못된 결과를 얻게 될 수 있기 때문이다. 이 책은 파이썬으로 데이터를 다루고 정제할 때 사용할 수 있는 도구와 기법을 보여준다.

먼저 통상적인 데이터소스로부터 데이터를 얻고 형태를 확인하는 일상적인 작업을 하는 법을 보여준다. 그런 다음, 데이터를 유용한 형태로 바꾸는 법을 가르친다. 원하는 데이터를 골라내고 요약함으로써 통찰을 얻는 법, 도출된 문제점을 해결하는 법도 알려준다. 이어서 누락값 처리, 오류 검사, 중복 데이터 제거, 대량 데이터 모니터링, 이상값과 잘못된 날짜를 다루는 법으로 진행한다. 지도학습과 나이브 베이즈 분석으로 예상치 못한 값과 분류 오류를 식별하고, 탐색적 데이터 분석(EDA)을 위한 시각화를 통해 예상치 못한 값을 식별한다. 끝으로, 새로운 데이터에 대해서도 수정 없이 재사용할 수 있는 함수와 클래스를 작성한다.

이 책을 마친 후에는 데이터를 정제하고 문제를 진단하는 주요 기술을 갖게 될 것이다.

책에서 다루는 주제

  • 다양한 데이터 소스로부터 데이터를 읽고 분석하는 법
  • 데이터 프레임, 열, 행의 어트리뷰트를 요약하는 법
  • 데이터를 필터링하고 주어진 요건을 충족하는 열을 선택
  • 날짜, 누락값이 있는 데이터 등 지저분한 데이터를 다루기
  • 메서드 체이닝으로 파이썬 판다스 작업 생산성을 향상
  • 시각화를 통해 통찰을 얻고 잠재적인 데이터 이슈를 식별
  • 데이터의 변동을 파악하는 능력을 향상
  • 사용자 정의 함수 및 클래스를 작성해 데이터 정제를 자동화

대상 독자

이 책은 지저분하고 중복이 있고 부실한 데이터를 여러 가지 파이썬 도구와 기법을 사용해 다루고자 하는 모든 사람을 대상으로 한다. 이 책은 레시피 방식으로 접근함으로써 독자가 데이터를 정제 및 관리하도록 돕는다. 파이썬 프로그래밍 실무 지식이 있으면 책을 최대한 활용할 수 있다.

오탈자

정오표를 참조.

저자/역자 소개

마이클 워커(Michael Walker) : 30년 이상 여러 교육기관에서 데이터 분석가로 일했다. 또한 2006년부터 대학에서 데이터 과학, 연구 방법, 통계, 컴퓨터 프로그래밍을 가르쳤다. 그는 공공 부문과 재단 보고서를 작성하며 분석 결과를 학술지에 발표한다.

최용 : 한국방송통신대학교에서 컴퓨터 과학을 전공하고 2000년대 초부터 IT 업계에서 일했다. 은행의 일괄 작업 운영과 서버 운영 자동화를 돕는 외산 소프트웨어의 기술 지원 업무를 주로 했고, 현재는 위키북스에서 교정 업무를 하고 있다.
저서로 《왕초보를 위한 파이썬》(사이버출판사, 2002), 《예제 중심의 파이썬》(인피니티북스) 등이 있으며, 《파이썬으로 배우는 데이터 과학 입문과 실습》(위키북스), 《익스플로링 라즈베리 파이》(위키북스), 《침투 본능, 해커의 기술》(위키북스), 《웹 애플리케이션 보안》(한빛미디어) 등을 번역했다.

data-cleansing's People

Contributors

ychoi-kr avatar wikibook avatar

Watchers

James Cloos avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.