Giter VIP home page Giter VIP logo

ir-lab's Introduction

IR-lab: Εργαστήριο ανάκτησης πληροφορίας

Εργαστήριο Γαληνός: Παρασκευή, 11:00πμ

Web scrapping (python)

Θα αξιοποιήσουμε jupyter lab για την υλοποίηση ενός απλού web scrapper.
Θα κάνουμε αξιοποίηση στο μηχάνημά μας και σε google colab.

  • Εγκατάσταση jupyter lab σε ένα docker container (για να είναι disposable :-), μπορείτε όμως να προσπεράσετε τη χρήση docker (αγνοήστε το κίτρινο highlight) και να κάνετε native εγκατάσταση στο μηχάνημά/λειτουργικό σας.

    • Δημιουργία ενός python container
      docker run --name jupyter -ti -p 8888:8888 -v `pwd`:/jupyter python:latest /bin/bash
      Το -p θα μας παρέχει πρόσβαση στο web server που θα ξεκινήσει εντός του container και θα ακούει στο port 8888.
      Το -v κάνει map το τρέχον directory στο /jupyter εντός του container (αυτό το directory θα είναι διαθέσιμο και στο host λειτουργικό μας και μέσα στον container)
    • Εγκατάσταση του jupyter lab
      pip install jupyterlab
    • Εκκίνηση του jupyter lab
      jupyter-lab --ip 0.0.0.0 --port 8888 --allow-root
    • Ελέγξτε στο terminal για το token το οποίο σας δίνει πρόσβαση στο jupyter lab, πχ:
    [C 2022-02-24 04:48:56.534 ServerApp]
    
    To access the server, open this file in a browser:
        file:///root/.local/share/jupyter/runtime/jpserver-27-open.html
    Or copy and paste one of these URLs:
        http://de00f90ffb61:8888/lab?token=fe8650eb49bdace494ab617f7b922535f33758fea99c824c
     or http://127.0.0.1:8888/lab?token=fe8650eb49bdace494ab617f7b922535f33758fea99c824c
    

    Χρησιμοποιήστε το url τύπου http://127.0.0.1:8888/lab?token=...

  • Δημιουργήστε ένα Python 3 notebook και ξεκινάμε για το web scrapping

    • Μελετήστε τον κώδικα που περιγράφει πώς κάνουμε web scrapping με χρήση της βιβλιοθήκης Beautiful Soup της python: https://realpython.com/python-web-scraping-practical-introduction/#use-an-html-parser-for-web-scraping-in-python
    • Δημιουργήστε ένα notebook στο οποίο να κάνετε scrap τα έργα του Shakespeare, αποθηκεύοντας κάθε έργο σε μορφή απλού κειμένου σε ένα ξεχωριστό αρχείο με όνομα τον τίτλο του έργου. Αναμίξτε τον κώδικα python που γράφετε με block κειμένου markdown στα οποία εξηγείτε τι κάνετε σε κάθε (ουσιώδες) βήμα.
    • Happy coding :-)
    • Όταν ολοκληρώσετε το notebook σας, αποθηκεύστε το τοπικά στον υπολογιστή σας (Download) και στη συνέχεια ανεβάστε το στο https://colab.research.google.com/. Δοκιμάστε να εκτελέσετε εκεί το notebook που φτιάξατε στο δικό σας jupyter lab.

ir-lab's People

Contributors

riggas-ionio avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.