Projekt polega na wykorzystaniu języka Python do scrapowania danych z strony oraz API TripAdvisor w celu pozyskania informacji o hotelach i recenzjach. Następnie zebrane dane są zapisywane w bazie danych MongoDB. Dane te mogą być później wykorzystane do uczenia maszynowego oraz analizy.
- Scrapowanie danych:
- Skrypty napisane w języku Python są wykorzystywane do scrapowania danych ze strony oraz API TripAdvisor.
- Zbierane informacje o hotelach i odpowiadających im recenzjach
- Przechowywanie danych:
- Do przechowywania zebranych danych używana jest baza danych MongoDB.
- Dane sązapisane w kolekcjach w bazie danych MongoDB w celu łatwego pobierania i zarządzania nimi.
- Wykorzystanie danych:
- Zebrane zbiory danych stanowią cenne zasoby do zastosowań w uczeniu maszynowym.
- Ponadto dane są analizowane, aby wyciągać wnioski i trendy w branży hotelarskiej.
- Konfiguracja środowiska:
- Upewnij się, że na Twoim systemie zainstalowany jest język Python.
- Zainstaluj niezbędne pakiety języka Python za pomocą pip lub conda.
- Klucz od TripAdvisor API zapisz do pliku
.env
do zmiennejTRIPADVISOR_KEY
.
- Instalacja MongoDB:
- Zainstaluj MongoDB i skonfiguruj lokalną instancję lub połącz się z zdalnym serwerem MongoDB.
- Ścieżkę połączenie do bazy danych zapisz do pliku
.env
do zmiennejMONGO_HOST
.
- Skrypty w języku Python:
crawler.py
służy do scrapowania identyfikatorów hoteli.fetch_hotels.py
pobiera dane hoteli za pomocą API TripAdvisor, których identyfikatory są zapisane wids.txt
.fetch_reviews.py
dla hoteli, które nie mają opinij w bazie danych pobiera za pomocą API TripAdvisor opinie.
- Dostęp do danych:
- Pobierz przechowywane dane z bazy danych MongoDB w celu dalszej analizy lub zadań związanych z uczeniem maszynowym.
- Wykorzystaj zapytania MongoDB, aby wydobyć cenne wnioski i trendy w dziedzinie hotelarstwa.
- Marko Golovko
- Arkadiusz Stryjewski