Projekt Web Scraper Lubimyczytać.pl

Automatyzacja pobierania danych o książkach

Projekt implementuje zaawansowany web scraper do pozyskiwania danych o książkach z portalu Lubimyczytać.pl. System pozwala na automatyczne zbieranie informacji z profili użytkowników i eksport do formatu CSV. Natępnie możliwa jest konwersja do formatu CSV przyjmowanego przez Goodreads.

Główne funkcjonalności

Kompleksowa ekstrakcja metadanych książek z automatycznym wykrywaniem struktury strony. Zbierane są wszystkie istotne informacje o książkach, w tym dane identyfikacyjne, statystyki ocen, informacje o serii oraz personalne oznaczenia użytkownika. Wykorzystanie z Selenium do interakcji z dynamicznie ładowanymi elementami strony, co pozwala na zebranie każdej ksiżki na stronie profilu użytkownika, nastepnie selenium przejdzie do następnej strony i powtórzy proces, aż do zebrania wszystkich książek. Kolejny krok to uzyskanie brakujących takich jak orginalny tytuł, czy ISBN poprzez wejście bezpośrednio w link do książki.

📚 Zbierane dane

ID Tytuł Autor ISBN Cykl Średnia ocena Liczba ocen Czytelnicy Opinie Ocena użytkownika Link Data przeczytania Stus ksiązki Półki urzytkownika Polski Tytuł

📁 Struktura projektu

/web_scraping_lubimyczytac/
├── main.py
├── scrapper.py
├── table_utils.py
├── dane/books.csv
└── requirements.txt

⚙️ Technologie

Python 3.10
Selenium
ChromeDriver
CSV

Przygotowanie do użycia:

  • Wymagany Python 3.x zainstalowany na komputerze
  • Aplikacja działa w trybie konsolowym - uruchamiaj przez terminal/CMD
  • Przed uruchomieniem zainstaluj zależności
  • Gotowy plik goodreads.csv zaimportuj na stronie:
    goodreads.com/review/import
  • Import książek może zająć kilka minut.
  • Na tem moment około 95% ksiązek jest poprawnie importowanych.
Konfiguracja

Aby skonfigurować scraper, należy edytować plik config.ini i podać swój unikalny adres URL profilu na Lubimyczytać.pl.

[settings]
profile_url = https://lubimyczytac.pl/profil/605200/stokuj/
Instalacja i uruchomienie

to do

# Instalacja zależności
pip install -r requirements.txt

# Uruchomienie scrapera
python main.py 

Przykładowe dane wyjściowe

Tytuł Autor Ocena Półki
Mistrz i Małgorzata Michaił Bułhakow 8.9/10 klasyka, rosyjska
Władca Pierścieni J.R.R. Tolkien 9.5/10 fantasy, ulubione

Możliwości rozbudowy

📊 Analiza danych

  • Integracja z Pandas
  • Wizualizacje w Matplotlib

🌐 API

  • REST API FastAPI
  • Autoryzacja JWT

🖥️ GUI

  • Interfejs Tkinter
  • Web Dashboard

Obsługiwane strony
2
Lubimyczytać + Goodreads
Linie kodu
500+
Python + HTML