
PROJET ETUDIANT : Scraping Web
Hello,
Voici un projet de scraping web.
Il s’agit de scraper un site web (fictif) de librairie en ligne afin d’en extraire des informations ciblées sur des livres d’occasion. Les informations sont classifiées dans un fichier CSV, avec en-tête, par catégorie de livres.
Le site scrapé est : https://books.toscrape.com
Dans ce projet, j’ai développé un script de web scraping en Python à l’aide des bibliothèques requests, BeautifulSoup et csv, visant à extraire automatiquement les données d’un site de librairie en ligne. L’application parcourt l’ensemble des catégories de livres, récupère pour chaque ouvrage des informations structurées telles que le titre, le prix, la disponibilité et l’image associée, puis organise les résultats dans des fichiers CSV distincts par catégorie, avec un stockage des images dans un dossier dédié. Ce projet m’a permis de renforcer ma compréhension des requêtes HTTP, du parsing HTML, de la structuration et de l’automatisation des données, ainsi que des bonnes pratiques de développement Python. En complément, j’ai conçu deux interfaces graphiques : la première reproduit les sorties du terminal dans un QWidget, tandis que la seconde affiche en temps réel l’avancement du scraping, les catégories analysées et les informations principales des livres, tout en conservant une trace complète de l’exécution dans l’interface.
En quelques mots-clés :
-
Python
-
Web scraping
-
Requests
-
BeautifulSoup
-
Parsing HTML
-
Requêtes HTTP
-
Extraction de données
-
Automatisation
-
Structuration des données
-
Fichiers CSV
-
Organisation par catégories
-
Gestion des fichiers et dossiers
-
Téléchargement d’images
-
Interfaces graphiques (GUI)
-
Widgets Qt (QWidget) / PySide6
-
Affichage en temps réel
-
Suivi de l’exécution / logs
J’ajouterai ci-dessous les améliorations apportées à ce projet. La dernière version, en date, en tête de page.
V02 : Le scraper avec interface graphique qui affiche le contenu scrapé tout au long du processus + le contenu du terminal.
Le code source : repository GitHub
Exemple d’exécution :

V01 : Le scraper avec interface graphique qui affiche le contenu du terminal tout au long du processus de scraping.
Le code source : repository GitHub
Exemple d’exécution :

A bientôt ! 😉
