Les différents types de web scraping

Par pnguyen, 17 février, 2024

On compte 4 catégories de web scrapers que l'on va parcourir l'un après l'autre plus en détail:

Auto-construit ou pré-construit
Extension de navigateur vs logiciel
Interface utilisateur
Cloud vs local

Auto-construit ou pré-construit

Un "web scraper" auto-construit signifie que n'importe qui peut construire son propre outil de web scraping. Par contre, cela nécessite une forte connaissance en programmation, car il faut connaître les fonctionnalités que l'on veut développer pour cet outil.

À l'inverse, un "web scraper" pré-construit est un outil facilement trouvable et téléchargeable sur le web. Il est prêt à l'emploi dès son téléchargement. Certains de ces outils peuvent venir avec des fonctionnalités avancées que l'on peut personnaliser.

Extension de navigateur vs logiciel

Les "web scrapers" de type extension de navigateur agissent comme un ajout de fonctionnalité au navigateur et ont l'avantage d'être plus faciles à faire fonctionner puisqu'ils sont intégrés dans le navigateur. Par contre, étant intégrés dans le navigateur, ils deviennent limités en termes de fonctionnalités avancées.

Malgré qu'ils sont plus complexes, les logiciels web scraping peuvent palier au manque de fonctionnalités avancées des "web scrapers" d'extensions de navigateur. Ils sont directement téléchargés et installés sur un poste d'ordinateur.

Interface utilisateur

L'interface utilisateur de certains "web scrapers" va varier d'un outil à l'autre, puisque certains sont plus intuitifs que d'autres selon la configuration de l'interface utilisateur, allant d'un interface utilisateur minimal avec un interpréteur de ligne de commande à un interface entièrement configuré pour l'utilisateur n'ayant besoin qu'un bouton pour extraire les données dont il a besoin.

Cloud vs local

Les "web scrapers" cloud opèrent sur le cloud, ce qui signifie qu'ils n'utilisent pas les ressources de l'ordinateur de l'utilisateur local pour faire du web scraping. En général, ces outils sont fournis par l'entreprise dont l'utilisateur a fait l'achat et utilisent un serveur de l'entreprise.

En revanche, les "web scrapers" locaux utilisent les ressources de l'ordinateur local. Cela pourrait affecter la performance de l'ordinateur si le "web scraper" demande beaucoup de CPU ou de RAM.

Références

https://www.parsehub.com/blog/what-is-web-scraping/

https://www.geeksforgeeks.org/what-is-web-scraping-and-how-to-use-it/

Commentaires2

Question sur les web scrapers auto-construits

Bonjour,

J'ai beaucoup aimé votre article mais j'ai juste des questions par rapport aux web scrapers auto-construits. Est-ce que cette fonctionnalité doit être faite avec un language et/ou une librarie spécifique et est-ce que vous allez les couvrir pendant vos prochains blogues?

Merci!

Web Scarpers locaux

Bonjour,

ton article est très intéressant. Il met en lumière plusieurs types de Web Scrapers. En l'occurrence, il est bon de savoir que les Web Scrapers locaux peuvent mettre en cause les performances de l'ordinateur. Cela me sert de bonne précaution à prendre si j'opte un jour pour leur utilisation.