Comment pratiquer le web scraping légalement

Par pnguyen, 15 mars, 2024

Les web scrapers permettent d'extraire toutes sortes de données provenant de différentes pages web à des fins personnelles et/ou commerciales. Mais est-ce que cela nous garantit que toute information extraite est faite de façon légale? Certaines personnes peuvent interpréter le web scraping comme du vol, parce que cela implique de "prendre" les données de quelqu'un d'autre.

Rassurez-vous, il n'y a rien d'intrinsèquement illégal dans le web scraping. Dès qu'un site web publie des données, cela implique qu'elles sont habituellement disponibles pour tout le monde et libres d'être collectées. Les sites comme Amazon affiche les prix de leurs produits en vente au public, donc il est légal de collecter des données de prix. Des utilisateurs de web scraping vont vouloir collecter ces données afin d'obtenir les bons prix.

Par contre, ce ne sont pas toutes les données qui sont destinées au public. En d'autres mots, certaines données sur le web ne sont pas légales à fins de collecte. Il faut faire attention à ne pas tomber dans le web scraping malveillant en ce qui concerne les données personnelles et la propriété intellectuelle.

Qu'est-ce que le web scraping malveillant?

Le web scraping malveillant consiste à collecter des données sur le web que la personne ayant publié ces données n'a pas donné son consentement à les partager. Bien que ces données soient généralement des données personnelles ou des propriétés intellectuelles, le web scraping malveillant peut s'appliquer à tout ce qui n'est pas destiné au public. 

Il existe donc une zone grise en cette matière. Supposons qu'un hébergeur web mette disponibles par accident des informations sensibles sur ses utilisateurs. Cela peut être des noms, des adresses courriel et d'autres informations qui ne sont sûrement pas destinées à être partagées, mais qui sont techniquement publiques. Il ne faut pas avoir le réflexe de supposer que parce que des données sont accessibles au public, elles sont légales de les collecter. L'hébergeur web de ses données doit consentir à ce qu'elles soient collectées. En conséquence, beaucoup d'hébergeurs web n'apprécient pas que leurs données soient collectées, quelle que soit leur légalité. 

Un autre type de web scraping malveillant est ce qu'on appelle le "sur-scraping" (over-scraping en anglais). Cela implique que les web scrapers envoient une quantité énorme de requêtes sur une période donnée. Trop de requêtes peuvent mettre une énorme pression sur les hébergeurs web, ce qui peuvent nuire à leurs ressources de serveurs qui devraient plutôt être privilégiées à de vraies personnes plutôt qu'à des robots de web scraping.

En conclusion, il faut utiliser le web scraping avec attention et minutie et seulement lorsqu'on est vraiment sûr que les données sont destinées à un usage public. 

Source: 

https://kinsta.com/knowledgebase/what-is-web-scraping/

Étiquettes

Commentaires1

mmane

il y a 11 mois

Bonjour, 

Ton article est très intéressant, il m'a permis d'en apprendre davantage sur le web scraping. Cependant, je me demandais comment un hébergeur web fait pour donner son consentement pour la collecte des données de ses produits/utilisateurs et s'il peut retirer son consentement n'importe quand. 

Merci