L'intelligence artificielle: le futur du web scraping

Par pnguyen, 22 mars, 2024

Le web scraping a d'abord commencé comme une activité de programmation de niche, puis il est devenu un outil commercial essentiel de nos jours. L'évolution de la technologie a introduit des scripts automatisés qui peuvent extraire des données de manière plus efficace. Au fur et à mesure que les sites web sont devenus plus avancés, les techniques de web scraping ont également progressé. Cette progression constante influence la façon dont les entreprises utilisent les données web à grande échelle et avec un niveau de sophistication sans précédent.

Aujourd'hui, grâce à l'intelligence artificielle, les web scrapers ont évolué en des outils intuitifs capables d'apprendre à partir de schémas et d'ajuster aux changements structurels de façon autonome et sans surveillance humaine constante. En d'autres mots, ils sont capables de discerner les données pertinentes et laisser de côté les données plus superflues. Étant donné que le web scraping évolue avec les avancées de l'intelligence artificielle, les web scrapers doivent naviguer plusieurs enjeux, notamment les lois sur la protection des données, la conformité aux conditions d'utilisation, le matériel protégé par des droits d'auteur, la norme d'exclusion des robots, le consentement de l'utilisateur ou encore la transparence.

Comment l'IA surmonte les obstacles

La technologie de web scraping doit surmonter plusieurs obstacles dont les suivants:

Les captchas: Les web scrapers basés sur l'IA utilisent maintenant des algorithmes avancés de reconnaissance d'images, de même que d'apprentissage automatique afin de résoudre les captchas avec une plus grande précision, permettant l'accès sans intervention humaine.
Le contenu dynamique: Les web scrapers basés sur l'IA sont conçus pour interpréter JavaScript et AJAX qui génèrent un contenu dynamique, garantissant que les données sont capturées à partir des applications web aussi efficacement que sur des pages web statiques.
La qualité des données: L'introduction de l'IA a apporté des améliorations dans l'identification et la classification des données.

L'IA et la chasse aux données

Les grands modèles de langage (large language models ou LLM en anglais) qui alimentent ChatGPT et d'autres chatbots basés sur l'IA tirent leur maîtrise de la langue sur deux choses: des quantités massives de données d'entraînement extraites du web et une puissance de calcul massive afin d'apprendre à partir de ces données.

Par contre, les gens et les entreprises considèrent de plus en plus les données qu'ils mettent sur le web comme leur propriété. Si une entreprise technologique veut l'utiliser pour former ses modèles de langage, ces derniers veulent être rémunérés. Pendant ce temps, X, qui est anciennement Twitter, a pris des mesures pour bloquer les entreprises d'IA d'extraire du contenu sur la plateforme.

Loi sur l'IA de l'Union européenne: la première loi du genre au monde

L'UE a adopté une approche basée sur les risques dans sa loi, définissant quatre catégories différentes de systèmes d'IA qui sont les suivantes: (1) risque inacceptable, (2) risque élevé, (3) risque limité et (4) risque minimal/aucun risque.

La première catégorie de risque inacceptable comprendra les systèmes d'IA qui contreviennent aux valeurs de l'UE et sont considérés comme une menace pour les droits fandamentaux, rendant ces systèmes totalement interdits. Cela inclura les systèmes de catégorisation biométrique, le web scraping non ciblé des images faciales, la reconnaissance des émotions, etc.

La loi inclura certains systèmes d'IA dans la catégorie à haut risque en raison de leur danger potentiel pour la santé, la sécurité, les droits fondamentaux, l'environnement, la démocratie et l'État de droit. La deuxième catégorie de risque élevé inclura entre autres les systèmes d'IA dans le domaine des dispositifs médicaux, les systèmes utilisés pour influencer le résultat des élections ou le comportement des électeurs, etc.

Les systèmes d'IA classés comme présentant un risque limité, tels que les chatbots, seront soumis à des obligations minimales, telles que l'obligation d'informer les utilisateurs qu'ils interagissent avec un système d'IA ainsi que l'obligation de marquer les contenus d'images, d'audio ou de vidéo générés par l'IA.

Les autres systèmes d'IA non classés dans les trois catégories nommées précédemment seront classés dans la catégorie de risque minimal/aucun risque. La loi permet l'utilisation libre de ces systèmes d'IA ayant peu ou pas de risque.

Source:

https://www.promptcloud.com/blog/unlocking-the-potential-of-ai-in-website-scraping-an-overview/

https://blog.apify.com/web-scraping-2024/

Commentaires2

Article très intéressant !…

Article très intéressant ! Pensez-vous que l'avancement de l'intelligence artificielle pourrait faire en sorte de distinguer les informations personnelles des utilisateurs à ne pas lire lors de la requête d'informations ? Si oui, comment pensez-vous qu'un gouvernement puisse faire respecter une telle loi et prouver qu'elle sera appliquée ?

Très bon article, la…

Très bon article, la catégorisation des systèmes d'IA selon leur niveau de risque dans la loi de l'UE est intrigante. Je me demande comment cette approche pourrait influencer le développement et l'adoption de l'IA à l'échelle mondiale ? merci