Recommandations sur les usages du webscraping au sein d'INRAE
INRAE aide les porteurs et porteuses de projet utilisant le webscraping au sein d’INRAE, à faire des choix éclairés tout au long du projet pour respecter l'ensemble des règles législatives et institutionnelles, par le biais de checklists, de logigrammes et de recommandations.
Les pratiques de webscraping (extraction automatique de données sur un site web) sont aujourd’hui employées de plus en plus fréquemment dans le cadre de projets de recherche. Le webscraping permet en effet d’obtenir des données non disponibles autrement, lorsqu’aucune API ou aucun portail open data ne sont disponibles pour accéder aux données. Cela représente un gain de temps important par rapport à l’extraction manuelle d’informations sur une page web (copier-coller). Cette technique offre la possibilité de cibler précisément les informations recherchées et de les organiser pour répondre aux problématiques traitées dans le projet de recherche. Le webscraping peut aussi être réalisé à plusieurs reprises dans le temps afin de mettre à jour régulièrement les données dans le cas d’études longitudinales.
Au sommaire de cette note :
- Introduction
- Concevoir le projet
- Collecter les données
- Traiter et analyser les données
- Stocker des données en cours de projet
- Partager / Diffuser / Réutiliser
- Préserver / Supprimer
- Références
- Personnes / services à contacter
- Sources externes
Accèder à la note
Hadi Quesneville, Odile Hologne, Muriel Lightbourne, Cécile Janet, Timothée Gardin, 2024. Recommandations sur les usages du webscraping au sein d'INRAE, INRAE (France), 19 p.
DOI : 10.17180/VKA1-NG75
Ce guide est mis à disposition selon les termes de la licence Creative Commons CC BY 4.0
https://creativecommons.org/licenses/by/4.0/
Retour