Ética en el Web Scraping

Raspando, Jan-25-20225 minutos de lectura

El web scraping no es un concepto nuevo, ya que todo Internet se basa en él. Por ejemplo, cuando compartes el enlace de un vídeo de Youtube en Facebook, se extraen sus datos para que la gente pueda ver la miniatura del vídeo en tu publicación. Así pues, hay infinitas formas de utilizar el scraping de datos en beneficio de todos. Pero hay

Índice

El web scraping no es un concepto nuevo, ya que todo Internet se basa en él. Por ejemplo, cuando compartes el enlace de un vídeo de Youtube en Facebook, se extraen sus datos para que la gente pueda ver la miniatura del vídeo en tu publicación. Así pues, hay infinitas formas de utilizar el scraping de datos en beneficio de todos. Pero la extracción de datos de la web tiene algunos aspectos éticos.

Supongamos que usted solicita un plan de seguro médico y facilita gustosamente sus datos personales al proveedor a cambio del servicio que le presta. Pero ¿y si algún desconocido hace magia de web scraping con tus datos y los utiliza para fines personales? Las cosas pueden empezar a ponerse inapropiadas, ¿verdad? De ahí la necesidad de practicar el web scraping ético. 

En este artículo hablaremos del código de conducta del web scraping y de las consideraciones legales y éticas.

Código de conducta para el Web Scraping

Para practicar el "web scraping" legal, debe atenerse a las siguientes reglas sencillas.

No rompas Internet - Tienes que saber que no todos los sitios web pueden soportar miles de peticiones por segundo. Algunos sitios web lo permiten, pero otros pueden bloquearte si envías varias solicitudes utilizando la misma dirección IP. Por ejemplo, si escribes un scraper que sigue hipervínculos, deberías probarlo primero en un conjunto de datos más pequeño y asegurarte de que hace lo que se supone que debe hacer. Además, debe ajustar la configuración de su raspador para permitir un retraso entre las solicitudes. 

Ver el archivo robots.txt - Los sitios web utilizan archivos robots.txt para que los robots sepan si el sitio se puede rastrear o no. A la hora de extraer datos de la web, es necesario entender y respetar críticamente el archivo robots.txt para evitar ramificaciones legales. 

Comparte lo que puedas - Si obtienes permiso para raspar los datos de dominio público y los raspas, puedes ponerlos ahí fuera (por ejemplo, en datahub.io) para que otras personas puedan reutilizarlos. Si escribes un raspador web, puedes compartir su código (por ejemplo, en Github) para que otros puedan beneficiarse de él. 

No compartas contenidos descargados ilegalmente - A veces está bien escrapear los datos para fines personales, aunque la información esté protegida por derechos de autor. Sin embargo, es ilegal compartir datos sobre los que no se tiene derecho a compartir.

Puedes preguntar amablemente - Si necesitas datos de una organización en particular para tu proyecto, puedes preguntarles directamente si podrían proporcionarte los datos que deseas. Si no, también puede utilizar la información principal de la organización en su sitio web y ahorrarse la molestia de crear un raspador web. 

Consideraciones éticas sobre el Web Scraping

Debe tener en cuenta los siguientes principios éticos al extraer datos de la Web.

No robe los datos

Hay que saber que el web scraping puede ser ilegal en determinadas circunstancias. Si los términos y condiciones del sitio web que queremos raspar prohíben a los usuarios copiar y descargar el contenido, entonces no debemos raspar esos datos y respetar los términos de ese sitio web.

No pasa nada si raspas los datos que no están detrás del sistema de autenticación protegido por contraseña (datos disponibles públicamente), teniendo en cuenta que no rompes el sitio web. Sin embargo, puede ser un problema potencial si compartes los datos extraídos. Por ejemplo, si descargas contenidos de un sitio web y los publicas en otro, tu scraping se considerará ilegal y constituirá una violación de los derechos de autor. 

No rompa la Web

Cuando se escribe un web scraper, se consulta un sitio web repetidamente y se accede potencialmente a su gran número de páginas. Para cada página, se envía una solicitud al servidor web que aloja el sitio. El servidor procesa la petición y envía una respuesta al ordenador que ejecuta el código. Las peticiones que enviamos consumen recursos del servidor. Por eso, si enviamos demasiadas peticiones en un breve espacio de tiempo, podemos impedir que los demás usuarios habituales accedan al sitio durante ese tiempo.

Los hackers suelen realizar ataques de denegación de servicio (DoS) para apagar la red o la máquina, haciéndola inaccesible a los usuarios previstos. Para ello, envían información al servidor que provoca una caída o inundan de tráfico el sitio web objetivo. 

La mayoría de los servidores web modernos incluyen medidas para evitar el uso ilegítimo de sus recursos, ya que los ataques DoS son habituales en Internet. Están atentos a un gran número de solicitudes procedentes de una única dirección IP. Pueden bloquear esa dirección si envía varias solicitudes en un breve intervalo de tiempo.

Pregunte y comparta

Merece la pena preguntar a los conservadores o a los propietarios de los datos que piensa raspar, en función del alcance de su proyecto. Puede preguntarles si disponen de datos en un formato estructurado que pueda ajustarse a las necesidades de su proyecto. Si quieres utilizar sus datos con fines de investigación de una manera que pueda interesarles, puedes ahorrarte el trabajo de escribir un raspador web. 

También puedes ahorrar a otros la molestia de escribir un raspador web. Por ejemplo, si publicas tus datos o documentación como parte del proyecto de investigación, puede que alguien quiera obtener tus datos para utilizarlos. Si quieres, puedes proporcionar a otros una forma de descargar tus datos sin procesar en un formato estructurado, ahorrando así t

Más vale prevenir que curar

La legislación sobre privacidad de datos y derechos de autor varía de un país a otro. Tienes que comprobar las leyes que se aplican en tu contexto. Por ejemplo, en países como Australia, es ilegal extraer información personal como números de teléfono, direcciones de correo electrónico y nombres, aunque sean públicos.

Debe respetar el código de conducta del web scraping para obtener datos para su uso personal. Sin embargo, si quieres recopilar grandes cantidades de datos con fines comerciales o de investigación, probablemente tengas que buscar asesoramiento legal.

Proxies para un Web Scraping ético

Ya sabes que los proxies tienen una gran variedad de aplicaciones. Su objetivo principal es ocultar la dirección IP y la ubicación del usuario. Los proxies también permiten a los usuarios acceder a contenidos con restricciones geográficas cuando navegan por Internet. Así, los usuarios pueden acceder a las páginas ocultas ya que los proxies eluden el contenido y las restricciones geográficas.

Puedes utilizar proxies para maximizar el rendimiento del scraper, ya que reducen las tasas de bloqueo. Sin ellos, se puede raspar un mínimo de datos de la web. Esto se debe a que los proxies superan las tasas de rastreo, lo que permite a las arañas extraer más datos. La tasa de rastreo indica el número de peticiones que se pueden enviar en un periodo de tiempo determinado. Esta tasa varía de un sitio a otro. 

Elegir proxies

Puede elegir proxies en función de los requisitos de su proyecto. Puede utilizar un proxy privado o un proxy compartido.

  • Los proxies privados son los mejores si su proyecto necesita un alto rendimiento y una conexión máxima.
  • Los proxies compartidos funcionan bien cuando se realiza un proyecto a pequeña escala con un presupuesto limitado.
  • Se desaconseja el uso de proxies gratuitos para extraer datos de la web. Esto se debe a que están abiertos al público y a menudo se utilizan para actividades ilegales.

Puede identificar las fuentes IP además de elegir proxies para su proyecto. Hay tres categorías de servidores proxy. 

Datacenter Proxies - Estos son los proxies más baratos y prácticos para el web scraping. Estas IP se crean en servidores independientes y se utilizan eficazmente para llevar a cabo proyectos de scraping a gran escala.

Apoderados Residenciales - Pueden ser difíciles de obtener ya que están afiliados a terceros. 

Proxies móviles: son los más caros y son ideales si tienes que recopilar datos que sólo son visibles en dispositivos móviles.

Conclusión sobre la ética del Web Scraping

Hasta ahora, hemos hablado de que puedes extraer datos de Internet teniendo en cuenta las consideraciones legales y éticas. Por ejemplo, no debes robar datos de la web. No puedes compartir datos sobre los que no tienes derecho. Si necesitas los datos de una organización para tu proyecto, puedes preguntarle amablemente si puede compartir sus datos sin procesar en un formato estructurado. Si no, puedes escribir tu web scraper para extraer datos del sitio web si te lo permiten. Además, hemos comentado que puedes elegir diferentes proxies dependiendo de las necesidades de tu proyecto. Puede utilizar el centro de datos o IPs residenciales, ya que son ampliamente utilizados para el web scraping.