Sistemas Anti-Bot: ¿Cómo funcionan y pueden burlarse?

Guías, Oct-07-20245 minutos de lectura

Los sistemas anti-bot son tecnologías diseñadas para proteger los sitios web de interacciones automatizadas, como el spam o los ataques DDoS. Sin embargo, no todas las actividades automatizadas son perjudiciales: por ejemplo, los bots son a veces necesarios para realizar pruebas de seguridad, crear índices de búsqueda y recopilar datos de fuentes abiertas. Para realizar estas tareas sin ser bloqueado por los sistemas anti-bot, necesitará herramientas especializadas.

Para poder burlar un sistema anti-bot, es esencial entender cuáles son los diferentes tipos de protección y cómo funcionan.

¿Cómo detectan los robots los sistemas anti-bots?

Los sistemas antirrobot recopilan una gran cantidad de información sobre cada visitante del sitio web. Esta información se analiza y, si algún parámetro no parece característico de los usuarios humanos, el visitante sospechoso puede ser bloqueado o se le puede pedir que resuelva un CAPTCHA para demostrar que es, de hecho, de origen humano.

Esta información suele recopilarse en tres niveles: red, comportamiento y huella digital del navegador.

  • El nivel de red: Los sistemas anti-bot analizan las solicitudes, comprueban la puntuación de spam de las direcciones IP e inspeccionan las cabeceras de los paquetes. Los visitantes cuyas direcciones IP aparezcan en "listas negras", pertenezcan a centros de datos, estén asociados a la red Tor o parezcan sospechosos de otras formas podrían enfrentarse a un desafío CAPTCHA. Probablemente lo haya experimentado en su vida cuando Google le envió a resolver un CAPTCHA sólo porque estaba utilizando un servicio VPN gratuito.
  • Nivel de huella digital del navegador: Los sistemas anti-bot recopilan información sobre el navegador y el dispositivo utilizado para acceder al sitio web, creando la correspondiente huella digital del dispositivo. Esta huella digital suele incluir el tipo, la versión y la configuración de idioma del navegador, la resolución de la pantalla, el tamaño de la ventana, el ruido del hardware, las fuentes del sistema, los dispositivos multimedia, etc.
  • Nivel de comportamiento: Algunos sistemas avanzados examinan hasta qué punto las acciones de un usuario coinciden con el comportamiento de los visitantes habituales del sitio web.

Hay muchos sistemas anti-bot, y los detalles de cada uno pueden variar mucho y cambiar con el tiempo. Las soluciones más populares son:

  • Akamai
  • Cloudflare
  • Datadome
  • Incapsula
  • Casada
  • Perímetrox

Entender qué sistema anti-bot protege un sitio web puede ser importante para elegir la mejor estrategia de evasión. Encontrarás secciones enteras dedicadas a eludir sistemas anti-bot específicos en foros especializados y canales de Discord. Por ejemplo, esta información se puede encontrar en The Web Scraping Club.

Para identificar qué sistema anti-bot utiliza un sitio web, puede utilizar herramientas como la extensión de navegador Wappalyzer.

¿Cómo burlar los sistemas anti-bot?

Para evitar que el sistema detecte la automatización, es necesario garantizar un nivel suficiente de enmascaramiento en cada nivel de detección. Esto puede conseguirse de varias maneras:

  • Utilizando sus propias soluciones a medida y manteniendo la infraestructura de forma independiente;
  • Utilizando servicios de pago como Apify, Scrapingbee, Browserless o Surfsky;
  • Combinando proxies de alta calidad, solucionadores CAPTCHA y navegadores antidetección;
  • Utilizando navegadores estándar en modo headless con parches antidetección;
  • O utilizando muchas otras opciones de complejidad variable.

Enmascaramiento a nivel de red

Para proteger un bot a nivel de red, es esencial utilizar proxies de alta calidad. Por supuesto, se pueden realizar tareas sencillas utilizando sólo su propia dirección IP, pero es poco probable que este enfoque sea factible si pretende recopilar una cantidad significativa de datos. Necesitarás buenos proxies residenciales o móviles que no hayan sido incluidos en listas negras para enviar decenas de miles de peticiones con regularidad.


Comprobación de la dirección IP mediante IPQualityScore

A la hora de elegir un proxy, presta atención a los siguientes parámetros:

  • Si su dirección IP aparece en bases de datos de spam. Esto puede comprobarse con herramientas como PixelScan o consultando la base de datos iplists.firehol.org.
  • Si hay fugas de DNS. Al realizar pruebas con un comprobador adecuado, como DNS Leak Test, su servidor real no debería aparecer en la lista de servidores.
  • El tipo de proveedor de proxy. Los proxies pertenecientes a ISP son menos sospechosos.

Puede obtener más información sobre cómo comprobar la calidad del proxy aquí.

Los proxies rotatorios también son útiles para el web scraping. Proporcionan muchas direcciones IP, en lugar de sólo una, lo que reduce la posibilidad de que un bot que recopila información sea bloqueado, ya que es más difícil para el sitio web encontrar patrones en las peticiones. Los proxies rotatorios distribuyen las peticiones entre muchas direcciones IP, reduciendo los riesgos de bloqueo debidos a un gran número de peticiones desde una única IP.

Enmascaramiento de huellas dactilares

Los navegadores multicuenta (antidetección) son perfectos para suplantar las huellas digitales de los navegadores. Los de mayor calidad, como Octo Browser, suplantan la huella digital a nivel del núcleo del navegador y te permiten crear un gran número de perfiles de navegador, cada uno de los cuales parece un usuario distinto.

Configuración de la huella digital de un perfil de Octo Browser

El raspado de datos con un navegador antidetección puede realizarse con la ayuda de cualquier biblioteca o framework de automatización de navegadores. Se puede crear el número deseado de perfiles con la configuración necesaria de huellas digitales, proxies y cookies, sin tener que abrir el propio navegador. Más tarde, estos pueden ser utilizados ya sea en modo de automatización o manualmente.

Trabajar con un navegador multicuenta no es muy diferente de usar un navegador normal en modo headless. Octo Browser proporciona documentación detallada con instrucciones paso a paso sobre la conexión a la API para todos los lenguajes de programación populares.

Ejemplo de creación de un perfil de navegador Octo con Python

Los navegadores antidetección profesionales le permiten gestionar cómodamente un gran número de perfiles de navegador, conectar proxies y acceder a datos que normalmente no están disponibles con los métodos de raspado estándar gracias a un avanzado sistema de suplantación de huellas digitales.

Simulación de acciones reales de usuarios

Para burlar los sistemas anti-bot, también es necesario simular acciones de usuarios reales: retrasos, emulación de movimientos del cursor, pulsación rítmica de teclas, pausas aleatorias y patrones de comportamiento irregulares. A menudo será necesario realizar acciones como autorizarse, pulsar botones de "Leer más", seguir enlaces, enviar formularios, desplazarse por feeds, etc.

Las acciones del usuario pueden simularse utilizando soluciones populares de código abierto para la automatización del navegador como Selenium, aunque también existen otras opciones, como MechanicalSoup, Nightmare JS y otras.

Para que el scraping parezca más natural a los sistemas anti-bot, es aconsejable añadir retardos con intervalos irregulares a las peticiones.

Conclusiones

Los sistemas anti-bot protegen los sitios web de las interacciones automatizadas analizando la información de red, navegador y comportamiento del usuario. Para eludir estos sistemas, cada uno de estos niveles requiere un enmascaramiento adecuado.

  • A nivel de red, puede utilizar proxies de alta calidad, especialmente los rotativos.
  • Para falsificar la huella digital del navegador, puede utilizar navegadores antidetección multicuenta como Octo Browser.
  • Para simular las acciones reales de los usuarios, puede utilizar herramientas de automatización del navegador como Selenium, incorporando además retrasos irregulares y patrones de comportamiento.

¿Desea mejorar su configuración de web scraping con herramientas antidetección de primer nivel? 

Octo Browser es su solución ideal. Ofrece suplantación de huellas dactilares de última generación y gestión multicuenta sin esfuerzo. 

Utilice el código promocional PROXYSCRAPE para obtener una suscripción básica gratuita de 4 días a Octo Browser para nuevos usuarios. ¡No pierda esta oportunidad de mejorar su juego de web scraping!

¡Feliz raspado!