Utilizar navegadores sin cabeza y proxies para raspar cualquier sitio web

Apoderados, Raspado, 18 de octubre de 20215 minutos de lectura

Cuando oyes "navegador sin cabeza", estoy seguro de que no se trata de un gadget tecnológico familiar con el que te hayas topado en tu vida cotidiana, a menos que conozcas en profundidad cómo funcionan técnicamente los navegadores. La mayoría de vosotros estáis familiarizados con navegadores peculiares como Google Chrome, Firefox, Safari, etc. La única diferencia es que los navegadores headless

Cuando oyes "navegador sin cabeza", seguro que no es un artilugio tecnológico familiar con el que te hayas topado en tu vida cotidiana, a menos que conozcas en profundidad cómo funcionan técnicamente los navegadores.

La mayoría de vosotros estáis familiarizados con navegadores peculiares como Google Chrome, Firefox, Safari, etc. La única diferencia es que los navegadores sin cabeza son esos navegadores peculiares sin cabeza. Exploraremos lo que esto significa en la siguiente sección, así como sus beneficios.

¿Qué es un navegador headless?

¿Te imaginas cómo sería tu vida si Google Chrome o Firefox no tuvieran interfaz gráfica de usuario? A menos que seas un ingeniero de software o alguien de alto calibre tecnológico, no te molestarías en usarlo.

Por lo tanto, un navegador sin cabeza funciona sin botones extravagantes, iconos, barras de desplazamiento ni enlaces que permitan la navegación de un lugar a otro. Por tanto, la única forma de establecer comunicación con un navegador sin cabeza es utilizando una interfaz de línea de comandos a través de una red. 

Técnicamente, un navegador sin cabeza tendría un intérprete de JavaScript, un componente de red y motores de diseño y renderizado sin interfaz gráfica de usuario.

Entonces te preguntarás qué diablos ganaría nadie utilizando un navegador sin cabeza cuando puedes conseguir el mismo resultado a través de un navegador con GUI.

Veamos la respuesta a continuación.

¿Por qué utilizar un navegador headless?

Bueno, en primer lugar, los navegadores headless son relativamente más rápidos que los navegadores normales. Es principalmente el resultado de no cargar ningún CSS, Javascript y HTML como hacen los navegadores normales. También utilizan menos memoria en comparación con los navegadores estándar con significativamente menos recursos de alojamiento.

Además, los navegadores sin cabeza ahorran productividad y tiempo al automatizar las pruebas, la calidad y el desarrollo general de una aplicación web o móvil. Además, los navegadores sin cabecera pueden supervisar el rendimiento de las aplicaciones de red y automatizar el proceso de renderizado y captura de imágenes para realizar comprobaciones automáticas del diseño.

En lo que respecta al web scraping, los navegadores headless te permiten hacer scraping de sitios web sin tener que abrirlos manualmente antes de hacer el scraping. Así, se puede extraer directamente el código HTML del sitio.

Además, los navegadores sin cabeza desempeñan un papel vital en los resultados de búsqueda de Google. Dado que los motores de búsqueda sólo necesitan la fuente HTML de una página para indexarla, los navegadores sin cabeza lo hacen posible ejecutando Javascript y rellenando el contenido en su lugar. Esto ha llevado a un rápido desarrollo de los navegadores sin cabeza.

¿Para qué sirven los navegadores sin cabeza?

He aquí una breve lista de las tareas que realiza el navegador sin cabeza:

Pruebas de sitios web

El objetivo principal de utilizar un navegador sin cabeza es probar las funcionalidades de las aplicaciones web y las características de la interfaz de usuario. Puede probar aplicaciones web automatizando tareas de prueba cotidianas, como introducir datos en campos, rellenar formularios, simular cargas y realizar flujos de trabajo completos. Por otro lado, puede automatizar las pruebas de sistemas que carecen de interfaz gráfica de usuario.

Los navegadores sin cabeza también pueden probar cómo interactuaría el usuario con los componentes UI/UX de un sitio web. Para ello, automatiza las pulsaciones de botones, el desplazamiento, la selección de colores, los tipos de letra y las interacciones con los diseños de las páginas web. 

Probar el diseño de una página también incluye identificar el tamaño por defecto de una página web y sus coordenadas. 

Los navegadores sin cabeza pueden hacer capturas de pantalla de páginas web y guardarlas como PDF. Además, también ofrecen pruebas de ejecución de JavaScript y Ajax.

Algunas de las otras pruebas primarias que un navegador Headless puede procesar incluyen la captura del rastreo de la línea de tiempo de un sitio web para diagnósticos de rendimiento.

Web scraping

La popularidad de los navegadores sin cabeza no sólo se debe a las pruebas de aplicaciones web, sino también a una buena parte del web scraping. Permiten a los responsables de raspado web recopilar datos incluso de los sitios web de destino más complicados cargando e imitando un navegador auténtico.

Este tipo de extracción elimina la necesidad de utilizar herramientas de extracción de HTML para extraer datos, lo que se ha convertido en un reto debido a la popularidad de JavaScript. Algunos de los problemas que plantea el uso de este tipo de herramientas de extracción son la carga asíncrona, las huellas digitales del navegador y el desplazamiento infinito.

Automatización de tareas

En el primer punto anterior, cubrimos la automatización de tareas utilizando navegadores sin cabeza relacionados con las pruebas de aplicaciones web. Así que la única adición a la automatización es la capacidad de utilizar navegadores sin cabeza para automatizar la interacción del sitio web para imitar numerosos navegadores en una sola máquina sin causar acaparamiento de recursos.

¿Cuáles son los distintos tipos de navegadores headless?

Existen varios navegadores headless. Como desarrollador web, debes probar varios sabores de navegadores headless para obtener la mejor combinación para automatizar casos de prueba y web scraping.

Averigüemos cuáles son:

Navegador Google Chrome Headless (versión 59 o superior)

Basado en el proyecto de código abierto Google Chromium, es un navegador ligero sin cabeza. Es compatible con JavaScript y tiene licencia BSD.

Dispone de una interfaz de línea de comandos para escanear y raspar al instante los datos del sitio web. Además, consume menos memoria e incluye funciones innovadoras, herramientas de desarrollo web fáciles de usar y herramientas específicas para desarrolladores. Headless Chrome funciona en todas las plataformas, incluidas Windows, Mac OS X y Linux.

Los desarrolladores web suelen utilizarlo para extraer datos de sitios web, hacer capturas de pantalla de sitios web y crear archivos PDF a partir de páginas web. Lo más fascinante de Headless Chrome es que también se pueden extraer datos e imágenes sin cargar la interfaz gráfica del navegador.

Los desarrolladores también utilizan navegadores sin cabeza para probar distintos niveles de navegación y garantizar que los usuarios de dispositivos móviles y de sobremesa puedan navegar con facilidad.

Entonces Puppeteer y Selenium son dos de las herramientas más comunes que controlan Headless Chrome. Como sabrás, Selenium ya se ha hecho un nombre en el ámbito de las pruebas. Mientras que Puppeteer, por otro lado, utiliza proxies para rastrear páginas, hacer clic en componentes y descargar datos.

HtmlUnit

HtmlUnit es un navegador sin cabeza desarrollado en Java para automatizar la interacción de los sitios web con los usuarios. Este navegador es ideal para probar sitios web o recuperar información de ellos. Es el más rápido de instalar en comparación con los demás.

HTMLUnit también puede utilizarse para crear y probar funciones de sitios web de comercio electrónico, como la seguridad del sitio, el envío de formularios, la navegación, etc. Usted, como desarrollador, podría utilizarlo para autenticaciones HTTP, rendimiento de páginas HTTPS, rendimiento de encabezados HTTP, redirección de enlaces a otros sitios web y cumplimentación de formularios y procesos de envío. 

Mozilla Firefox Headless Browser (versión 56 o superior)

La versión headless de Firefox está disponible a partir de la versión 56. Permite a los desarrolladores ejecutar varias API simultáneamente. Al hacerlo, no es necesario utilizar varias herramientas de simulación para las pruebas asociadas al desarrollo web.

Por lo tanto, usted podría combinar cualquier controlador web, como Selenium, Slimmer JS, y W3C WebDriver, con Firefox headless para pruebas de automatización del navegador web. Selenium es el controlador recomendado para conducir procesos de pruebas y automatización en la versión headless de Firefox, de los tres controladores web que he mencionado.

PhantomJS Webkit

Phantom JS es un navegador sin cabeza WebKit de código abierto en el que se pueden ejecutar scripts. Se ejecuta en JavaScript, PHP, Objective-C, C#, Python, Java, Haskell, Ruby y R APIs utilizando el 3-Clause y BSD, aunque PhantomJS no se mantiene. 

Phantom JS proporciona soporte nativo para operaciones de desarrollo web como manipulación DOM, SVG, selectores CSS, Canvas y JSON en una fase rápida. Por otro lado, gestiona muchas complejidades en pruebas y procesos de automatización de navegadores web mediante la comunicación a través de una interfaz de línea de comandos.

Los desarrolladores utilizan con frecuencia JS fantasma para capturar pantallas de páginas web, realizar predicciones de comportamiento, pruebas de navegación multinivel e interactuar con múltiples tipos de aserción.

Utilizar un navegador sin cabeza para evitar ser incluido en una lista negra o vetado

Como ya has descubierto anteriormente, uno de los usos prácticos de los navegadores headless es el web scraping. En esta sección te explicaremos cómo evitar que te pongan en la lista negra o te bloqueen mientras haces scraping con un navegador sin cabeza.

Cuando herramientas como Selenium utilizan un navegador headless como Google Chrome headless o Firefox headless para rastrear los datos, al sitio web de destino le parecerá que es un robot rastreando un sitio web en lugar de un humano.

Por ejemplo, como la mayoría de los sitios web están programados con lenguajes de alto nivel como PHP, podrían detectar el índice de clics. Esto significa que puede saber si un usuario hizo clic en un botón para navegar a otra página dentro de un sitio o simplemente fue a la URL sin hacer clic en el botón, pero con un enlace que conecta con ella.

Usted como desarrollador puede codificar herramientas como Selenium para escribir, hacer clic o desplazarse por cualquier sitio web cuando se utiliza un navegador sin cabeza. Así, el sitio web de destino tendrá claro que está accediendo una persona y no un robot.

Sin embargo, puede haber desventajas al usar Selenium con un navegador headless. La mayor preocupación sería una velocidad lenta al raspar las páginas web. Sin embargo, esta lentitud podría ser insignificante en comparación con otras ventajas de los navegadores sin cabeza discutidas en la sección anterior, "¿Por qué utilizar un navegador sin cabeza?"

Por otro lado, no influye en la velocidad con la que se raspa el sitio web; se trata simplemente de pasar de una página a otra. En general, merece la pena probar el raspado de un sitio web con un navegador sin cabeza si se pueden descartar los insignificantes inconvenientes.

Cómo utilizar proxies rotatorios con navegadores sin cabeza

En esta sección, entenderás por qué necesitas proxies rotatorios para hacer scraping con navegadores headless.

Cuando extrae datos de un sitio web utilizando un servidor proxy y un navegador sin encabezado, puede hacerlo de forma anónima sin que el servidor del sitio web restrinja su dirección IP.

Puede acceder y raspar datos de sitios web con contenido georrestringido utilizando un proxy rotatorio. Para conseguirlo, puedes utilizar el grupo de proxies rotatorios residenciales proporcionado por ProxyScrape, de modo que puedas hacer scraping con IPs de múltiples ubicaciones sin que el sitio web de destino te bloquee. Además, puedes raspar datos de productos de plataformas de comercio electrónico como Amazon, por ejemplo, con un número considerable de peticiones.

ProxyScrape La rotación de direcciones IP permite ejecutar varias sesiones en un sitio web. Esto, a su vez, ayudaría a eludir las restricciones generales de IP que bloquean montones de solicitudes de datos.

Rotar los proxies también te ayudaría a superar los baneos que se producen cuando intentas automatizar tareas con navegadores sin cabeza.

Conclusión

Ahora que ya sabes qué son los navegadores sin cabeza, cuándo y por qué se utilizan, y los distintos tipos. También hemos mencionado cómo evitan los bloqueos durante el scraping. Si utiliza proxies rotatorios, mejorará aún más su proceso de scraping, ya que aporta anonimato y muchas otras ventajas.

En conclusión, esperamos que pongas en práctica los mecanismos mencionados en este artículo. Debes hacerlo cuando te enfrentes al web scraping utilizando un navegador headless.