Cómo scrapear Reddit con Python

Hay cinco formas de scrapear Reddit, y son:

Scraping manual - Es el método más sencillo pero menos eficaz en términos de velocidad y coste. Sin embargo, arroja datos de gran consistencia.
Uso de la API de Reddit - Se necesitan conocimientos básicos de codificación para raspar Reddit utilizando la API de Reddit. Proporciona los datos, pero limita el número de mensajes en cualquier hilo Reddit a 1000.
API de terceros recubiertas de azúcar: es un enfoque eficaz y escalable, pero no rentable.
Herramientas de Web Scraping - Estas herramientas son escalables y sólo requieren conocimientos básicos de uso del ratón.
Scripts de scraping personalizados - Son altamente personalizables y escalables pero requieren un alto calibre de programación.

Veamos cómo podemos scrapear Reddit utilizando la API de Reddit con la ayuda de los siguientes pasos.

Crear una cuenta API de Reddit

Es necesario crear una cuenta Reddit antes de seguir adelante. Para utilizar PRAW, debe registrarse en la API de Reddit siguiendo este enlace.

Importar paquetes y módulos

En primer lugar, importaremos los módulos incorporados de Pandas, es decir, datetime, y dos módulos de terceros, PRAW y Pandas, como se muestra a continuación:

importar praw
import pandas como pd
import datetime como dt

Obtener instancias de Reddit y subreddit

Puedes acceder a los datos de Reddit usando Praw, que significa Python Reddit API Wrapper. Primero, necesitas conectarte a Reddit llamando a la función praw.Reddit y almacenándola en una variable. Después, tienes que pasar los siguientes argumentos a la función.

reddit = praw.Reddit(client_id='PERSONAL_USE_SCRIPT_14_CHARS', \
                    client_secret='SECRET_KEY_27_CHARS ', \
                    user_agent='TU_NOMBRE_APP', \
                    nombre_usuario='YOUR_REDDIT_USER_NAME', \
                    contraseña='YOUR_REDDIT_LOGIN_PASSWORD')

Ahora, puedes obtener el subreddit de tu elección. Para ello, llama a la instancia .subreddit de reddit (variable), y pasa el nombre del subreddit al que quieres acceder. Por ejemplo, puedes usar el subreddit r/Nootropics.

subreddit = reddit.subreddit('Nootrópicos')

Acceder a los hilos

Cada subreddit tiene las siguientes cinco formas diferentes de organizar los temas creados por los Redditors:

.nuevo
.caliente
.polémico
.dorado
.top

Puedes coger los temas más votados como:

top_subreddit = subreddit.top()

Obtendrá un objeto en forma de lista con los 100 mejores envíos en r/Nootropics. Sin embargo, el límite de peticiones de Reddit es 1000, por lo que puedes controlar el tamaño de la muestra pasando un límite a .top as:

top_subreddit = subreddit.top(limit=600)

Analizar y descargar los datos

Puedes raspar los datos que quieras. Sin embargo, vamos a raspar la siguiente información sobre los temas:

id
título
puntuación
fecha de creación
cuerpo del texto

Para ello, almacenaremos los datos en un diccionario y utilizaremos un bucle for como se muestra a continuación.

topics_dict = { "title":[], \
                "score":[], \
                "id":[], "url":[], \
                "created": [], \
                "body":[]}

Ahora podemos extraer los datos de la API de Reddit. Añadiremos la información a nuestro diccionario iterando a través de nuestro objeto top_subreddit.

for envío in top_subreddit:
    topics_dict["id"].append(envío.id)
    topics_dict["título"].append(envío.título)
    topics_dict["puntuación"].append(puntuación.envío)
    topics_dict["creado"].append(envío.creado)
    topics_dict["cuerpo"].append(envío.autotexto)

Ahora, ponemos nuestros datos en Pandas Dataframes ya que los diccionarios de Python no son fáciles de leer.

topics_data = pd.DataFrame(topics_dict)

Exportar CSV

Es muy fácil crear ficheros de datos en varios formatos en Pandas, así que usamos las siguientes líneas de código para exportar nuestros datos a un fichero CSV.

topics_data.to_csv('FILENAME.csv', index=False)

Los mejores proxies de Reddit de 2021

Ya sabes que Reddit no es un sitio muy estricto en cuanto a las restricciones de uso de proxies. Pero puedes ser atrapado y penalizado si automatizas tus acciones en Reddit sin usar proxies.

Así pues, veamos algunos de los mejores proxies para Reddit que se dividen en dos categorías:

Proxies residenciales: son las direcciones IP que el proveedor de servicios de Internet (ISP) asigna a un dispositivo en una ubicación física concreta. Estos proxies revelan la ubicación real del dispositivo que el usuario utiliza para iniciar sesión en un sitio web.

Proxies de centros de datos - Se trata de varias direcciones IP que no proceden de ningún proveedor de servicios de Internet. Las adquirimos de un proveedor de servicios en la nube.

Estos son algunos de los mejores proxies residenciales y de centros de datos para Reddit.

Smartproxy

Smartproxy es uno de los mejores proveedores de proxy residencial premium, ya que es eficaz para la automatización de Reddit. Tiene un amplio grupo de IPs y proporciona acceso a todas las IPs una vez que te suscribes a su servicio.

Stormproxy

Los precios y el ancho de banda ilimitado de Stormproxies los convierten en una buena opción. Son asequibles y baratos de usar. Tienen proxies para varios casos de uso y proporcionan los mejores proxies residenciales para la automatización de Reddit.

ProxyScrape

ProxyScrape es uno de los proveedores de servicios proxy más populares que se centra en ofrecer proxies para scraping. También ofrece proxies de centros de datos dedicados junto con proxies de centros de datos compartidos. Cuenta con más de 40.000 proxies de centros de datos que puede utilizar para raspar datos de sitios web en Internet.

ProxyScrape ofrece tres tipos de servicios a sus usuarios, a saber

Proxies de centros de datos premium

Apoderados Residenciales

Proxies dedicados

Highproxies

Highproxies trabaja con Reddit y tiene las siguientes categorías de proxies:

Proxies compartidos
Apoderados privados
Proxies de sitios clasificados
Proxy de venta de entradas
Proxy multimedia

Instantproxies

También puede utilizar Instantproxies para la automatización de Reddit, ya que son muy seguros, fiables, rápidos y tienen un tiempo de actividad de alrededor del 99,9 por ciento. Son los más baratos de todos los proxies de centros de datos.

¿Por qué usar proxies de Reddit?

Necesitas proxies cuando trabajas con algunas herramientas automáticas en Reddit. Esto se debe a que Reddit es un sitio web muy sensible que detecta fácilmente las acciones automáticas y bloquea tu IP de acceso a la plataforma. Por lo tanto, si estás automatizando algunas de las tareas como votos, posts, unirte/desunirte de grupos, y gestionar más de una cuenta, definitivamente necesitas usar proxies para evitar malos resultados.

Soluciones alternativas a Scrape Reddit

Puede optar por el raspado manual si sus requisitos de raspado de Reddit son pequeños. Pero si los requisitos son grandes, debe aprovechar las metodologías de raspado automatizadas, como las herramientas de raspado web y las secuencias de comandos personalizadas. Los raspadores web demuestran ser rentables y eficientes en cuanto a recursos cuando sus requisitos diarios de raspado no superan unos pocos millones de publicaciones.

Por lo tanto, vamos a ver algunos de los mejores raspadores Reddit como la mejor solución para raspar grandes cantidades de datos de Reddit.

Scrapestrom

Scrapestorm es una de las mejores herramientas de scraping disponibles en el mercado, ya que funciona bastante bien cuando se trata de scrapear Reddit. Hace uso de la inteligencia artificial para identificar los puntos de datos clave en la página web de forma automática.

Reddit Scraper de Apify

Reddit scraper de Apify te facilita la extracción de datos sin utilizar la API de Reddit. Significa que no necesitas un token de API de desarrollador ni autorización de Reddit para descargar los datos para uso comercial. También puedes optimizar tu scraping utilizando el servicio proxy integrado de la plataforma Apify.

Conclusión

Hemos discutido cinco maneras de scrapear datos de Reddit, y la más fácil es utilizar la API de Reddit porque sólo requiere conocimientos básicos de codificación. PRAW es una envoltura de Python para la API de Reddit que le permite utilizar una API de Reddit con una interfaz limpia de Python. Pero cuando usted tiene grandes necesidades de raspado de Reddit, puede extraer los datos disponibles públicamente desde el sitio web de Reddit con la ayuda de los raspadores de Reddit. Para automatizar sus acciones en el sitio web de Reddit, necesita utilizar un centro de datos o proxies residenciales.

Por: ProxyScrape

Cómo scrapear Reddit con Python

Índice

¿Por qué es necesario scrapear Reddit?

Desafíos del scraping de Reddit