Representación de la investigación académica

Apoderados, Sep-12-20215 minutos de lectura

La investigación académica implica recopilar montones de datos de diversas fuentes, independientemente de si su investigación es cuantitativa o cualitativa. Debido a la naturaleza exhaustiva de estos datos en línea, los investigadores académicos tendrían que depender de la tecnología para extraerlos. Una de estas técnicas automatizadas que exploraremos en este artículo es el web scraping. Sin embargo, web

La investigación académica implica recopilar montones de datos de diversas fuentes, independientemente de si su investigación es cuantitativa o cualitativa. Debido al carácter exhaustivo de estos datos en línea, los investigadores académicos tendrían que depender de la tecnología para extraerlos.

Una de estas técnicas automatizadas que exploraremos en este artículo es el web scraping. Sin embargo, el web scraping por sí solo no daría resultados fructíferos. Usted tendría que depender de proxies, así con consideraciones éticas.

Pero primero exploraremos la naturaleza de estos datos. 

Principales características de los datos en línea para la investigación académica

Para la investigación académica, los datos en la web consisten en datos cuantitativos y cualitativos estructurados, no estructurados y semiestructurados. Están dispersos por la web en blogs, tuits, correos electrónicos, bases de datos, páginas web, tablas HTML, fotos, vídeos, etc.

Cuando se extraen cantidades tan grandes de datos de la web, a menudo hay que hacer frente a varios retos técnicos. Estos retos se deben al volumen, la variedad, la veracidad y la velocidad de los datos. Veamos cada una de estas variables:

Volumen: en cuanto al volumen de datos, se miden en Zettabytes (miles de millones de gigabytes), ya que se trata de grandes cantidades.

Variedad: en segundo lugar, los repositorios o bases de datos en los que se almacenan estos datos tienen diversos formatos y se basan en múltiples normas tecnológicas y reglamentarias. 

Velocidad: en tercer lugar, los datos presentes en la web son dinámicos, ya que se generan a una velocidad increíble.

Veracidad-La última característica de los datos disponibles para la investigación es la veracidad de los datos. Dado que los datos interactúan de forma anónima en la web debido a su naturaleza libre y abierta, ningún investigador podría confirmar si los datos requeridos están disponibles en la web sería suficiente, afirmando su calidad.

Debido a las variables anteriores, sería poco práctico para los investigadores académicos iniciar la recogida de datos manualmente. Así que la práctica más emergente de recopilación de datos para la investigación es el web-scraping. Analizaremos esta práctica en la sección siguiente.

¿Cómo puede ayudarle el Web Scraping en su investigación académica?

Así pues, el web scraping consiste en la extracción automática de datos web de fuentes como revistas académicas, foros de investigación, artículos académicos, bases de datos y otras fuentes necesarias para la investigación académica para su posterior análisis.

El raspado web consta de las siguientes fases:

Análisis de sitios web

Se trata del proceso de investigar la estructura subyacente de una entidad donde se almacenan los datos. Esta entidad puede ser un sitio web o un repositorio como una base de datos. El objetivo de esta investigación es comprender cómo se almacenan los datos que necesitas. Requiere comprender los bloques de construcción que componen la arquitectura web; HTML, CSS, XML, etc., para los lenguajes de marcado y MySQL para las bases de datos web.

Rastreo web

El rastreo de sitios web consiste en crear scripts automatizados que utilizan lenguajes de programación de alto nivel, como Python, para navegar por las páginas web y extraer los datos que necesita. Tienes la opción de crear scripts desde cero o comprar un script ya desarrollado.

Python contiene bibliotecas como Scrapy y Beautiful Soap Library para el rastreo y análisis automático de datos. Más información sobre rastreo y scraping web en este artículo.

Organización de datos

Una vez que la herramienta de rastreo recopila los datos necesarios de un sitio web o repositorio, es necesario limpiarlos, preprocesarlos y organizarlos para su posterior análisis. Para ahorrar tiempo, puede ser necesario un enfoque programático. Una vez más, los lenguajes de programación como Python contienen bibliotecas de Procesamiento del Lenguaje Natural (PLN) que ayudan a organizar y limpiar los datos. 

A estas alturas, ya te habrás dado cuenta de que es bastante difícil automatizar todo el proceso de scraping. Requiere cierto grado de supervisión humana. 

Ahora ya tienes una visión general de todo el proceso de web scraping. Ha llegado el momento de analizar algunos de los aspectos éticos del web scraping, ya que es necesario saber lo que se puede y lo que no se puede hacer durante el proceso.  

Aspectos éticos del web scraping para la investigación académica

El hecho de disponer de herramientas de rastreo automatizadas, ¿significa que se puede rastrear cualquier sitio? ¿Incluidos los datos de investigación que están detrás de una página de inicio de sesión o de un foro privado?

Aunque existen zonas grises en la legislación relacionada con el web scraping, debe tener en cuenta que no es ético extraer datos a los que un usuario normal no puede acceder.

Después de todo, el web scraping puede crear daños no intencionados a los propietarios de un sitio web, por ejemplo. Estos daños y peligros son difíciles de predecir y definir.

Estas son algunas de las probables consecuencias perjudiciales del web scraping:

Privacidad individual

Un proyecto de investigación que se base en la recogida de datos de un sitio web puede poner en peligro accidentalmente la privacidad de las personas que participan en las actividades del sitio web. Por ejemplo, al comparar los datos que recopiló de un sitio web con otros recursos en línea y fuera de línea, un investigador expone involuntariamente quién creó los datos.

Privacidad de la organización y secretos comerciales

Al igual que las personas tienen derecho a la intimidad, las organizaciones también tienen derecho a mantener ciertas partes de sus operaciones privadas y confidenciales. 

Por otro lado, el scraping automático podría exponer fácilmente secretos comerciales o información confidencial sobre la organización a la que pertenece el sitio web. Por ejemplo, contando los anuncios de empleo de un sitio web de contratación, un usuario inteligente podría determinar aproximadamente los ingresos de la empresa. Una situación así dañaría la reputación de la empresa e incluso podría acarrearle pérdidas económicas.

Disminución del valor organizativo

Si accede a un sitio web sin acceder a su frontend o a la interfaz, no se expondrá a las campañas de marketing que un sitio web utiliza para obtener ingresos. Del mismo modo, un proyecto de web scraping podría dar lugar a un producto que sus clientes probablemente no comprarían al propietario real del producto. De nuevo, esto provocaría pérdidas financieras a la organización al disminuir sus valores.

Extracción de datos de redes sociales para la investigación académica

Las redes sociales son una de las fuentes más importantes para extraer diversas formas de datos para la investigación. Esto se debe a la diferente información, desde el comportamiento social hasta las noticias políticas. Sin embargo, desde una perspectiva ética, no es tan sencillo recopilar todos los datos como puede parecer.

Una de las razones es que las redes sociales contienen una gran cantidad de datos personales. Además, diversos reglamentos legales protegen estos datos. Además, las normas éticas de la comunidad científica exigen salvaguardar la privacidad de los usuarios. Esto implica que tienes que evitar a toda costa cualquier daño derivado de la conexión con las personas reales que menciona tu investigación.

De hecho, no puedes ver a ninguno de los sujetos asociados a tu investigación en su entorno privado. Esto se aplica sin duda al acceso a sus perfiles de Facebook, muro o mensajes privados a los que no tienes acceso. 

Obviamente, no perjudicará personalmente a un individuo debido a la filtración de datos cuando realice una investigación cuantitativa. Por lo tanto, al realizar una investigación cualitativa, ten cuidado de no revelar información personal al citar publicaciones de usuarios como prueba.

La solución definitiva sería utilizar la técnica de seudonimización, que permite investigar datos y seguir las actividades del sujeto sin dañar su intimidad.

Cómo los proxies podrían ayudar al scraping ético en la investigación académica

Los proxies pueden desempeñar un papel muy importante en la obtención de datos para la investigación académica. Hay gigantescos conjuntos de datos de diversas fuentes entre los que elegir, y las restricciones harán que la investigación sea más compleja. Los proxies pueden ayudarle a superar muchos de estos obstáculos. Averigüemos cómo.

Eludir las restricciones geográficas por ubicación - Algunas revistas y trabajos académicos restringen el acceso a usuarios de determinados países. Utilizando proxies, puedes superar esta restricción, ya que enmascaran tu dirección IP. Además, puede seleccionar proxies residenciales de varios lugares del mundo para que los proxies no revelen su ubicación.

Automatice el proceso de recopilación de datos: como ha descubierto en la sección anterior, los raspadores web pueden recopilar una gran cantidad de datos. Sin embargo, no pueden saltarse las restricciones impuestas por los sitios web, como los captchas. Los proxies pueden ayudarle a superar estas restricciones y ayudar a los scrapers a extraer la mayor parte de los datos.

Te ayuda a estar seguro y en el anonimato: cuando realizas proyectos de investigación para organizaciones, puedes ser víctima de piratas informáticos. Esto se debe a que los hackers pueden interceptar tu conexión y robar datos confidenciales. Sin embargo, serás anónimo cuando estés detrás de un servidor proxy, ya que tu dirección IP está oculta. Por lo tanto, impediría que el hacker robara tus datos.

¿Qué tipo de proxies son los más adecuados?

Puede utilizar los proxies de centro de datos y residencial para enmascarar su dirección IP de los proxies disponibles. 

Con los proxies residenciales, podrá utilizar un conjunto de direcciones IP de varios países, de los que ya hemos hablado anteriormente.

Además, cuando utilizas un grupo de proxies, puedes rotarlos para que aparezcan ante el sitio web de destino como diferentes fuentes que acceden a él. Así es menos probable que te bloqueen la IP.

Además, algunos sitios web de investigación muestran información diferente a usuarios de distintos países. Así que otra ventaja de rotar los proxies es que puede cambiar su ubicación y verificar si los datos también cambian con estos diferentes proxies. De este modo se asegura de que su investigación es exhaustiva y eficaz a partir de múltiples fuentes de varios países. 

Proxies en el periodismo de datos

Cuando los periodistas de datos hacen scraping de datos de diarios, a la mayoría le preocupa identificarse. Algunos periodistas creen que es esencial identificarse cuando se raspan datos de sitios web específicos. Esto es análogo a presentarse a alguien antes de realizar una entrevista.

Así que si es usted periodista y prefiere identificarse, tiene que escribir una nota en la cabecera HTTP con su nombre y apellidos. También puede dejar su número de teléfono por si el webmaster desea ponerse en contacto con usted.

En cambio, si eres periodista y no quieres revelar tu identidad al recopilar datos para tus artículos, puedes hacerlo de forma anónima con la ayuda de proxies. Sin embargo, tendrás que ceñirte a las mejores prácticas éticas y seguir las normas del sitio web, como hemos dicho antes. Se trata de una situación similar a la de una entrevista encubierta en la que el sujeto no sabe que le estás entrevistando. 

Conclusión

Esperamos que comprenda el proceso de extracción de datos para la investigación académica. Al raspar los datos, hay directrices éticas que tendrías que seguir sin causar ningún daño involuntario a los propietarios de los sitios web.

Los proxies pueden ser su salvador en tales circunstancias, además de superar las restricciones mencionadas en este artículo.

Esperamos que disfrute leyendo esto y que ponga en práctica los métodos mencionados en este artículo para raspar los datos de investigación para su investigación.