A propósito del debate entre estadística y ciencia de datos…

Quienes estamos inmersos en la tecnología con seguridad hemos escuchado sobre los ataques de Phishing[1] , existen diferentes tipos pero al final el objetivo es el mismo: robar nuestra información personal. Cada vez más leemos sobre cómo proteger nuestro computador, teléfono inteligente, cuentas electrónicas, usando programas de seguridad y creando copias de seguridad, entre otros. Sin embargo, algunas personas afirman no tener información valiosa que puedan perder ¿por qué alguien querría mi información personal? porque el mayor tesoro que tenemos en la era de la información son nuestros datos y no hemos hecho consciencia de ello.

Seguramente usted habrá visto en Internet muchos portales que le piden su correo electrónico, incluso algunas plataformas le ofrecen descuento en sus compras por revelarlo. Esto hace parte de la estrategia de marketing, pues son los usuarios quienes han solicitado recibir información relacionada con la marca, aceptando términos y condiciones en el marco de la Ley de Protección de Datos Personales o Ley 1581 de 2012. Algo similar sucede con las redes sociales como Facebook y Youtube, las cuales guardan y manejan sus tendencias de búsqueda para ofrecerle videos o temas de interés, así como publicidad dirigida, ya que a diferencia de las bases de datos tradicionales, los datos extraídos del big data revelan tendencias, gustos y hábitos de consumo de las personas, entre otros, información muy apetecida por diferentes empresas y marcas.

La mayoría de páginas solicitan permiso de instalación de cookies cuyo propósito es guardar toda la información de búsqueda de una persona -i.e., si ingresa a una página en internet para conseguir unos tenis, automáticamente va a notar que comenzará a recibir publicidad relacionada con su búsqueda, pero ¿qué valor tienen sus datos? De acuerdo con un reporte de RCN radio, la mayoría de bases de datos provienen de empresas hackeadas, con diferentes opciones -i.e., una base con 5,000 registros puede tener un valor apróximado de 6 millones de pesos, mientras que una base con 20,000 registros puede oscilar entre los 19 y 27 millones de pesos, el monto se incrementa de acuerdo con la información que contenga. De la robustez de los datos depende su valor final, como lo son nombres, apellidos, correo electrónico, número de teléfono, número de seguridad social, puntaje del Sisbén, EPS, ubicación y las llamadas “cuentas expuestas[2]”.

Pero y ¿cómo torturan los datos hasta hacerlos hablar? Para intentar dar respuesta a esta pregunta acudiremos a la ciencia de datos[3], la cual ha  tomado bastante relevancia con la evolución de la tecnología que impulsa la disponibilidad de datos, las capacidades computacionales y la facilidad de comunicación. La ciencia de datos enfatiza los problemas de datos del siglo XXI, como acceder a información de grandes bases de datos, escribir código para manipular datos y visualizar datos.

Estos avances también significan que el análisis de datos se ha vuelto cada vez más multidisciplinario y colaborativo. El campo del análisis de datos se ha ampliado al nivel en que más personas quieren analizar datos y el análisis de datos se basa en más disciplinas. Las áreas de estadística previamente consideradas especializadas -i.e., software estadístico, análisis exploratorio, visualización de datos, análisis de alta dimensión, objetos de datos complejos y el uso de métodos de optimización, se han vuelto mucho más valiosas. Existe un ecosistema de términos relacionados -i.e., el análisis, inteligencia de negocios, la minería de datos, entre otros (Carmichael & Marron, 2018).

Ahora bien, los datos transitan por varios pasos de procesamiento antes de llegar al analista como un archivo.csv. Siguiendo a Carmichael & Marron (2018), estos pasos pueden incluir transformaciones simples, algoritmos complejos, salida de modelos estadísticos, etc., importantes para el analista porque estos procesos pueden tener errores y generar así sesgos sistémicos en los datos. No es suficiente tener acceso a las bases de datos, bien lo dijo Kant “ El concepto sin intuición es vacío y la intuición sin concepto es ciega”. Las dos capacidades no pueden intercambiar sus funciones. El conocimiento únicamente puede surgir de la unión de ambos (Kant,1998,p.93).

En la era de la información, el Big Data ha recibido gran atención generando bastantes desafíos analíticos como los son los datos no estándar o complejos. En particular, muchos escenarios analíticos de datos modernos involucran datos no estándar como las redes, el texto, el sonido, las imágenes, las películas, los datos de dimensiones muy altas, datos que viven en una variedad, etc. En respuesta a este desafío, diversos autores entre ellos Wang y Marron (2007); Marron y Alonso (2014),  han propuesto un  OODA  por su sigla en inglés -Object Oriented Data Analysis-, un concepto que en contextos científicos complejos conduce a un análisis efectivo en las discusiones grupales entre científicos de dominio y estadísticos que incluye técnicas estadísticas estándar, como la transformación de datos y cuestiones matemáticamente de mayor envergadura.

Datos complejos y OODA presentan muchas oportunidades de investigación tales como: introducción de nuevas herramientas poderosas para los profesionales de datos, desafíos computacionales, desarrollos metodológicos y desarrollos en teoría estadística. OODA a menudo involucra traer un número de disciplinas matemáticas tales como la geometría, topología, optimización, probabilidad, etc, proporcionando un sentido en el cual la ciencia de datos debería convertirse en un esfuerzo interdisciplinario. También es una oportunidad para extender enormemente el uso del término estáticos matemáticos para incluir otras áreas matemáticas, más allá de la teoría de probabilidad convencional (Carmichael & Marron, 2018)

En ese sentido, el auge de la automatización presenta nuevas oportunidades para la la estadística, disciplina que históricamente se ha ocupado del gran número de formas en que los datos pueden ser engañosos. Por otra parte, la estadística no ha cambiado significativamente en respuesta a las nuevas tecnologías. El campo continúa enfatizando la teoría y los cursos de introducción a las estadísticas se centran más en las pruebas de hipótesis que en la computación estadística.

Dentro del campo de las estadísticas, algunos profesionales abogaron porque la disciplina se transformara para adaptarse al panorama cambiante. En 2001, el estadístico influyente William Cleveland escribió un documento que sugiere la expansión del campo de las estadísticas y el cambio de nombre de la «ciencia de datos.» Este nuevo campo incluiría un mayor enfoque en el mundo real «análisis de datos» y «computación.» El sueño de Cleveland nunca llegó a cumplirse, sin embargo, muchas universidades ahora tienen departamentos de ciencia de datos además de sus departamentos de estadística (Bhardwaj, 2017).

Así las cosas, la automatización presenta nuevos desafíos técnicos para la estadística, ya que el aprendizaje automático a menudo implica la aplicación de tecnologías de modelado sofisticadas a conjuntos de datos grandes y complejos, cuyo reto técnico es la interpretabilidad porque explicar los resultados y los detalles de un análisis implica comunicar los detalles de un código de datos (Carmichael & Marron, 2018).

Ahora bien, las estadísticas se desarrollaron principalmente para ayudar a las personas a lidiar con problemas de datos previos a la computadora, como probar el impacto de los fertilizantes en la agricultura, o averiguar la precisión de una estimación a partir de una pequeña muestra, por su parte la ciencia de datos enfatiza los problemas de datos del siglo XXI, como acceder a información de grandes bases de datos, escribir código para manipular datos y visualizar datos. Los argumentos sobre las diferencias entre la ciencia de datos y las estadísticas pueden llegar a ser polémicos, lo único cierto es que la ciencia de datos y las estadísticas siguen existiendo y por ahora no hay indicios de que alguno desaparezca (Bhardwaj, 2017).

Finalmente, ha sido difícil comunicar el análisis de datos a través del código porque aún no se han establecido las mejores prácticas -i.e., cómo se debe comentar el código, cómo evaluar las compensaciones entre claridad del código y simplicidad/eficiencia (Carmichael & Marron, 2018). Así mismo enseñarlo, si la pretención es que se vuelva multidisciplinar y su alcance sea mayor, es por ello que algunos autores sugieren que se debe enseñar el análisis exploratorio antes del análisis inferencial, por tanto implicaría también enseñar programación, visualización de datos y manipulación antes de enseñar pruebas de hipótesis. Es más probable que los estudiantes se preocupen por las pruebas de hipótesis si realmente han trabajado en un conjunto de datos reales que les motive a diferencia de uno hipotético. Quizás así, sin importar la disciplina, el quehacer, cualquier persona estaría en la capacidad de torturar los datos hasta hacerlos hablar con el fin de optimizar la toma de decisiones y minimizar la posibilidad de riesgo o fracaso.

[1] Es un intento de engañar a un usuario para que divulgue su información privada.

[2] Son las cuentas que tienen las personas de manera pública en redes sociales, con diversos propósitos de publicidad dirigida como el envío de mensajes políticos y suplantación de identidad.

[3] La ciencia de datos es el negocio de aprender de los datos, que es tradicionalmente el negocio de las estadísticas. El término ciencia de datos apareció por primera vez de manera prominente en el legendario científico informático Peter Naur en su libro de 1974 Concise Survey of Computer Methods. En el libro, Naur define la ciencia de los datos como «La ciencia de tratar con los datos». En el libro de Naur, «tratar» con datos incluye toda la limpieza, procesamiento, almacenamiento y manipulación de datos que ocurre antes de que se analicen los datos, y el análisis posterior.

Por: Alba Yaneth Varón Torrres, PhD en Análisis de Problemas Sociales. Docente Titular Universidad Santo Tomás

Bibliografía

Carmichael, I., & Marron, J. S. (2018). Data science vs. statistics: two cultures? Japanese Journal of Statistics and Data Science, 1(1), 117-138. https://doi.org/10.48550/arXiv.1801.00371

Kant, I., (1988). Crítica de la razón pura, Alfaguara, 6, 93. https://lideresdeizquierdaprd.files.wordpress.com/2016/06/immanuel-kant-critica-de-la-razon-pura1.pdf

Wang, H., & Marron, J. S. (2007). Object oriented data analysis: Sets of trees. The Annals of Statistics, 35(5), 1849-1873.  https://doi.org/10.1214/009053607000000217 .

Bhardwaj, A. (2017) What is the difference between data science and statistics? https://priceonomics.com/whats-the-difference-between-data-science-and/

Bühlmann, P., & Van de Geer, S. (2018). Statistics for big data: A perspective, Statistics & Probability Letters, Elsevier, 136(C), 37-41. DOI: 10.1016/j.spl.2018.02.016