Big Data vs Data Science

Hoy en día está en boca de mucha gente el término Big Data. Lo vemos en las noticias, en las universidades no lo dejan de repetir, si miramos linkedin hay muchas ofertas relacionadas con ello…

Pero, ¿realmente se entiende lo que es Big Data y lo que conlleva? ¿Se sabe bien la diferencia entre Big Data y Data Science?

En este post analizaré las diferencias entre ambos, de tal manera que espero poder aclarar cualquier duda que se tenga. De todas formas, ante cualquier cosa comentad abajo, y responderé gustosamente a cualquier duda.

Por lo tanto, empecemos…

 

¿Qué es Data Science?

Para comprender lo que es y lo que conlleva el Big Data, creo que es importante que se comprenda previamente lo que es Data Science, o la ciencia de datos en castellano.

Personalmente, defino Data Science como el conjunto de técnicas matemáticas, estadísticas, de visualización… que permiten manipular los datos y obtener de ellos conclusiones que no eran visibles con un análisis básico de los mismos.

Así, Data Science conlleva la preparación de los datos, las transformaciones pertinentes, los métodos de machine learning de clasificación y predicción y la visualización de todos estos datos para poder sacar conclusiones.

data science

Pero claro, ante esto… ¿qué espacio le queda al Big Data? Vamos a verlo a continuación:

¿Qué es Big Data?

Una definición personal que yo le daría a Big Data sería: Entorno en el que se desarrolla Data Science en el caso de tener unas cantidades extremas de datos, no manejables por un ordenador en ningún sentido, ni manejables por los SGBD tradicionales.

Es decir, paso por paso estoy diciendo que Big Data es una especie de «framework» en el que se desarrolla Data Science a veces, que envuelve un conjunto de técnicas y tecnologías especiales (como Hadoop, Spark…) que hacen que el tratamiento de datos sea de una forma distinta debido a la altísima cantidad de los mismos que hay.

Para hacernos a la idea, aunque no hay un horizonte fijo, una cantidad de unos 30TB de datos que sea creciente puede ser un problema perfectamente de Big Data, y, aunque parezca increíble, hoy en día hay numerosos problemas a resolver con cantidades así de masivas de datos.

big data

Espero que este artículo introductorio haya servido para dejar claras las diferencias entre Data Science y Big Data.

Como comenté al principio, cualquier duda por favor comentadla abajo, responderé lo antes posible!

Pon aquí tu comentario :D