FUNDAMENTOS TECNOLÓGICOS DE BIG DATA
En términos de volumen, 1 Zettabytes de datos (“1.000 millones de Terabytes”) es equivalente a: . Cada persona en los Estados Unidos twitteando 3 tweets por minuto durante 26.976 años sin escalas . Cada persona en el mundo con más de 215 millones de escaneos de resonancia magnética de alta.
resolución por día . Más de 200.000 millones de películas HD (de 2 horas de duración) (tomaría a 1 persona 47 millones de años de ver cada película en una relacion 24 horas x 7dias.
La cantidad de información necesaria para llenar 57.500 millones de iPads de Apple de 32 GB.
Con esa cantidad de iPads podríamos
Crear un muro de iPads, de 4.000 millas de largo y 61 metros de altura que se extienden desde Anchorage (Alaska) hasta Miami (Florida);
Construir la Gran Muralla de China de iPad al doble de la altura media de la original
¿Qué es Big Data?
Big Data se refiere al conjunto de tecnologías, herramientas y procesos utilizados para recolectar, almacenar, procesar y analizar grandes volúmenes de datos que no pueden ser gestionados con herramientas tradicionales.
📏 Las 5 Vs de Big Data
-
Volumen: Cantidad masiva de datos generados constantemente.
-
Velocidad: Rapidez con la que los datos se generan y procesan.
-
Variedad: Diferentes tipos de datos (estructurados, no estructurados, semiestructurados).
-
Veracidad: Calidad y fiabilidad de los datos.
-
Valor: Utilidad que se extrae de los datos para tomar decisiones.
🧱 Fundamentos Tecnológicos
1. Infraestructura
-
Hardware escalable: servidores distribuidos, almacenamiento en red.
-
Cloud computing: AWS, Google Cloud, Azure permiten escalabilidad y flexibilidad.
2. Sistemas de Almacenamiento
-
HDFS (Hadoop Distributed File System): sistema de archivos distribuido.
-
NoSQL: bases de datos no relacionales como MongoDB, Cassandra.
-
Data Lakes: repositorios donde se almacenan datos sin procesar (por ejemplo, en formato bruto).
3. Procesamiento de Datos
-
Batch processing: procesamiento por lotes (ej: Apache Hadoop).
-
Stream processing: procesamiento en tiempo real (ej: Apache Kafka, Apache Flink, Spark Streaming).
-
MapReduce: modelo de programación para procesar grandes volúmenes de datos en paralelo.
4. Herramientas y Plataformas
-
Apache Hadoop: marco de trabajo para procesamiento distribuido de grandes datos.
-
Apache Spark: procesamiento en memoria mucho más rápido que Hadoop.
-
Kafka: mensajería distribuida para procesamiento en tiempo real.
5. Lenguajes de Programación
-
Python: muy utilizado por sus librerías para análisis de datos.
-
Java y Scala: comunes en entornos como Hadoop y Spark.
-
R: orientado a análisis estadístico.
6. Visualización de Datos
-
Herramientas como Tableau, Power BI o Grafana para interpretar los datos y facilitar la toma de decisiones.
7. Seguridad y Gobernanza de Datos
-
Cifrado, autenticación, control de acceso, cumplimiento de normativas como GDPR.
🧠 Aplicaciones de Big Data
-
Marketing personalizado
-
Detección de fraudes
-
Análisis predictivo
-
IoT (Internet of Things)
-
Salud, finanzas, logística, etc.

Información del curso
TRANSPARENCIAS: 116
HRS.CATEDRA: 6
CAPITULO 1 – BUCEANDO ENTRE LOS COMPONENTES DE LA TECNOLOGIA BIG DATA
CAPITULO 2 – VIRTUALIZACION Y CÓMO SOPORTA A LA COMPUTACION DISTRIBUIDA
CAPITULO 3 – EXAMINANDO LA NUBE Y BIG DATA