BIG DATA & HADOOP


- INTRODUCCIÓN BIG DATA

BIG DATA, la podemos llamar como conjuntos de datos demasiado grandes y complejos para que los sistemas tradicionales de almacenamiento lo pueden almacenar y procesar. Por lo que nace la necesidad de una nueva tecnología que trate de dar solución a las 3 Vs (Volumen, Velocidad, Variedad)  

Todos estos datos se generan de forma rapida a través de las redes sociales, movíles, datos cientificos, sociales y financieros, etc... es decir todo lo que esta conectado a nuestro mundo en internet y en la nubes de datos. 

 

1. Introducción Hadoop

2. Características

  • Hadoop es de código abierto
  • El cluster de hadoop es altamente escalable.
  • Hadoop proporciona tolerancia a fallos.
  • Alta disponibilidad
  • Es muy rentable 
  • Mas rapido que el procesamiento de datos.
  • Se basa en el concepto de localidad de datos.
  • Proporciona viabilidad
  • Facil de usar.
  • Garantiza la confiabilidad de los datos.

3. Ecosistema

Ecosistema Hadoop formado por:

  • HDFS 
  • Yarn
  • Mapreduce
  • HBase
  • Sqoop
  • Flume
  • Hive (Sql Query)
  • Pig (scripting)
  • Apache ambari
  • Zookeeper
  • Oozie
  • Kafka

4. Arquitectura

- Application Layer (hadoop MapReduce. Other applications)

- Resource Management Layer (Hadoop YARN)

- Storage Layer (Hadoop HDFS)

5. Principales ventajas y desventajas de Hadoop ver. 3

- Ventajas Hadoop

- Desventajas hadoop

6 Funcionamiento interno de Hadoop

- Componentes y dominios de Hadoop

- Funcionamiento hadoop

7. Comandos

  • Version
  • mkdir
  • ls
  • put
  • copyFromLocal
  • get
  • copyToLocal
  • cat
  • mv
  • cp 

8. Cluster

  • Architecture
  • Single Node cluster VS Multi-Node Cluster
  • Conmunication Prtocols
  • Building a Cluster
  • Hadoop Cluster Management
  • Benefits

9. Alta Disponibilidad

  • Significado de alta disponibilidad
  • Alta disponibilidad de NameNode en hadoop
  • Resumen

10. Hadoop Schedulers

  • Introducción Schedulers
  • Tipos Schedulers
  • Schedulers capacity
  • Fair Scheduler

TRABAJOS REALIZADOS - INSTALACIÓN HADOOP 3.2.3 EN LINUX UBUNTU SERVER


Guia_Instalacion_Hadoop_Linux_Ubuntu_Server
PowerPoint – 80,5 KB 2 descargas

VIDEO - 3.- Instalamos java y comprobar que versión dejamos operativa

VIDEO - 4.-Descargar y dejamos instlado hadoop 3.2.3

VIDEO - 5.-Configuraciones variable entorno de hadoop

VIDEO - 6.- Editamos y configuramos el fichero hadoop_env.sh

VIDEO - 7.-Descargamos y configuramos javax

VIDEO - 8.-Configuramos el archivo core-site.xml

VIDEO - 9.-Configuramos el archivo hdfs-site.xml

VIDEO - 10.-Configuramos el archivo mapred-site.xml

VIDEO - 11.-Configuramos el archivo yarn-site.xml

VIDEO - 12.-Damos formato HDFS del NameNode

VIDEO - 13.-Arrancamos el NameNode, DataNode y YARN

VIDEO - 14.-Revisamos si todas las conexiones funciona

Crea tu propia página web con Webador