Big Data en vSphere
Hola amigos, soy Florián Murillo y aquí estoy, como cada viernes.
¿Qué es Big Data? Es el tratamiento de petabytes de información. No es un tema baladí y menos si son datos no estructurados. Estoy pensando en el modelos estadísticos de redes sociales, subasta en tiempo real de espacios publicitarios, Business Intelligence en tiempo real, el registro de llamadas telefónicas o el procesamiento de logs de un proveedor de servicios cloud.
Parece que todo el mundo está de acuerdo en que la palabra clave en Big Data es Hadoop. Hadoop es una plataforma diseñada para resolver consultas rápidamente sobre petabytes de datos que no se ajustan bien a una estructura de tablas.
El concepto es simple, un cluster Hadoop está compuesto por múltiples nodos (por ejemplo 10000 nodos) llamados datanodes que almacenan información en sus discos locales y un nodo maestro llamado namenode. Los datos se guardan en bloques de 64MB por defecto y se replican en tres nodos (también por defecto), por tanto la caída de un nodo no afecta a la perdida de datos.
Imaginemos una consulta, se “trocea” y se envía a los nodos para que la procesen con sus datos locales, devolviendo una respuesta construida en base a las respuestas individuales.
No pretendo explicar a fondo el funcionamiento de Hadoop, mi objetivo es hablar del proyecto Serengeti. Un proyecto Open Source de VMware para permitir un rápido despliegue de un cluster Hadoop de tantos nodos como necesitemos.
Para ello, necesitamos un virtual appliance que podemos descargar de la web del proyecto: . Desde el CLI de esta VM crearemos con simples comandos un cluster Hadoop formado por tantos nodos (máquinas virtuales) como deseemos.
¿Qué aporta VMware a Hadoop?
VMware está colaborando con la comunidad Hadoop para proporcionar alta disponibilidad y tolerancia de fallos a los nodos del cluster Hadoop. Es especialmente importante en el caso del namenode, un elemento clave, en Hadoop 1.0 no está contemplada la alta disponibilidad del namenode, con vSphere HA y vSphere FT esto queda resuelto, no solo para el namenode, también para los datanodes.
¿Crees que este artículo puede interesar a alguien a quien conoces? Compártelo clicando los botones de Twitter y Facebook de abajo o arriba. Gracias.