Herramientas para big data

Herramientas para la creación de una Big data

VirtualBox:

VirtualBox es un software para virtualización, tambien conocido como hipervisor de tipo 2, que se utilizar para virtualizar sistemas operativos dentro de nuestro ordenador existente, creando lo que se conoce como máquina virtual. Un hipervisor de tipo 2 se diferencia con los de tipo 1 en que necesita un sistema operativo para funcionar, a diferencia de los de tipo 1 en los que el propio hipervisor funciona sobre el hardware, o máquina host.

Existen varios factores a tener en cuenta cuando necesitamos hacer uso de un hipervisor, pero generalmente VirtualBox, y los hipervisores de tipo 2 en general, se usan cuando no necesitamos destinar la máquina host al completo para realizar tareas de virtualización, por ejemplo, a la hora de probar software o simplemente confeccionar algunas de las guías que podemos encontrar aquí en Geeknetic, efectivamente aislando el sistema operativo host del sistema operativo invitado, tal y como os mostramos en esta guia

VirtualBox, a diferencia de alternativas como VMWare, es gratuito, de forma que no es necesario pagar una licencia para poder tener acceso a este hipervisor, pero seguiremos pudiendo hacer todo lo que necesitemos a la hora de mantener un entorno virtual para cualquiera que sea el menester que lo requiera.

VirtualBox sirve principalmente para virtualizar sistemas operativos que no podamos o no queramos ejecutar de forma nativa en nuestro equipo. Esto servirá también para trabajar sobre esos sistemas operativos con un relativamente amplio abanico de posibilidades, pues una de las principales virtudes de una máquina virtual es el aislamiento que ello proporciona.

Gracias a este aislamiento propio de las máquinas virtuales, podemos crear por ejemplo un Sandbox, algo sobre lo que ya hemos hablado anteriormente y hemos explicado paso a paso como hacer, y que consiste principalmente en un espacio de ejecución aislado donde podemos ejecutar aplicaciones de fuentes sin verificar o sospechosas, de forma que, a través de una serie de regulaciones estrictas, podemos ejecutar aplicaciones susceptibles de contener malware u otro tipo de código malicioso que pueda dañar nuestro equipo.

Hadoop:

Hadoop es framework de código abierto con el que se pueden almacenar y procesar cualquier tipo de datos masivos. Tiene la capacidad de operar tareas de forma casi ilimitada con un gran poder de procesamiento y obtener respuestas rápidas a cualquier tipo de consulta sobre los datos almacenados. Esto se consigue gracias a la ejecución distribuida de código de múltiples nodos (es decir, máquinas), donde cada nodo se encarga de procesar una parte del trabajo a realizar.

Es esta capacidad de almacenamiento y procesamiento de todo tipo de datos (tanto estructurados como no estructurados), que hacen de Hadoop una importante estructura de trabajo para el Big Data.

Además, Hadoop permite almacenar datos y ejecutar aplicaciones de hardware comercial.

Como decíamos, Hadoop es clave para el Big Data, puesto que cada vez se generan más cantidades de datos que las empresas y organismos públicos no solo necesitan almacenar, sino también procesar y analizar. Además, los datos provienen cada vez más de diversas y muy variadas fuentes, como redes sociales, plataformas de vídeo en streaming, e-commerce o el IoT (el Internet de las cosas), lo que hace necesario contar con framework capaz de almacenar y procesar esos grandes volúmenes de datos de manera ágil. Las tecnologías de Hadoop permiten hacerlo.

La principal utilidad que tiene Hadoop en el Big Data, y para la que podemos encontrar más casos de uso, es la capacidad de llevar a cabo no solo el almacenamiento de los datos, sino el análisis avanzado de los mismos.

Sqoop:

Sqoop es una herramienta cuya principal funcionalidad es transferir datos entre bases de datos relacionales o Data Warehouse y Hadoop. Sqoop automatiza la mayor parte de los procesos de transferencia, basándose en la base de datos para describir el esquema de los datos a importar, además para su funcionamiento utiliza MapReduce para importar y exportar los datos, lo que proporciona una operación en paralelo, así como tolerancia a fallos.

Sqoop le permite a los usuarios especificar la ubicación de destino dentro de Hadoop (pueden tablas Hive o HBASE) e instruir a Sqoop para mover datos de Oracle, Sql Server, Teradata u otras bases de datos relacionales al destino.

Sqoop escribe desde las tablas o consultas Sql específicas registro por registro paralelamente, por lo cual el resultado pueden ser múltiples archivos almacenados en HDFS con una copia de los datos importados. Estos archivos podrían ser txt separados por comas o tabulaciones, binarios Avro o SequenceFiles

Write a comment ...