Comenzamos nuestro repaso con los sistemas No-SQL con el que quizas sea el proyecto mas utilizado en el mundo del Cloud Computing y distintos proyectos Open-Source.
Hadoop es un proyecto nacido en el seno de la Fundación Apache cuyo núcleo lo constituye un sistema de ficheros que permite solucionar los problemas antes expuestos. Dicho núcleo consiste en un sistema de ficheros distribuido, lo que le permite repartir los datos a almacenar entre los diferentes nodos que conforman el cluster Hadoop. Además, divide los datos en pequeñas porciones utilizando el modelo MapReduce creado por Google para el llamado GFS (Google File System), de forma que ante el fallo de uno de los nodos, tenemos altas probabilidades de recuperar la información que en él se encontraba.
En principio Hadoop se inició como un subproyecto de Lucene, un proyecto de Apache que desarrolla software para realizar búsquedas. Aunque poco a poco ha tomando fuerza propia para convertirse en uno proyecto con vida propia. Parecido al caso de Maven y Jakarta Tomcat.
Como ya hemos comentado Hadoop es especialmente utilizado en el mundo del Cloud Computing y es que es especialmente útil en sistemas que requieren de una gran escalabilidad, y el Cloud Computing es el modelo de negoció que requiere precisamente de esta caracteristica.
Si bien hasta ahora Hadoop a penas había sido empleado solamente en grandes empresas de la talla de Yahoo! o Amazon o proyectos de laboratorio, ahora Sun Microsystems y su proyecto OpenSolaris ponen a tu disposición un Live CD que nos permite probar este sistema de ficheros y montar de una forma fácil, rápida (alrededor de 15 minutos) y cómoda.
En la misma web de Hadoop encontramos los proyectos que actualmente están utilizando este sistema, en su sección Powered By.
Paralelamente al proyecto Hadoop se ha creado HadoopDB que viene a ser un híbrido, entre un SGBD (Sistema de gestión de bases de datos, DBMS en Ingles) y MapReduce (un framework introducido por Google para dar soporte a la computación paralela sobre grandes colecciones de datos en grupos de computadoras) de forma paralela.
HadoopDB ha sido diseñado para tomar las mejores características de ambos mundos. Obtenemos el rendimiento de sistemas de base de datos paralelo con la escalabilidad y facilidad de uso de MapReduce.
En cienciaytecnologíaextrema comentan: " HadoopDB reduce el tiempo necesario para realizar algunas tareas típicas desde los días a horas, haciendo más complicados análisis posible – el tipo que podría utilizarse para encontrar patrones en el mercado de valores, los terremotos, comportamiento del consumidor y incluso brotes, dijo Abadi. “ Personas tienen todos estos datos, pero no está usando en la forma más eficiente o útil ”.
Con las enormes cantidades de datos que se recopila y utiliza en las bases de datos de hoy, de consumidores la información es utilizada por las cadenas minoristas para mejorar experiencias de compras y reducir el abandono de cliente a la información financiera recogida por los bancos para reducir el riesgo y evitar otro catastrófico colapso financiero, el ser capaz de almacenar y analizar esas grandes cantidades de datos continuará creciendo en importancia, dijo Abadi.


![Validate my RSS feed [Valid RSS]](valid-rss.png)
0 comentarios:
Publicar un comentario en la entrada