SlideShare ist ein Scribd-Unternehmen logo
1 von 5
Downloaden Sie, um offline zu lesen
Qué es Hadoop y
cómo se utiliza
Hadoop es un marco de software de
código abierto utilizado para desarrollar
aplicaciones de procesamiento de datos
que se ejecutan en un entorno
informático distribuido. Proporciona
almacenamiento masivo para cualquier
tipo de datos, una gran potencia de
procesamiento y tiene la capacidad
teórica de procesar tareas concurrentes
virtualmente ilimitada.
En Hadoop, los datos residen en un
sistema de archivos distribuido
denominado Hadoop Distributed File
System —HDFS—, un sistema que tiene
capacidad para almacenar los archivos
en un clúster de varias máquinas, lo
que es esencial para poder almacenar
enormes cantidades de datos
—hablamos de petabytes—.
HDFS es un sistema de ficheros diseñado
para funcionar muy bien en la lectura
secuencial de los datos, y el hecho de
ser un sistema distribuido tiene ventajas
adicionales a la de poder almacenar una
cantidad potencialmente ilimitada de
datos: proporciona escalabilidad, ya que
basta con añadir un nodo al clúster para
aumentar la capacidad de
almacenamiento. Además, proporciona
redundancia, lo que hace a Hadoop un
sistema tolerante a fallos.
La importancia de la topología de
red en Hadoop
Para un sistema distribuido como Hadoop, la
topología de red afecta directamente a su
rendimiento cuando la red de nodos crece.
Además, si se desea que el sistema sea
tolerante a fallos y tenga una alta
disponibilidad, la manera en que se
organizan los nodos es vital.
En Hadoop, la red se representa como un
árbol en el que la distancia entre nodos es
igual a la suma de su distancia a su ancestro
común más cercano.
Hadoop es una arquitectura perfecta para
procesamiento de Big Data, y por eso su
adopción es cada vez mayor. Sus principales
características, como su potencia de
procesamiento, tolerancia a fallos y su
capacidad de almacenamiento ilimitada, así
como el bajo coste de implementación son,
sin duda, responsables de su éxito.
Características principales
de Hadoop
1. Tiene la capacidad de almacenar y
procesar enormes cantidades de cualquier
tipo de datos, de manera inmediata. Esto,
para escenarios Big Data —con enormes
volúmenes de datos en constante
crecimiento, y con la variedad de fuentes de
las que se adquieren datos— es una
característica muy valorada.
2. Potencia de procesamiento. Al ser un
sistema de computación distribuido, Hadoop
puede trabajar con los datos a gran
velocidad, algo que, además, puede
incrementarse fácilmente ampliando los
nodos dedicados a estas tareas.
3. Es un sistema tolerante a fallos. En este
modelo distribuido, un fallo en un nodo
implica que los trabajos se redistribuyen
entre el resto de los nodos. La redundancia
de los datos es vital para que todo funcione
de manera transparente para el usuario.
4. Es un sistema flexible. Los datos que se
almacenan no son procesados previamente,
lo que agiliza esta parte del trabajo. Esta es
gran una diferencia con respecto a los
sistemas de bases de datos relacionales, ya
que permite almacenar datos no
estructurados —texto, imágenes, vídeos—,
una de las características principales del Big
Data.
5. Es una estructura de bajo coste, al ser
gratuita y de código abierto.
6. Es un sistema escalable, ya que tan solo
es necesario añadir nuevos nodos para
almacenar y almacenar más datos. Además,
necesita de poca administración.
El proyecto Hadoop es bien conocido, sobre
todo, por dos de sus componentes
principales: MapReduce y HDFS.
Hadoop MapReduce es un modelo
computacional y un marco de software para
escribir aplicaciones que se ejecutan en
Hadoop, y que son capaces de procesar
enormes datos en paralelo en grandes grupos
de nodos de cómputo.
Por otro lado, ya hablamos de HDFS, el
sistema de archivos distribuido de Hadoop.
HDFS se encarga de la parte de
almacenamiento de las aplicaciones de
Hadoop, de forma que las aplicaciones
MapReduce consumen datos de HDFS. Al
tratarse de un sistema de archivos distribuido
es posible realizar cálculos fiables y
extremadamente rápidos.
Otros componentes populares de Hadoop
son, en realidad, proyectos relacionados
concebidos para la computación distribuida y
el procesamiento de datos a gran escala.
Algunos de ellos son:
Componentes
de Hadoop
• Hive: una infraestructura de
almacenamiento de datos construida
sobre Hadoop para proporcionar
agrupación, consulta, y análisis de datos
• Hbase: una base de datos distribuida
no relacional de código abierto
• Mahout: para producir
implementaciones gratuitas de
algoritmos de aprendizaje automático
distribuidos o escalables enfocados
principalmente en las áreas de filtrado
colaborativo, agrupación y clasificación
• Sqoop: una aplicación con interfaz de
línea de comando para transferir datos
entre bases de datos relacionales y
Hadoop.
• Flume: un servicio distribuido, fiable,
y altamente disponible para recopilar,
agregar, y mover eficientemente grandes
cantidades de datos.
• ZooKeeper: que ofrece un servicio
para la coordinación de procesos
distribuido y altamente confiable que da
soluciones a varios problemas de
coordinación para grandes sistemas
distribuidos.
www.arsys.es
www.facebook.com/arsys.es
twitter.com/arsys
www.linkedin.com/company/arsys-internet/

Weitere ähnliche Inhalte

Was ist angesagt?

descarga e instalación de cassandra nosql
descarga e instalación de cassandra nosqldescarga e instalación de cassandra nosql
descarga e instalación de cassandra nosqlBriian Villarroel
 
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?Fernando Alfonso Casas De la Torre
 
Laboratorio 3 formato ieee "Tecnologias de Big Data"
Laboratorio 3 formato ieee "Tecnologias de Big Data"Laboratorio 3 formato ieee "Tecnologias de Big Data"
Laboratorio 3 formato ieee "Tecnologias de Big Data"Javier Peña
 
¿Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter...
¿Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter...¿Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter...
¿Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter...Frans Michel Barrenechea Arias
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataUrko Zurutuza
 
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...Antoni Riveros
 
SGBD de Facebook, Twitter, YouTube, Google y Uber
SGBD de Facebook, Twitter, YouTube, Google y UberSGBD de Facebook, Twitter, YouTube, Google y Uber
SGBD de Facebook, Twitter, YouTube, Google y UberJuan Isaac Valle Arellano
 
Cluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura LambdaCluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura LambdaMiguel Angel Macias
 
Curso de Ajax
Curso de AjaxCurso de Ajax
Curso de Ajaxcamposer
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
 
No sql la nueva era
No sql la nueva eraNo sql la nueva era
No sql la nueva eraJuan Navas
 
69 claves para conocer Big Data
69 claves para conocer Big Data69 claves para conocer Big Data
69 claves para conocer Big DataStratebi
 
Fundamentos de base de datos
Fundamentos de base de datosFundamentos de base de datos
Fundamentos de base de datosAaron Canul
 
Base de datos
Base de datosBase de datos
Base de datospatyTIC
 

Was ist angesagt? (20)

descarga e instalación de cassandra nosql
descarga e instalación de cassandra nosqldescarga e instalación de cassandra nosql
descarga e instalación de cassandra nosql
 
Congreso Academy Journal Celaya 2017
Congreso Academy Journal Celaya 2017Congreso Academy Journal Celaya 2017
Congreso Academy Journal Celaya 2017
 
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
 
Laboratorio 3 formato ieee "Tecnologias de Big Data"
Laboratorio 3 formato ieee "Tecnologias de Big Data"Laboratorio 3 formato ieee "Tecnologias de Big Data"
Laboratorio 3 formato ieee "Tecnologias de Big Data"
 
Panorama BigData (OpenExpo2017)
Panorama BigData (OpenExpo2017)Panorama BigData (OpenExpo2017)
Panorama BigData (OpenExpo2017)
 
¿Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter...
¿Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter...¿Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter...
¿Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter...
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big Data
 
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
 
SGBD de Facebook, Twitter, YouTube, Google y Uber
SGBD de Facebook, Twitter, YouTube, Google y UberSGBD de Facebook, Twitter, YouTube, Google y Uber
SGBD de Facebook, Twitter, YouTube, Google y Uber
 
Big Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open SourceBig Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open Source
 
Cluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura LambdaCluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura Lambda
 
Benito v y scarleth l
Benito v y scarleth lBenito v y scarleth l
Benito v y scarleth l
 
Curso de Ajax
Curso de AjaxCurso de Ajax
Curso de Ajax
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu Empresa
 
No sql la nueva era
No sql la nueva eraNo sql la nueva era
No sql la nueva era
 
69 claves para conocer Big Data
69 claves para conocer Big Data69 claves para conocer Big Data
69 claves para conocer Big Data
 
Fundamentos de base de datos
Fundamentos de base de datosFundamentos de base de datos
Fundamentos de base de datos
 
Big Data
Big DataBig Data
Big Data
 
la novedad
la novedadla novedad
la novedad
 
Base de datos
Base de datosBase de datos
Base de datos
 

Ähnlich wie Whitepaper – Qué es y cómo utilizar Hadoop

Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementaciónDiego Krauthamer
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big datamateo luquez
 
Ensayo 2 (1).pptx
Ensayo 2 (1).pptxEnsayo 2 (1).pptx
Ensayo 2 (1).pptxClikC
 
Big Data en FaceBook
Big Data en FaceBookBig Data en FaceBook
Big Data en FaceBookJuan Frias
 
01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdfAntonioSotoRodriguez1
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQSolidQ
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataSpanishPASSVC
 
Como de grandes son tus datos
Como de grandes son tus datosComo de grandes son tus datos
Como de grandes son tus datosAntonio Rodriguez
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Polybase
PolybasePolybase
PolybaseSolidQ
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesJuan José Domenech
 

Ähnlich wie Whitepaper – Qué es y cómo utilizar Hadoop (20)

Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementación
 
Big data y hadoop
Big data y hadoopBig data y hadoop
Big data y hadoop
 
Sistemas distribuidos
Sistemas distribuidosSistemas distribuidos
Sistemas distribuidos
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 
Clase Hadoop
Clase HadoopClase Hadoop
Clase Hadoop
 
Ensayo 2 (1).pptx
Ensayo 2 (1).pptxEnsayo 2 (1).pptx
Ensayo 2 (1).pptx
 
Introduccion big data
Introduccion  big dataIntroduccion  big data
Introduccion big data
 
Big Data en FaceBook
Big Data en FaceBookBig Data en FaceBook
Big Data en FaceBook
 
01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf
 
Big data
Big dataBig data
Big data
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big data
 
BigData
BigDataBigData
BigData
 
introduction to hadoop
introduction to hadoopintroduction to hadoop
introduction to hadoop
 
SGBD y tecnologías de aplicaciones web 2.0
SGBD y tecnologías de aplicaciones web 2.0SGBD y tecnologías de aplicaciones web 2.0
SGBD y tecnologías de aplicaciones web 2.0
 
Como de grandes son tus datos
Como de grandes son tus datosComo de grandes son tus datos
Como de grandes son tus datos
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Presentación big data
Presentación big dataPresentación big data
Presentación big data
 
Polybase
PolybasePolybase
Polybase
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 

Mehr von Arsys

Whitepaper Arsys - Cómo reducir el consumo energético de un data center
Whitepaper Arsys - Cómo reducir el consumo energético de un data centerWhitepaper Arsys - Cómo reducir el consumo energético de un data center
Whitepaper Arsys - Cómo reducir el consumo energético de un data centerArsys
 
Whitepaper: La importancia del Delegado de Protección de Datos en una empresa...
Whitepaper: La importancia del Delegado de Protección de Datos en una empresa...Whitepaper: La importancia del Delegado de Protección de Datos en una empresa...
Whitepaper: La importancia del Delegado de Protección de Datos en una empresa...Arsys
 
Contenedores y protección de datos empresariales | Whitepaper
Contenedores y protección de datos empresariales | WhitepaperContenedores y protección de datos empresariales | Whitepaper
Contenedores y protección de datos empresariales | WhitepaperArsys
 
Cómo elegir un software CRM adecuado a las necesidades de la organización
Cómo elegir un software CRM adecuado a las necesidades de la organizaciónCómo elegir un software CRM adecuado a las necesidades de la organización
Cómo elegir un software CRM adecuado a las necesidades de la organizaciónArsys
 
Webinar - eCommerce: ¿Cómo puedo vender en Amazon?
Webinar - eCommerce: ¿Cómo puedo vender en Amazon?Webinar - eCommerce: ¿Cómo puedo vender en Amazon?
Webinar - eCommerce: ¿Cómo puedo vender en Amazon?Arsys
 
Webinar - Primeros pasos con plesk
Webinar - Primeros pasos con pleskWebinar - Primeros pasos con plesk
Webinar - Primeros pasos con pleskArsys
 
Webinar- Requisitos legales para crear una Tienda Online
Webinar- Requisitos legales para crear una Tienda OnlineWebinar- Requisitos legales para crear una Tienda Online
Webinar- Requisitos legales para crear una Tienda OnlineArsys
 
Whitepaper - ¿Cómo elegir entre VPS, Servidor Cloud o Servidor dedicado?
Whitepaper - ¿Cómo elegir entre VPS, Servidor Cloud o Servidor dedicado?Whitepaper - ¿Cómo elegir entre VPS, Servidor Cloud o Servidor dedicado?
Whitepaper - ¿Cómo elegir entre VPS, Servidor Cloud o Servidor dedicado?Arsys
 
Whitepaper - Cómo implementar el teletrabajo seguro en la empresa
Whitepaper - Cómo implementar el teletrabajo seguro en la empresaWhitepaper - Cómo implementar el teletrabajo seguro en la empresa
Whitepaper - Cómo implementar el teletrabajo seguro en la empresaArsys
 
Whitepaper - Guía Básica del Cloud Computing
Whitepaper - Guía Básica del Cloud ComputingWhitepaper - Guía Básica del Cloud Computing
Whitepaper - Guía Básica del Cloud ComputingArsys
 
Webinar – Introducción a Google Analytics
Webinar – Introducción a Google AnalyticsWebinar – Introducción a Google Analytics
Webinar – Introducción a Google AnalyticsArsys
 
Guia automatizar herramientas-grc
Guia automatizar herramientas-grcGuia automatizar herramientas-grc
Guia automatizar herramientas-grcArsys
 
Whitepaper - Cómo crear un menú desplegable en WordPress
Whitepaper - Cómo crear un menú desplegable en WordPress Whitepaper - Cómo crear un menú desplegable en WordPress
Whitepaper - Cómo crear un menú desplegable en WordPress Arsys
 
Whitepaper-Cómo gestionar tu WordPress por medio de la línea de comandosd
Whitepaper-Cómo gestionar tu WordPress por medio de la línea de comandosdWhitepaper-Cómo gestionar tu WordPress por medio de la línea de comandosd
Whitepaper-Cómo gestionar tu WordPress por medio de la línea de comandosdArsys
 
La conversión de dominios internacionalizados: Punycode
La conversión de dominios internacionalizados: PunycodeLa conversión de dominios internacionalizados: Punycode
La conversión de dominios internacionalizados: PunycodeArsys
 
Cómo configurar un home office totalmente productivo
Cómo configurar un home office totalmente productivoCómo configurar un home office totalmente productivo
Cómo configurar un home office totalmente productivoArsys
 
Whitepaper - Elige el servicio de hosting más indicado para tu proyecto
Whitepaper - Elige el servicio de hosting más indicado para tu proyectoWhitepaper - Elige el servicio de hosting más indicado para tu proyecto
Whitepaper - Elige el servicio de hosting más indicado para tu proyectoArsys
 
Webinar –Qué servidor elegir para tu proyecto, Cloud, Dedicados o VPS
Webinar –Qué servidor elegir para tu proyecto, Cloud, Dedicados o VPSWebinar –Qué servidor elegir para tu proyecto, Cloud, Dedicados o VPS
Webinar –Qué servidor elegir para tu proyecto, Cloud, Dedicados o VPSArsys
 
Webinar - Instalar VMware en un servidor dedicado
Webinar - Instalar VMware en un servidor dedicadoWebinar - Instalar VMware en un servidor dedicado
Webinar - Instalar VMware en un servidor dedicadoArsys
 
Whitepaper - Como mejorar el Business Intelligence de la empresa a través de ...
Whitepaper - Como mejorar el Business Intelligence de la empresa a través de ...Whitepaper - Como mejorar el Business Intelligence de la empresa a través de ...
Whitepaper - Como mejorar el Business Intelligence de la empresa a través de ...Arsys
 

Mehr von Arsys (20)

Whitepaper Arsys - Cómo reducir el consumo energético de un data center
Whitepaper Arsys - Cómo reducir el consumo energético de un data centerWhitepaper Arsys - Cómo reducir el consumo energético de un data center
Whitepaper Arsys - Cómo reducir el consumo energético de un data center
 
Whitepaper: La importancia del Delegado de Protección de Datos en una empresa...
Whitepaper: La importancia del Delegado de Protección de Datos en una empresa...Whitepaper: La importancia del Delegado de Protección de Datos en una empresa...
Whitepaper: La importancia del Delegado de Protección de Datos en una empresa...
 
Contenedores y protección de datos empresariales | Whitepaper
Contenedores y protección de datos empresariales | WhitepaperContenedores y protección de datos empresariales | Whitepaper
Contenedores y protección de datos empresariales | Whitepaper
 
Cómo elegir un software CRM adecuado a las necesidades de la organización
Cómo elegir un software CRM adecuado a las necesidades de la organizaciónCómo elegir un software CRM adecuado a las necesidades de la organización
Cómo elegir un software CRM adecuado a las necesidades de la organización
 
Webinar - eCommerce: ¿Cómo puedo vender en Amazon?
Webinar - eCommerce: ¿Cómo puedo vender en Amazon?Webinar - eCommerce: ¿Cómo puedo vender en Amazon?
Webinar - eCommerce: ¿Cómo puedo vender en Amazon?
 
Webinar - Primeros pasos con plesk
Webinar - Primeros pasos con pleskWebinar - Primeros pasos con plesk
Webinar - Primeros pasos con plesk
 
Webinar- Requisitos legales para crear una Tienda Online
Webinar- Requisitos legales para crear una Tienda OnlineWebinar- Requisitos legales para crear una Tienda Online
Webinar- Requisitos legales para crear una Tienda Online
 
Whitepaper - ¿Cómo elegir entre VPS, Servidor Cloud o Servidor dedicado?
Whitepaper - ¿Cómo elegir entre VPS, Servidor Cloud o Servidor dedicado?Whitepaper - ¿Cómo elegir entre VPS, Servidor Cloud o Servidor dedicado?
Whitepaper - ¿Cómo elegir entre VPS, Servidor Cloud o Servidor dedicado?
 
Whitepaper - Cómo implementar el teletrabajo seguro en la empresa
Whitepaper - Cómo implementar el teletrabajo seguro en la empresaWhitepaper - Cómo implementar el teletrabajo seguro en la empresa
Whitepaper - Cómo implementar el teletrabajo seguro en la empresa
 
Whitepaper - Guía Básica del Cloud Computing
Whitepaper - Guía Básica del Cloud ComputingWhitepaper - Guía Básica del Cloud Computing
Whitepaper - Guía Básica del Cloud Computing
 
Webinar – Introducción a Google Analytics
Webinar – Introducción a Google AnalyticsWebinar – Introducción a Google Analytics
Webinar – Introducción a Google Analytics
 
Guia automatizar herramientas-grc
Guia automatizar herramientas-grcGuia automatizar herramientas-grc
Guia automatizar herramientas-grc
 
Whitepaper - Cómo crear un menú desplegable en WordPress
Whitepaper - Cómo crear un menú desplegable en WordPress Whitepaper - Cómo crear un menú desplegable en WordPress
Whitepaper - Cómo crear un menú desplegable en WordPress
 
Whitepaper-Cómo gestionar tu WordPress por medio de la línea de comandosd
Whitepaper-Cómo gestionar tu WordPress por medio de la línea de comandosdWhitepaper-Cómo gestionar tu WordPress por medio de la línea de comandosd
Whitepaper-Cómo gestionar tu WordPress por medio de la línea de comandosd
 
La conversión de dominios internacionalizados: Punycode
La conversión de dominios internacionalizados: PunycodeLa conversión de dominios internacionalizados: Punycode
La conversión de dominios internacionalizados: Punycode
 
Cómo configurar un home office totalmente productivo
Cómo configurar un home office totalmente productivoCómo configurar un home office totalmente productivo
Cómo configurar un home office totalmente productivo
 
Whitepaper - Elige el servicio de hosting más indicado para tu proyecto
Whitepaper - Elige el servicio de hosting más indicado para tu proyectoWhitepaper - Elige el servicio de hosting más indicado para tu proyecto
Whitepaper - Elige el servicio de hosting más indicado para tu proyecto
 
Webinar –Qué servidor elegir para tu proyecto, Cloud, Dedicados o VPS
Webinar –Qué servidor elegir para tu proyecto, Cloud, Dedicados o VPSWebinar –Qué servidor elegir para tu proyecto, Cloud, Dedicados o VPS
Webinar –Qué servidor elegir para tu proyecto, Cloud, Dedicados o VPS
 
Webinar - Instalar VMware en un servidor dedicado
Webinar - Instalar VMware en un servidor dedicadoWebinar - Instalar VMware en un servidor dedicado
Webinar - Instalar VMware en un servidor dedicado
 
Whitepaper - Como mejorar el Business Intelligence de la empresa a través de ...
Whitepaper - Como mejorar el Business Intelligence de la empresa a través de ...Whitepaper - Como mejorar el Business Intelligence de la empresa a través de ...
Whitepaper - Como mejorar el Business Intelligence de la empresa a través de ...
 

Kürzlich hochgeladen

12 Clasificacion de las Computadoras.pdf
12 Clasificacion de las Computadoras.pdf12 Clasificacion de las Computadoras.pdf
12 Clasificacion de las Computadoras.pdfedwinmelgarschlink2
 
Guia para el registro en el sitio slideshare.pdf
Guia para el registro en el sitio slideshare.pdfGuia para el registro en el sitio slideshare.pdf
Guia para el registro en el sitio slideshare.pdflauradbernals
 
02. Mr. Spencer (T.L. Sawn).pdf.libro de un señor
02. Mr. Spencer (T.L. Sawn).pdf.libro de un señor02. Mr. Spencer (T.L. Sawn).pdf.libro de un señor
02. Mr. Spencer (T.L. Sawn).pdf.libro de un señorkkte210207
 
memoria de la empresa Pil Andina para d
memoria de la empresa Pil Andina para  dmemoria de la empresa Pil Andina para  d
memoria de la empresa Pil Andina para dRodrigoAveranga2
 
Las redes sociales en el mercado digital
Las redes sociales en el mercado digitalLas redes sociales en el mercado digital
Las redes sociales en el mercado digitalNayaniJulietaRamosRa
 
NUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdf
NUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdfNUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdf
NUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdfisrael garcia
 

Kürzlich hochgeladen (6)

12 Clasificacion de las Computadoras.pdf
12 Clasificacion de las Computadoras.pdf12 Clasificacion de las Computadoras.pdf
12 Clasificacion de las Computadoras.pdf
 
Guia para el registro en el sitio slideshare.pdf
Guia para el registro en el sitio slideshare.pdfGuia para el registro en el sitio slideshare.pdf
Guia para el registro en el sitio slideshare.pdf
 
02. Mr. Spencer (T.L. Sawn).pdf.libro de un señor
02. Mr. Spencer (T.L. Sawn).pdf.libro de un señor02. Mr. Spencer (T.L. Sawn).pdf.libro de un señor
02. Mr. Spencer (T.L. Sawn).pdf.libro de un señor
 
memoria de la empresa Pil Andina para d
memoria de la empresa Pil Andina para  dmemoria de la empresa Pil Andina para  d
memoria de la empresa Pil Andina para d
 
Las redes sociales en el mercado digital
Las redes sociales en el mercado digitalLas redes sociales en el mercado digital
Las redes sociales en el mercado digital
 
NUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdf
NUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdfNUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdf
NUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdf
 

Whitepaper – Qué es y cómo utilizar Hadoop

  • 1. Qué es Hadoop y cómo se utiliza
  • 2. Hadoop es un marco de software de código abierto utilizado para desarrollar aplicaciones de procesamiento de datos que se ejecutan en un entorno informático distribuido. Proporciona almacenamiento masivo para cualquier tipo de datos, una gran potencia de procesamiento y tiene la capacidad teórica de procesar tareas concurrentes virtualmente ilimitada. En Hadoop, los datos residen en un sistema de archivos distribuido denominado Hadoop Distributed File System —HDFS—, un sistema que tiene capacidad para almacenar los archivos en un clúster de varias máquinas, lo que es esencial para poder almacenar enormes cantidades de datos —hablamos de petabytes—. HDFS es un sistema de ficheros diseñado para funcionar muy bien en la lectura secuencial de los datos, y el hecho de ser un sistema distribuido tiene ventajas adicionales a la de poder almacenar una cantidad potencialmente ilimitada de datos: proporciona escalabilidad, ya que basta con añadir un nodo al clúster para aumentar la capacidad de almacenamiento. Además, proporciona redundancia, lo que hace a Hadoop un sistema tolerante a fallos. La importancia de la topología de red en Hadoop Para un sistema distribuido como Hadoop, la topología de red afecta directamente a su rendimiento cuando la red de nodos crece. Además, si se desea que el sistema sea tolerante a fallos y tenga una alta disponibilidad, la manera en que se organizan los nodos es vital. En Hadoop, la red se representa como un árbol en el que la distancia entre nodos es igual a la suma de su distancia a su ancestro común más cercano. Hadoop es una arquitectura perfecta para procesamiento de Big Data, y por eso su adopción es cada vez mayor. Sus principales características, como su potencia de procesamiento, tolerancia a fallos y su capacidad de almacenamiento ilimitada, así como el bajo coste de implementación son, sin duda, responsables de su éxito.
  • 3. Características principales de Hadoop 1. Tiene la capacidad de almacenar y procesar enormes cantidades de cualquier tipo de datos, de manera inmediata. Esto, para escenarios Big Data —con enormes volúmenes de datos en constante crecimiento, y con la variedad de fuentes de las que se adquieren datos— es una característica muy valorada. 2. Potencia de procesamiento. Al ser un sistema de computación distribuido, Hadoop puede trabajar con los datos a gran velocidad, algo que, además, puede incrementarse fácilmente ampliando los nodos dedicados a estas tareas. 3. Es un sistema tolerante a fallos. En este modelo distribuido, un fallo en un nodo implica que los trabajos se redistribuyen entre el resto de los nodos. La redundancia de los datos es vital para que todo funcione de manera transparente para el usuario. 4. Es un sistema flexible. Los datos que se almacenan no son procesados previamente, lo que agiliza esta parte del trabajo. Esta es gran una diferencia con respecto a los sistemas de bases de datos relacionales, ya que permite almacenar datos no estructurados —texto, imágenes, vídeos—, una de las características principales del Big Data. 5. Es una estructura de bajo coste, al ser gratuita y de código abierto. 6. Es un sistema escalable, ya que tan solo es necesario añadir nuevos nodos para almacenar y almacenar más datos. Además, necesita de poca administración.
  • 4. El proyecto Hadoop es bien conocido, sobre todo, por dos de sus componentes principales: MapReduce y HDFS. Hadoop MapReduce es un modelo computacional y un marco de software para escribir aplicaciones que se ejecutan en Hadoop, y que son capaces de procesar enormes datos en paralelo en grandes grupos de nodos de cómputo. Por otro lado, ya hablamos de HDFS, el sistema de archivos distribuido de Hadoop. HDFS se encarga de la parte de almacenamiento de las aplicaciones de Hadoop, de forma que las aplicaciones MapReduce consumen datos de HDFS. Al tratarse de un sistema de archivos distribuido es posible realizar cálculos fiables y extremadamente rápidos. Otros componentes populares de Hadoop son, en realidad, proyectos relacionados concebidos para la computación distribuida y el procesamiento de datos a gran escala. Algunos de ellos son: Componentes de Hadoop • Hive: una infraestructura de almacenamiento de datos construida sobre Hadoop para proporcionar agrupación, consulta, y análisis de datos • Hbase: una base de datos distribuida no relacional de código abierto • Mahout: para producir implementaciones gratuitas de algoritmos de aprendizaje automático distribuidos o escalables enfocados principalmente en las áreas de filtrado colaborativo, agrupación y clasificación • Sqoop: una aplicación con interfaz de línea de comando para transferir datos entre bases de datos relacionales y Hadoop. • Flume: un servicio distribuido, fiable, y altamente disponible para recopilar, agregar, y mover eficientemente grandes cantidades de datos. • ZooKeeper: que ofrece un servicio para la coordinación de procesos distribuido y altamente confiable que da soluciones a varios problemas de coordinación para grandes sistemas distribuidos.