SlideShare ist ein Scribd-Unternehmen logo
1 von 27
Downloaden Sie, um offline zu lesen
Trabajando con
Datos
DATA PIPELINE
Julio Lopez
@jalp_ec
@EscuelaDeDatos
Data pipeline
¿OPEN DATA?
Hola
Mi nombre es Julio (@jalp_ec), soy de Ecuador tengo 27 años, peso
75 kg (no es cierto) y me encanta andar en bicicleta
Hola
Nombre, País, Edad, Peso, Pasatiempo, Twitter
Julio, Ecuador, 27, 75, bicicleta, @mexflow
Alvaro, Chile, 200, 90, rock, @redmatriz
Daniel, Uruguay, 20, 120, mate, @danielcarranza
Hola
Nombre, País, Edad, Peso, Pasatiempo, Twitter
Julio, Ecuador, 27, 75, bicicleta, @mexflow
Alvaro, Chile, 18, 90, rock, @redmatriz
Daniel, Uruguay, 20, 120, mate, @danielcarranza
Hola.csv
Nombre, País, Edad, Peso, Pasatiempo, Twitter
Julio, Ecuador, 27, 75, bicicleta, @mexflow
Alvaro, Chile, 18, 90, rock, @redmatriz
Daniel, Uruguay, 20, 120, mate, @danielcarranza
Data pipeline
Datos
• Dataset: Una colección de Datos, usualmente el
mismo tipo de datos. Ejemplo: Alumnos de este taller; un
Álbum de Canciones
• Metadata: Datos sobre los Datos. De dónde vienen,
cuándo se recolectaron, cómo, sus parámetros. Ejemplo: Sus
nombres, medio en el cual trabajan, sección, rol, desdecuándo.
Nombre del álbum, autor, canciones, duración, sello, estilo, etc.
• Datos Abiertos: Datos liberados y que cualquiera
tiene permitido usar,reusar, construir cosas con ellos y compartir
los resultados
¿Cómo empezamos a trabajar?
El “Data Pipeline” inicia
planteándose una pregunta para
luego encontrar la información,
extraerla, limpiarla, verificarla,
analizarla y presentarla.
http://es.schoolofdata.org/tag/pipeline/#sth
ash.1hteD09x.dpuf
Data Pipeline
Comenzamos con una o más preguntas
¿Qué sucede en mi país?
¿En qué se gasta el presupuesto público?
¿Cuántos partidos ganó mi selección?
Y así…..
1
2 Obtener la información
Algunas fuentes y portales
oficiales de datos
O haciendo uso de pedidos de
acceso a la información
HACKEANDO
Nerd Moment
Extracción (Hackeand0). Acá los datos se
convierten desde cualquier formato de entrada
que se ha adquirido (por ejemplo, archivos
XLS, PDF o incluso documentos de texto
plano) en una forma que se puede utilizar para
su posterior procesamiento y análisis.
La mayoría de veces implica cargar los datos en un
sistema de base de datos, como MySQL o
PostgreSQL.
O si eres más c00l MongoDB, Redis, SQLite, etc.
SCRAPPING
• Scraping es un término que, traducido al español,
literalmente quiere decir “rascado”. Sin embargo, en
este contexto, se refiere a la limpieza y filtro de los
datos.
• http://es.schoolofdata.org/introduccion-a-la-extraccion-de-datos-de-
sitios-web-scraping/#sthash.0qgjKaad.dpuf
• ImportHTML en Google Spreadsheets
3 Extraer
• The Google spreadsheet formula:
=importHTML("","table",N)
=importHTML("http://en.wikipedia.org/wiki/List_of_largest_United
_Kingdom_settlements_by_population","table",2) - See more at:
http://schoolofdata.org/handbook/recipes/liberating-html-
tables/#sthash.tDFCZOhd.dpuf
IMPORTDATA o
IMPORTXML
Extraer los datos
• Tabula Permite extraer tablas de PDFs.
• SmallPDF y Nitro Permiten convertir archivos de
PDF a csv. La versión gratuita de Nitro permite un
máximo de 50 páginas.
• Import.io Permite scrappear de manera fácil
algunos sitios web
Limpiar los datos
• Buscar+Reemplazar: Permite fácilmente buscar
términos en la hoja de cálculo y reemplazarlos por
otros (google docs)
• Open Refine: Permite limpiar, modificar y exportar
bases de datos. Además es gratuita.
4
Análisis de datos
• Pivot Tables Una herramienta simple pero
poderosa que permite hacer y responder preguntas
con los datos.
• R para los usuarios más avanzados, R es un
lenguaje y entorno de programación para el análisis
estadístico. Es gratuito y de software libre.
5
Visualización6
• Con infogram se pueden crear gráficos e infografías
con un par de clicks. La herramienta es gratuita aunque
para usar todas sus opciones se requiere pagar una
cuota.
• CartoDB es ideal para visualizar información
geolocalizada.
• Tableau Public El programa se descarga y offline
permite hacer diferentes tipos de visualizaciones.
• Datawrapper Útil para hacer diferentes tipos de
gráficos, todo de forma gratuita.
• Google Fusion Tables Permite organizar, visualizar y
compartir información organizada en tablas de datos.
Data Pipeline
¿Cómo se implementa?
• Skillshares (online)
• Blog y web
• Data workshops (offline)
• Expedición de datos (online y offline)
• Other events and Data Projects – Collaborations
Expedición de Datos
¡Muchas gracias!
@jalp_ec
@EscuelaDeDatos
@SchoolOfData
10 min
Tarea: Encuentra una página web con una tabla y obtén
información de ella.
http://schoolofdata.org/handbook/recipes/liberating-
html-tables/
http://schoolofdata.org/handbook/recipes/scraper-
extension-for-chrome/
• Una vez que tengas la tabla en tu hoja de cálculo, lo más
seguro es que quieras jugar con los datos o cambiarlos
de hoja. Haz clic en el botón superior izquierdo y
selecciona paste special (pegado especial) y luego paste
values only (pegar sólo valores).
Desafío: Ayuda a liberar el
presupuesto
Tarea: ¡Encuentra un PDF encarcelado que puedas
liberar!
• Por ejemplo, existen muchos PDFs que necesitan tu
ayuda en este link: Budget Library of the
International Budget Partnership.
Liberar el presupuesto
Una vez que liberes tus datos, compártelos con
alguien y ahórrales el penoso trabajo. Incluso los pues
subir al OpenSpending group en Datahub o al
OpenSpending Mailing List , complementado con una
explicación de lo que hiciste.

Weitere ähnliche Inhalte

Andere mochten auch

From Marketing Program to Movement
From Marketing Program to MovementFrom Marketing Program to Movement
From Marketing Program to MovementNina O'Neil
 
Exe learning arbol de contenidos
Exe learning   arbol de contenidosExe learning   arbol de contenidos
Exe learning arbol de contenidosluchito2013
 
Social entrepreneurship bb citizenship bagde work
Social entrepreneurship bb citizenship bagde workSocial entrepreneurship bb citizenship bagde work
Social entrepreneurship bb citizenship bagde workZhuo Wei Awesomable
 
Social entrepreneurship bb citizenship bagde work
Social entrepreneurship bb citizenship bagde workSocial entrepreneurship bb citizenship bagde work
Social entrepreneurship bb citizenship bagde workZhuo Wei Awesomable
 
Data Security Breach – knowing the risks and protecting your business
Data Security Breach – knowing the risks and protecting your businessData Security Breach – knowing the risks and protecting your business
Data Security Breach – knowing the risks and protecting your businessEversheds Sutherland
 
La ética y la tecnología I
La ética y la tecnología I La ética y la tecnología I
La ética y la tecnología I danielonb2010
 
Transportation & Green House Gas Pollution Claudia Girrbach
Transportation & Green House Gas Pollution Claudia GirrbachTransportation & Green House Gas Pollution Claudia Girrbach
Transportation & Green House Gas Pollution Claudia GirrbachClaudia Girrbach
 
Xcellity Home appliance control_using_android_application
Xcellity Home appliance control_using_android_application Xcellity Home appliance control_using_android_application
Xcellity Home appliance control_using_android_application Reliance Jio USA, Inc.
 
Rabobank horecarecreatietrendscijfers
Rabobank horecarecreatietrendscijfersRabobank horecarecreatietrendscijfers
Rabobank horecarecreatietrendscijfersHenk Oosterhuis
 
Leandro paez
Leandro paezLeandro paez
Leandro paezLean_dru
 
Presentacion dadaista
Presentacion dadaistaPresentacion dadaista
Presentacion dadaistaPackCampos
 
Gerencia de proyectos mapa
Gerencia de proyectos mapaGerencia de proyectos mapa
Gerencia de proyectos mapaabdiascarp
 
1.1 призначення промислових комунікацій
1.1 призначення промислових комунікацій1.1 призначення промислових комунікацій
1.1 призначення промислових комунікаційПупена Александр
 
Експресионизъм и група Мост / Expressionism and "Die Brücke"
Експресионизъм и група Мост / Expressionism and "Die Brücke"Експресионизъм и група Мост / Expressionism and "Die Brücke"
Експресионизъм и група Мост / Expressionism and "Die Brücke"Denitza Tchakarova
 
Refuerzan facultades para eliminar barreras burocráticas
Refuerzan facultades para eliminar barreras burocráticas Refuerzan facultades para eliminar barreras burocráticas
Refuerzan facultades para eliminar barreras burocráticas Yanira Becerra
 
Matriz tpack enriquecida claudia
Matriz tpack enriquecida claudiaMatriz tpack enriquecida claudia
Matriz tpack enriquecida claudiaclaudiamolina911
 

Andere mochten auch (20)

From Marketing Program to Movement
From Marketing Program to MovementFrom Marketing Program to Movement
From Marketing Program to Movement
 
Exe learning arbol de contenidos
Exe learning   arbol de contenidosExe learning   arbol de contenidos
Exe learning arbol de contenidos
 
Social entrepreneurship bb citizenship bagde work
Social entrepreneurship bb citizenship bagde workSocial entrepreneurship bb citizenship bagde work
Social entrepreneurship bb citizenship bagde work
 
Social entrepreneurship bb citizenship bagde work
Social entrepreneurship bb citizenship bagde workSocial entrepreneurship bb citizenship bagde work
Social entrepreneurship bb citizenship bagde work
 
Data Security Breach – knowing the risks and protecting your business
Data Security Breach – knowing the risks and protecting your businessData Security Breach – knowing the risks and protecting your business
Data Security Breach – knowing the risks and protecting your business
 
La ética y la tecnología I
La ética y la tecnología I La ética y la tecnología I
La ética y la tecnología I
 
Transportation & Green House Gas Pollution Claudia Girrbach
Transportation & Green House Gas Pollution Claudia GirrbachTransportation & Green House Gas Pollution Claudia Girrbach
Transportation & Green House Gas Pollution Claudia Girrbach
 
Xcellity Home appliance control_using_android_application
Xcellity Home appliance control_using_android_application Xcellity Home appliance control_using_android_application
Xcellity Home appliance control_using_android_application
 
Contenido esencial Derecho a la consulta
Contenido esencial Derecho a la consultaContenido esencial Derecho a la consulta
Contenido esencial Derecho a la consulta
 
Ppt compost (2)
Ppt compost (2)Ppt compost (2)
Ppt compost (2)
 
10 partes gerenciales
10 partes gerenciales10 partes gerenciales
10 partes gerenciales
 
Rabobank horecarecreatietrendscijfers
Rabobank horecarecreatietrendscijfersRabobank horecarecreatietrendscijfers
Rabobank horecarecreatietrendscijfers
 
Leandro paez
Leandro paezLeandro paez
Leandro paez
 
Presentacion dadaista
Presentacion dadaistaPresentacion dadaista
Presentacion dadaista
 
Gerencia de proyectos mapa
Gerencia de proyectos mapaGerencia de proyectos mapa
Gerencia de proyectos mapa
 
1.1 призначення промислових комунікацій
1.1 призначення промислових комунікацій1.1 призначення промислових комунікацій
1.1 призначення промислових комунікацій
 
Експресионизъм и група Мост / Expressionism and "Die Brücke"
Експресионизъм и група Мост / Expressionism and "Die Brücke"Експресионизъм и група Мост / Expressionism and "Die Brücke"
Експресионизъм и група Мост / Expressionism and "Die Brücke"
 
Refuerzan facultades para eliminar barreras burocráticas
Refuerzan facultades para eliminar barreras burocráticas Refuerzan facultades para eliminar barreras burocráticas
Refuerzan facultades para eliminar barreras burocráticas
 
Internet
InternetInternet
Internet
 
Matriz tpack enriquecida claudia
Matriz tpack enriquecida claudiaMatriz tpack enriquecida claudia
Matriz tpack enriquecida claudia
 

Ähnlich wie Data pipeline

Visualización de datos con Tableau Public - Comité de Investigación
Visualización de datos con Tableau Public - Comité de InvestigaciónVisualización de datos con Tableau Public - Comité de Investigación
Visualización de datos con Tableau Public - Comité de InvestigaciónIAB México
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
 
Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVEPresentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVEProgramaMediosCentroCarterVE
 
Técnicas y herramientas de extracción de datos
Técnicas y herramientas de extracción de datos Técnicas y herramientas de extracción de datos
Técnicas y herramientas de extracción de datos Juan Sixto
 
Familiarización básica a métodos y herramientas para soluciones de Big Data
Familiarización básica a métodos y herramientas para soluciones de Big DataFamiliarización básica a métodos y herramientas para soluciones de Big Data
Familiarización básica a métodos y herramientas para soluciones de Big DataSebastián Ramírez Montaño
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
 
Bibliotecari@s en la ‪Big Data‬
Bibliotecari@s en la ‪Big Data‬Bibliotecari@s en la ‪Big Data‬
Bibliotecari@s en la ‪Big Data‬Fernando-Ariel Lopez
 
Big Data Introducción
Big Data IntroducciónBig Data Introducción
Big Data IntroducciónGorka Armentia
 
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...Software Guru
 
Clase 01 Que Es El Internet
Clase 01 Que Es El InternetClase 01 Que Es El Internet
Clase 01 Que Es El InternetEdson Solórzano
 
Redis, base de datos NoSQL clave-valor
Redis, base de datos NoSQL clave-valorRedis, base de datos NoSQL clave-valor
Redis, base de datos NoSQL clave-valorAlberto Gimeno
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesJuan José Domenech
 
Visualización de Big Data con Power View
Visualización de Big Data con Power ViewVisualización de Big Data con Power View
Visualización de Big Data con Power ViewEduardo Castro
 

Ähnlich wie Data pipeline (20)

Visualización de datos con Tableau Public - Comité de Investigación
Visualización de datos con Tableau Public - Comité de InvestigaciónVisualización de datos con Tableau Public - Comité de Investigación
Visualización de datos con Tableau Public - Comité de Investigación
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu Empresa
 
Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVEPresentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
 
Clase 4 tecno i- periodismo 2015
Clase 4  tecno i- periodismo 2015Clase 4  tecno i- periodismo 2015
Clase 4 tecno i- periodismo 2015
 
Técnicas y herramientas de extracción de datos
Técnicas y herramientas de extracción de datos Técnicas y herramientas de extracción de datos
Técnicas y herramientas de extracción de datos
 
Familiarización básica a métodos y herramientas para soluciones de Big Data
Familiarización básica a métodos y herramientas para soluciones de Big DataFamiliarización básica a métodos y herramientas para soluciones de Big Data
Familiarización básica a métodos y herramientas para soluciones de Big Data
 
#Cappacitate2015 Bogota
#Cappacitate2015 Bogota#Cappacitate2015 Bogota
#Cappacitate2015 Bogota
 
Cappacitate Pereira
Cappacitate PereiraCappacitate Pereira
Cappacitate Pereira
 
Gestion del conocimiento
Gestion del conocimientoGestion del conocimiento
Gestion del conocimiento
 
Gestion del conocimiento
Gestion del conocimientoGestion del conocimiento
Gestion del conocimiento
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión I
 
Bibliotecari@s en la ‪Big Data‬
Bibliotecari@s en la ‪Big Data‬Bibliotecari@s en la ‪Big Data‬
Bibliotecari@s en la ‪Big Data‬
 
Big Data Introducción
Big Data IntroducciónBig Data Introducción
Big Data Introducción
 
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
 
Clase 4 periodismo de base de datos
Clase 4  periodismo de base de datosClase 4  periodismo de base de datos
Clase 4 periodismo de base de datos
 
Anatomía de un proyecto de Big Data
Anatomía de un proyecto de Big DataAnatomía de un proyecto de Big Data
Anatomía de un proyecto de Big Data
 
Clase 01 Que Es El Internet
Clase 01 Que Es El InternetClase 01 Que Es El Internet
Clase 01 Que Es El Internet
 
Redis, base de datos NoSQL clave-valor
Redis, base de datos NoSQL clave-valorRedis, base de datos NoSQL clave-valor
Redis, base de datos NoSQL clave-valor
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
Visualización de Big Data con Power View
Visualización de Big Data con Power ViewVisualización de Big Data con Power View
Visualización de Big Data con Power View
 

Kürzlich hochgeladen

RED DE PARQUES NACIONALES DANIELA CASAS 4ºB
RED DE PARQUES NACIONALES DANIELA CASAS 4ºBRED DE PARQUES NACIONALES DANIELA CASAS 4ºB
RED DE PARQUES NACIONALES DANIELA CASAS 4ºBdanihouses0609
 
BOLETÍN HEMEROGRÁFICO-FEBRERO 2024, ICV-.pdf
BOLETÍN HEMEROGRÁFICO-FEBRERO 2024, ICV-.pdfBOLETÍN HEMEROGRÁFICO-FEBRERO 2024, ICV-.pdf
BOLETÍN HEMEROGRÁFICO-FEBRERO 2024, ICV-.pdfIrapuatoCmovamos
 
Familias más ricas de México en la historia (2024) .pdf
Familias más ricas de México en la historia (2024) .pdfFamilias más ricas de México en la historia (2024) .pdf
Familias más ricas de México en la historia (2024) .pdfJC Díaz Herrera
 
Países el alto ingreso y stock per cápita en América Latina (1819-2024).pdf
Países el alto ingreso y stock  per cápita en América Latina (1819-2024).pdfPaíses el alto ingreso y stock  per cápita en América Latina (1819-2024).pdf
Países el alto ingreso y stock per cápita en América Latina (1819-2024).pdfJC Díaz Herrera
 
PPT Difusión Empresa tmert, material Achs de apoyo
PPT Difusión Empresa tmert, material Achs de apoyoPPT Difusión Empresa tmert, material Achs de apoyo
PPT Difusión Empresa tmert, material Achs de apoyoRalFranciscoMartinez
 
Trabajo herramientas informáticas trabajo pestel.pdf
Trabajo herramientas informáticas trabajo pestel.pdfTrabajo herramientas informáticas trabajo pestel.pdf
Trabajo herramientas informáticas trabajo pestel.pdfjggaratep
 
Tinkercad Mikaela Lagos- Skarleth Ayala .
Tinkercad Mikaela Lagos- Skarleth Ayala .Tinkercad Mikaela Lagos- Skarleth Ayala .
Tinkercad Mikaela Lagos- Skarleth Ayala .mikalagos1roa
 
BASE DE DATOS - INSTALACION LARAGON 2024
BASE DE DATOS - INSTALACION LARAGON 2024BASE DE DATOS - INSTALACION LARAGON 2024
BASE DE DATOS - INSTALACION LARAGON 2024DiegoAlejandroFajard1
 
Familias más ricas de AL en la historia (2024).pdf
Familias más ricas de AL en la historia (2024).pdfFamilias más ricas de AL en la historia (2024).pdf
Familias más ricas de AL en la historia (2024).pdfJC Díaz Herrera
 

Kürzlich hochgeladen (9)

RED DE PARQUES NACIONALES DANIELA CASAS 4ºB
RED DE PARQUES NACIONALES DANIELA CASAS 4ºBRED DE PARQUES NACIONALES DANIELA CASAS 4ºB
RED DE PARQUES NACIONALES DANIELA CASAS 4ºB
 
BOLETÍN HEMEROGRÁFICO-FEBRERO 2024, ICV-.pdf
BOLETÍN HEMEROGRÁFICO-FEBRERO 2024, ICV-.pdfBOLETÍN HEMEROGRÁFICO-FEBRERO 2024, ICV-.pdf
BOLETÍN HEMEROGRÁFICO-FEBRERO 2024, ICV-.pdf
 
Familias más ricas de México en la historia (2024) .pdf
Familias más ricas de México en la historia (2024) .pdfFamilias más ricas de México en la historia (2024) .pdf
Familias más ricas de México en la historia (2024) .pdf
 
Países el alto ingreso y stock per cápita en América Latina (1819-2024).pdf
Países el alto ingreso y stock  per cápita en América Latina (1819-2024).pdfPaíses el alto ingreso y stock  per cápita en América Latina (1819-2024).pdf
Países el alto ingreso y stock per cápita en América Latina (1819-2024).pdf
 
PPT Difusión Empresa tmert, material Achs de apoyo
PPT Difusión Empresa tmert, material Achs de apoyoPPT Difusión Empresa tmert, material Achs de apoyo
PPT Difusión Empresa tmert, material Achs de apoyo
 
Trabajo herramientas informáticas trabajo pestel.pdf
Trabajo herramientas informáticas trabajo pestel.pdfTrabajo herramientas informáticas trabajo pestel.pdf
Trabajo herramientas informáticas trabajo pestel.pdf
 
Tinkercad Mikaela Lagos- Skarleth Ayala .
Tinkercad Mikaela Lagos- Skarleth Ayala .Tinkercad Mikaela Lagos- Skarleth Ayala .
Tinkercad Mikaela Lagos- Skarleth Ayala .
 
BASE DE DATOS - INSTALACION LARAGON 2024
BASE DE DATOS - INSTALACION LARAGON 2024BASE DE DATOS - INSTALACION LARAGON 2024
BASE DE DATOS - INSTALACION LARAGON 2024
 
Familias más ricas de AL en la historia (2024).pdf
Familias más ricas de AL en la historia (2024).pdfFamilias más ricas de AL en la historia (2024).pdf
Familias más ricas de AL en la historia (2024).pdf
 

Data pipeline

  • 1. Trabajando con Datos DATA PIPELINE Julio Lopez @jalp_ec @EscuelaDeDatos
  • 4. Hola Mi nombre es Julio (@jalp_ec), soy de Ecuador tengo 27 años, peso 75 kg (no es cierto) y me encanta andar en bicicleta
  • 5. Hola Nombre, País, Edad, Peso, Pasatiempo, Twitter Julio, Ecuador, 27, 75, bicicleta, @mexflow Alvaro, Chile, 200, 90, rock, @redmatriz Daniel, Uruguay, 20, 120, mate, @danielcarranza
  • 6. Hola Nombre, País, Edad, Peso, Pasatiempo, Twitter Julio, Ecuador, 27, 75, bicicleta, @mexflow Alvaro, Chile, 18, 90, rock, @redmatriz Daniel, Uruguay, 20, 120, mate, @danielcarranza
  • 7. Hola.csv Nombre, País, Edad, Peso, Pasatiempo, Twitter Julio, Ecuador, 27, 75, bicicleta, @mexflow Alvaro, Chile, 18, 90, rock, @redmatriz Daniel, Uruguay, 20, 120, mate, @danielcarranza
  • 9. Datos • Dataset: Una colección de Datos, usualmente el mismo tipo de datos. Ejemplo: Alumnos de este taller; un Álbum de Canciones • Metadata: Datos sobre los Datos. De dónde vienen, cuándo se recolectaron, cómo, sus parámetros. Ejemplo: Sus nombres, medio en el cual trabajan, sección, rol, desdecuándo. Nombre del álbum, autor, canciones, duración, sello, estilo, etc. • Datos Abiertos: Datos liberados y que cualquiera tiene permitido usar,reusar, construir cosas con ellos y compartir los resultados
  • 10. ¿Cómo empezamos a trabajar? El “Data Pipeline” inicia planteándose una pregunta para luego encontrar la información, extraerla, limpiarla, verificarla, analizarla y presentarla. http://es.schoolofdata.org/tag/pipeline/#sth ash.1hteD09x.dpuf
  • 12. Comenzamos con una o más preguntas ¿Qué sucede en mi país? ¿En qué se gasta el presupuesto público? ¿Cuántos partidos ganó mi selección? Y así….. 1
  • 13. 2 Obtener la información Algunas fuentes y portales oficiales de datos O haciendo uso de pedidos de acceso a la información HACKEANDO
  • 14. Nerd Moment Extracción (Hackeand0). Acá los datos se convierten desde cualquier formato de entrada que se ha adquirido (por ejemplo, archivos XLS, PDF o incluso documentos de texto plano) en una forma que se puede utilizar para su posterior procesamiento y análisis. La mayoría de veces implica cargar los datos en un sistema de base de datos, como MySQL o PostgreSQL. O si eres más c00l MongoDB, Redis, SQLite, etc.
  • 15. SCRAPPING • Scraping es un término que, traducido al español, literalmente quiere decir “rascado”. Sin embargo, en este contexto, se refiere a la limpieza y filtro de los datos. • http://es.schoolofdata.org/introduccion-a-la-extraccion-de-datos-de- sitios-web-scraping/#sthash.0qgjKaad.dpuf • ImportHTML en Google Spreadsheets 3 Extraer
  • 16. • The Google spreadsheet formula: =importHTML("","table",N) =importHTML("http://en.wikipedia.org/wiki/List_of_largest_United _Kingdom_settlements_by_population","table",2) - See more at: http://schoolofdata.org/handbook/recipes/liberating-html- tables/#sthash.tDFCZOhd.dpuf IMPORTDATA o IMPORTXML
  • 17. Extraer los datos • Tabula Permite extraer tablas de PDFs. • SmallPDF y Nitro Permiten convertir archivos de PDF a csv. La versión gratuita de Nitro permite un máximo de 50 páginas. • Import.io Permite scrappear de manera fácil algunos sitios web
  • 18. Limpiar los datos • Buscar+Reemplazar: Permite fácilmente buscar términos en la hoja de cálculo y reemplazarlos por otros (google docs) • Open Refine: Permite limpiar, modificar y exportar bases de datos. Además es gratuita. 4
  • 19. Análisis de datos • Pivot Tables Una herramienta simple pero poderosa que permite hacer y responder preguntas con los datos. • R para los usuarios más avanzados, R es un lenguaje y entorno de programación para el análisis estadístico. Es gratuito y de software libre. 5
  • 20. Visualización6 • Con infogram se pueden crear gráficos e infografías con un par de clicks. La herramienta es gratuita aunque para usar todas sus opciones se requiere pagar una cuota. • CartoDB es ideal para visualizar información geolocalizada. • Tableau Public El programa se descarga y offline permite hacer diferentes tipos de visualizaciones. • Datawrapper Útil para hacer diferentes tipos de gráficos, todo de forma gratuita. • Google Fusion Tables Permite organizar, visualizar y compartir información organizada en tablas de datos.
  • 22. ¿Cómo se implementa? • Skillshares (online) • Blog y web • Data workshops (offline) • Expedición de datos (online y offline) • Other events and Data Projects – Collaborations
  • 25. 10 min Tarea: Encuentra una página web con una tabla y obtén información de ella. http://schoolofdata.org/handbook/recipes/liberating- html-tables/ http://schoolofdata.org/handbook/recipes/scraper- extension-for-chrome/ • Una vez que tengas la tabla en tu hoja de cálculo, lo más seguro es que quieras jugar con los datos o cambiarlos de hoja. Haz clic en el botón superior izquierdo y selecciona paste special (pegado especial) y luego paste values only (pegar sólo valores).
  • 26. Desafío: Ayuda a liberar el presupuesto Tarea: ¡Encuentra un PDF encarcelado que puedas liberar! • Por ejemplo, existen muchos PDFs que necesitan tu ayuda en este link: Budget Library of the International Budget Partnership.
  • 27. Liberar el presupuesto Una vez que liberes tus datos, compártelos con alguien y ahórrales el penoso trabajo. Incluso los pues subir al OpenSpending group en Datahub o al OpenSpending Mailing List , complementado con una explicación de lo que hiciste.