SlideShare ist ein Scribd-Unternehmen logo
1 von 29
Downloaden Sie, um offline zu lesen
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
• Introducción – ¿qué es la ciencia de datos?
• Perfiles de un científico de datos – roles, skills-set
• El proceso del Data Science
• La importancia de la calidad de los datos
• Herramientas para adquisición, procesamiento y
visualización de datos
• Herramientas para web scraping, dataviz e integración
• El contexto actual de la Ciencia de Datos
• ¿Cómo prepararnos en Ciencia de Datos?
Agenda
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Introducción
GoogleTrends (2021). https://trends.google.co.in/trends/explore?date=all&q=Data%20Science,Machine%20Learning,Data%20Visualization,Artificial%20Intelligence,Deep%20Learning
¿Qué es la Ciencia de Datos?
De forma reciente el término de ciencia de datos se ha vuelto muy trendy
y despierta el interés por conocer de estos temas.
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Introducción
.
¿Qué es la Ciencia de Datos?
La ciencia de datos se trata de procesar datos! Data science is about data!
La ciencia de datos es un campo multidisciplinario enfocado en extraer información
para ayudar a una organización a tomar mejores decisiones.
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Introducción
La ciencia de datos (data-science), el aprendizaje artificial o inteligente
(ML - machine learning) y la minería de datos (data mining) son términos
que comúnmente se utilizan de forma indistinta (Kelleher y Tierney, 2018),
Se puede simplificar la definición de estos conceptos (Robinson, 2018):
• la ciencia de datos nos brinda el entendimiento (insights),
• el aprendizaje automático produce predicciones y
• la inteligencia artificial produce acciones
La ciencia de datos se distingue porque su objetivo es
especialmente humano (obtener información y comprensión de lo que
significa) y puede darse de forma descriptiva, exploratoria o a nivel de causalidad.
Entra en escena un profesional, el científico de datos (data scientist), quien hará la
interpretación de los hallazgos para obtener las conclusiones.
¿Qué es la Ciencia de Datos?
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Introducción
Con la analogía de
los LEGOs se puede
interpretar muy bien
las tareas que se
realizan en la Ciencia
de Datos.
https://web.stanford.edu/group/sdgc/cgi-bin/ycisl/?p=4927
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Perfil de un científico de datos
Entonces un profesional del área debe
tener una cierta preparación para
llevar a cabo las actividades propias del
proceso del data science
La ciencia de datos se trata de procesar datos! Data science is about data!
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Los conocimientos y habilidades de un científico
de datos (skills) comprenden diversas áreas
Perfil de un científico de datos
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Se puede conformar un equipo de trabajo con
la integración de varios profesionales del Data
Science con diferentes niveles de especialización
• Data Business Person
• Data Creative
• Data Developer
• Data Researcher
• Data Enginner
Perfil de un científico de datos
El proceso del Data Science
El proceso del Data Science
El proceso del Data Science
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Data Wrangling. https://es.slideshare.net/gramener/data-wrangling-67544392
Proceso del DS: diversidad de tipos y fuentes de datos
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
• incompletos:
carecen de valores de atributos, carecen de ciertos atributos de interés o solo contienen datos
agregados Ejem: ocupación=“”
• ruidosos (noisy):
contienen valores atípicos (outliers), fuera de rango ó con errores (errores ortográficos, fonéticos y
tipográficos, transposiciones de palabras, varios valores en un solo campo concatenados de forma
libre), etc
Ejem., salario = “-10.00”
• inconsistentes:
contienen discrepancias en códigos o nombres (sinónimos y apodos, variaciones de prefijo y sufijo,
tienen abreviaturas, truncamiento e iniciales)
Ejemplos: Edad=“42” FechaNacimiento=“03/07/1997”
rating “1,2,3”, rating “A, B, C”
Los Datos en el mundo real están sucios (dirty-data)*
* Helena Galhardas. DEI IST. (based on the slides: “A Survey of Data Quality Issues in Cooperative Information Systems”, Carlo Batini, Tiziana Catarci, Monica Scannapieco, 23rd International Conference on Conceptual Modelling (ER 2004))
Proceso del DS: importancia de la calidad de los datos
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Rachael Tatman (2017) 5-Day Data Challenge in Kaggle! https://www.kaggle.com/rtatman/data-cleaning-challenge-handling-missing-values
Proceso del DS: Tareas de limpieza de datos
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Proceso de DS: Adquisisición e integración de datos
https://datafloq.com/read/what-is-etl/6948
ETL - ELT: Procesos de adquisición, transformación y carga de datos
Con el Big Data ha cambiado significativamente el orden de
los procesos.
Ahora se transforman "sobre la marcha" cuando lo necesitan los
científicos de datos.
Incluso se pueden combinar para sacar las ventajas de ambos
métodos. ELT para ingestas rápidas de datos no estructurados y ETL
para flexibilidad y seguridad.
A este enfoque se le conoce como:
ETLT (Extract, Transform, Load, Transform).
https://www.astera.com/es/type/blog/etl-vs-elt-whats-the-difference/
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Proceso del DS : La fase de adquisición de datos
Los datos pueden venir de diferentes fuentes (internas, externas )
Y puede ser que seamos los propietarios o que tengamos que
“adquirirlos” de alguna manera, mediante acceso vía:
• Bases de datos estructuradas
• Web scraping
• APIs (Interfaces definidas para intercambio estructurado de datos)
Énfasis en la etapa de recuperación / adquisición / recolección de Datos
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Proceso del DS: Adquisición de datos con Web scraping
https://www.edureka.co/blog/web-scraping-with-python/
Para extraer datos usando web scraping
solo necesitamos seguir los siguientes pasos:
1. Localizar la URL que queremos escrapear
2. Analizar el código de la página
3. Identificar los datos de interés dentro del código de
la página
4. Escribir un programa que separe los datos del
código de la página
5. Ejecutar el código y extraer los datos
6. Almacenar los datos en el formato apropiado
7. Repetir el proceso por cada URL o fuente de datos
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Ejemplo de scraping de los libros Best-Sellers en Amazon
-- extracción de dataset de libros más vendidos
Proceso del DS: Adquisición de datos con Web scraping
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Proceso del DS: Librerías para hacer Web scraping
https://pythonbasics.org/pandas-web-scraping https://doc.scrapy.org/en/latest/intro/tutorial.html
https://oak-tree.tech/blog/python-web-scraping-selenium
Con Python se tienen varias posibilidades para
levar a cabo proyectos de Web scraping
• Request
• BeautifulSoup
• Selenium (RPA*)
• Pandas
• Scrapy
*RPA – Robotic Process Automation
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Herramientas para hacer Web scraping
También existen una gran variedad
de Plataformas y Herramientas
comerciales para realizar tareas de
scraping
• ScrapeHero.com
• Simplescraper.io
• parsehub.com
• webscraper.io
• webhose.io
• scraperAPI.com
• APIfy.com
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Herramientas para hacer DataViz
El DataViz
El principal objetivo de la visualización de datos
es facilitar el acceso a grandes para analizar y
comprender grandes volúmenes de datos.
Gracias a la información recopilada, analizada y
visualizada, es posible identificar tendencias,
comparaciones y recomendaciones.
Tableau es una plataforma de análisis visual que
transforma la forma en que usamos los datos
para resolver problemas, lo que permite que las
personas y las organizaciones aprovechen al
máximo sus datos para la toma de decisiones.
• tableau.com
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Herramientas para hacer DataViz
PowerBI es la plataforma de Microsoft líder en el
segmento de plataformas de análisis y business
intelligence.
Permite encontrar rápidamente valiosa
información con una alta integración de la
tecnología Microsoft en sus datos para ayudar a
tomar mejores decisiones empresariales.
• PowerBI.com
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Herramientas para Ciencia de Datos – End to End
KNIME
Plataforma integradora,
especializada para crear y
producir ciencia de datos
utilizando un entorno fácil
e intuitivo, permitiendo
que todas las partes
interesadas en el proceso
de ciencia de datos se
concentren en lo que
mejor hacen…
• Knime.com
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Contexto actual de la Ciencia de Datos
¿Quiénes están aplicando el DS en el mundo? en México?
¿cómo es el mercado laboral? existe demanda por
profesionales de estas áreas?
La cultura del Data Driven – Empresas Data Driven
¿Dónde buscar información?
• StackOverflow 2021 Developer Survey
• Robert Half - Technology Salary Guide
• empleosti.com.mx
• Indeed.com
• Linked-In
Empleos y demanda de empleos para DS
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Para conocer más sobre Ciencia de Datos
También, una gran opción para aprender y mantenerse al tanto de los nuevos avances en
estas áreas son los foros de discusión, blogs y portales especializados.
A continuación, una breve lista de sitios recomendados:
• Towards Data Science https://towardsdatascience.com/
• Kaggle https://www.kaggle.com/
• Hackernoon.com https://hackernoon.com/
• Medium https://medium.com/
• Open Data Science https://odsc.com/
• Data Science Central https://www.datasciencecentral.com/
• Harvard Data Science Review https://hdsr.mitpress.mit.edu/
Finalmente, algunos perfiles interesantes para seguir también en twitter son:
• @IDC - IDC.com
• @kaggle - Kaggle.com
• @kdnuggets - KDNuggets
• @DataScienceCtrl - DataScience Central
• @TDataScience - Towards Data Science
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Donde aprender y especialirme en Ciencia de Datos
¿Qué ofertas hay disponibles para aprender DS?
• Gran oferta de especialidades, cursos, diplomados, bootcamps en DS
• ¿Quiénes ofertan?: universidades, institutos, empresas tecnológicas, alianzas.
• Costos, modalidad, duración
• ¿Qué perfil tendrá el egresado?
• Data Businessperson
• Data Creative
• Data Developer
• Data Researcher
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Donde aprender y especialirme en Ciencia de Datos
¿Qué ofertas hay disponibles para aprender DS?
Facultad de Telemática
• Maestría en Tecnologías de Internet
área de cómputo cognitivo
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Preguntas - comentarios
Muchas gracias!
J. Román Herrera Morales
Email: rherrera@ucol.mx

Weitere ähnliche Inhalte

Ähnlich wie Herramientas y recursos tecnológicos para el Data Science

Data Science learning roadmaps 2021
Data Science learning roadmaps 2021Data Science learning roadmaps 2021
Data Science learning roadmaps 2021Roman Herrera
 
Calidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datosCalidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datosRoman Herrera
 
Chiclayo 2012
Chiclayo 2012Chiclayo 2012
Chiclayo 2012Dangel DC
 
Silabo bases de_datos_II
Silabo bases de_datos_IISilabo bases de_datos_II
Silabo bases de_datos_IIMarcelo Herrera
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiDoris Aguagallo
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiLiliana Charco
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiChars Orden
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiYoly QC
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiWilliam Lozano
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiMary Tenelema
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiPaúl Cacuango
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiDyego de Alvaro
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiInés Rosero
 

Ähnlich wie Herramientas y recursos tecnológicos para el Data Science (20)

Data Science learning roadmaps 2021
Data Science learning roadmaps 2021Data Science learning roadmaps 2021
Data Science learning roadmaps 2021
 
Rc ricardo prado
Rc ricardo pradoRc ricardo prado
Rc ricardo prado
 
Calidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datosCalidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datos
 
capacitación Data science.pptx
capacitación Data science.pptxcapacitación Data science.pptx
capacitación Data science.pptx
 
Anatomía de un proyecto de Big Data
Anatomía de un proyecto de Big DataAnatomía de un proyecto de Big Data
Anatomía de un proyecto de Big Data
 
06 Periodismo Digital - arquitectura de informacion
06  Periodismo Digital - arquitectura de informacion06  Periodismo Digital - arquitectura de informacion
06 Periodismo Digital - arquitectura de informacion
 
Chiclayo 2012
Chiclayo 2012Chiclayo 2012
Chiclayo 2012
 
Silabo bases de_datos_II
Silabo bases de_datos_IISilabo bases de_datos_II
Silabo bases de_datos_II
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
silabo
silabosilabo
silabo
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1 Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
 

Kürzlich hochgeladen

Estudio sobre tenencia de animales domésticos en Madrid 2019-2023
Estudio sobre tenencia de animales domésticos en Madrid 2019-2023Estudio sobre tenencia de animales domésticos en Madrid 2019-2023
Estudio sobre tenencia de animales domésticos en Madrid 2019-2023mmolina546
 
Países con mayores líneas de trenes de alta velocidad (2021).pdf
Países con  mayores líneas de trenes de alta velocidad  (2021).pdfPaíses con  mayores líneas de trenes de alta velocidad  (2021).pdf
Países con mayores líneas de trenes de alta velocidad (2021).pdfJC Díaz Herrera
 
REVISTAA - CONSTRUCCION SOSTENIBLE ESTUDIO DE CASOS
REVISTAA - CONSTRUCCION SOSTENIBLE ESTUDIO DE CASOSREVISTAA - CONSTRUCCION SOSTENIBLE ESTUDIO DE CASOS
REVISTAA - CONSTRUCCION SOSTENIBLE ESTUDIO DE CASOSAlexander VA
 
La semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomasLa semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomascarmenachullahuamani1
 
El siglo de Asia en pocos datos relevantes año (2024).pdf
El siglo de Asia en pocos datos relevantes año (2024).pdfEl siglo de Asia en pocos datos relevantes año (2024).pdf
El siglo de Asia en pocos datos relevantes año (2024).pdfJC Díaz Herrera
 
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfLa Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfanaliticaydatos
 
2287-Texto del artículo-1259innova9-1-10-20230909.pdf
2287-Texto del artículo-1259innova9-1-10-20230909.pdf2287-Texto del artículo-1259innova9-1-10-20230909.pdf
2287-Texto del artículo-1259innova9-1-10-20230909.pdfCamiloVasconez
 
GRUPO 3 ACTIVIDADES Integradoras Universidad cesar vallejo.pdf
GRUPO 3 ACTIVIDADES Integradoras Universidad cesar vallejo.pdfGRUPO 3 ACTIVIDADES Integradoras Universidad cesar vallejo.pdf
GRUPO 3 ACTIVIDADES Integradoras Universidad cesar vallejo.pdfelielarmandoeche2
 
Diapositivas de recolección de datos tema en especifico
Diapositivas de recolección de datos tema en especificoDiapositivas de recolección de datos tema en especifico
Diapositivas de recolección de datos tema en especificojuancarlos63884
 
Los países de AL con mayor población blanca europea (2024).pdf
Los países de AL con mayor población blanca europea (2024).pdfLos países de AL con mayor población blanca europea (2024).pdf
Los países de AL con mayor población blanca europea (2024).pdfJC Díaz Herrera
 
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...Daniela Márquez Sena
 
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.FeliGamarra1
 
Estudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de IpsosEstudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de IpsosEmisor Digital
 
EJERCICIOS PARA MODELAR BASES DE DATOS.docx.docx
EJERCICIOS PARA MODELAR BASES DE DATOS.docx.docxEJERCICIOS PARA MODELAR BASES DE DATOS.docx.docx
EJERCICIOS PARA MODELAR BASES DE DATOS.docx.docxZafetDeLaOssa1
 
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdkXNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdkJuanmanuelYapitamani
 
Formas Farmacéuticas segun la FEUM..........
Formas Farmacéuticas segun la FEUM..........Formas Farmacéuticas segun la FEUM..........
Formas Farmacéuticas segun la FEUM..........amebgirl
 
CUENCA MADRE DE DIOS-BOLIVIA INFORMACIÓN GENERAL
CUENCA MADRE DE DIOS-BOLIVIA INFORMACIÓN GENERALCUENCA MADRE DE DIOS-BOLIVIA INFORMACIÓN GENERAL
CUENCA MADRE DE DIOS-BOLIVIA INFORMACIÓN GENERALCarlosDelgadoMiranda
 
01 SIMULACRO 2024.pdf unijjajajajjaaaajj
01 SIMULACRO 2024.pdf unijjajajajjaaaajj01 SIMULACRO 2024.pdf unijjajajajjaaaajj
01 SIMULACRO 2024.pdf unijjajajajjaaaajjmatiasccoyllomarca
 
Seguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoahSeguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoahodalisnicoles
 
Guía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico JamoviGuía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico JamoviHugoSSalinas
 

Kürzlich hochgeladen (20)

Estudio sobre tenencia de animales domésticos en Madrid 2019-2023
Estudio sobre tenencia de animales domésticos en Madrid 2019-2023Estudio sobre tenencia de animales domésticos en Madrid 2019-2023
Estudio sobre tenencia de animales domésticos en Madrid 2019-2023
 
Países con mayores líneas de trenes de alta velocidad (2021).pdf
Países con  mayores líneas de trenes de alta velocidad  (2021).pdfPaíses con  mayores líneas de trenes de alta velocidad  (2021).pdf
Países con mayores líneas de trenes de alta velocidad (2021).pdf
 
REVISTAA - CONSTRUCCION SOSTENIBLE ESTUDIO DE CASOS
REVISTAA - CONSTRUCCION SOSTENIBLE ESTUDIO DE CASOSREVISTAA - CONSTRUCCION SOSTENIBLE ESTUDIO DE CASOS
REVISTAA - CONSTRUCCION SOSTENIBLE ESTUDIO DE CASOS
 
La semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomasLa semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomas
 
El siglo de Asia en pocos datos relevantes año (2024).pdf
El siglo de Asia en pocos datos relevantes año (2024).pdfEl siglo de Asia en pocos datos relevantes año (2024).pdf
El siglo de Asia en pocos datos relevantes año (2024).pdf
 
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfLa Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
 
2287-Texto del artículo-1259innova9-1-10-20230909.pdf
2287-Texto del artículo-1259innova9-1-10-20230909.pdf2287-Texto del artículo-1259innova9-1-10-20230909.pdf
2287-Texto del artículo-1259innova9-1-10-20230909.pdf
 
GRUPO 3 ACTIVIDADES Integradoras Universidad cesar vallejo.pdf
GRUPO 3 ACTIVIDADES Integradoras Universidad cesar vallejo.pdfGRUPO 3 ACTIVIDADES Integradoras Universidad cesar vallejo.pdf
GRUPO 3 ACTIVIDADES Integradoras Universidad cesar vallejo.pdf
 
Diapositivas de recolección de datos tema en especifico
Diapositivas de recolección de datos tema en especificoDiapositivas de recolección de datos tema en especifico
Diapositivas de recolección de datos tema en especifico
 
Los países de AL con mayor población blanca europea (2024).pdf
Los países de AL con mayor población blanca europea (2024).pdfLos países de AL con mayor población blanca europea (2024).pdf
Los países de AL con mayor población blanca europea (2024).pdf
 
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
 
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
 
Estudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de IpsosEstudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de Ipsos
 
EJERCICIOS PARA MODELAR BASES DE DATOS.docx.docx
EJERCICIOS PARA MODELAR BASES DE DATOS.docx.docxEJERCICIOS PARA MODELAR BASES DE DATOS.docx.docx
EJERCICIOS PARA MODELAR BASES DE DATOS.docx.docx
 
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdkXNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
 
Formas Farmacéuticas segun la FEUM..........
Formas Farmacéuticas segun la FEUM..........Formas Farmacéuticas segun la FEUM..........
Formas Farmacéuticas segun la FEUM..........
 
CUENCA MADRE DE DIOS-BOLIVIA INFORMACIÓN GENERAL
CUENCA MADRE DE DIOS-BOLIVIA INFORMACIÓN GENERALCUENCA MADRE DE DIOS-BOLIVIA INFORMACIÓN GENERAL
CUENCA MADRE DE DIOS-BOLIVIA INFORMACIÓN GENERAL
 
01 SIMULACRO 2024.pdf unijjajajajjaaaajj
01 SIMULACRO 2024.pdf unijjajajajjaaaajj01 SIMULACRO 2024.pdf unijjajajajjaaaajj
01 SIMULACRO 2024.pdf unijjajajajjaaaajj
 
Seguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoahSeguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoah
 
Guía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico JamoviGuía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico Jamovi
 

Herramientas y recursos tecnológicos para el Data Science

  • 1. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
  • 2. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 • Introducción – ¿qué es la ciencia de datos? • Perfiles de un científico de datos – roles, skills-set • El proceso del Data Science • La importancia de la calidad de los datos • Herramientas para adquisición, procesamiento y visualización de datos • Herramientas para web scraping, dataviz e integración • El contexto actual de la Ciencia de Datos • ¿Cómo prepararnos en Ciencia de Datos? Agenda
  • 3. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Introducción GoogleTrends (2021). https://trends.google.co.in/trends/explore?date=all&q=Data%20Science,Machine%20Learning,Data%20Visualization,Artificial%20Intelligence,Deep%20Learning ¿Qué es la Ciencia de Datos? De forma reciente el término de ciencia de datos se ha vuelto muy trendy y despierta el interés por conocer de estos temas.
  • 4. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Introducción . ¿Qué es la Ciencia de Datos? La ciencia de datos se trata de procesar datos! Data science is about data! La ciencia de datos es un campo multidisciplinario enfocado en extraer información para ayudar a una organización a tomar mejores decisiones.
  • 5. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Introducción La ciencia de datos (data-science), el aprendizaje artificial o inteligente (ML - machine learning) y la minería de datos (data mining) son términos que comúnmente se utilizan de forma indistinta (Kelleher y Tierney, 2018), Se puede simplificar la definición de estos conceptos (Robinson, 2018): • la ciencia de datos nos brinda el entendimiento (insights), • el aprendizaje automático produce predicciones y • la inteligencia artificial produce acciones La ciencia de datos se distingue porque su objetivo es especialmente humano (obtener información y comprensión de lo que significa) y puede darse de forma descriptiva, exploratoria o a nivel de causalidad. Entra en escena un profesional, el científico de datos (data scientist), quien hará la interpretación de los hallazgos para obtener las conclusiones. ¿Qué es la Ciencia de Datos?
  • 6. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Introducción Con la analogía de los LEGOs se puede interpretar muy bien las tareas que se realizan en la Ciencia de Datos. https://web.stanford.edu/group/sdgc/cgi-bin/ycisl/?p=4927
  • 7. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Perfil de un científico de datos Entonces un profesional del área debe tener una cierta preparación para llevar a cabo las actividades propias del proceso del data science La ciencia de datos se trata de procesar datos! Data science is about data!
  • 8. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Los conocimientos y habilidades de un científico de datos (skills) comprenden diversas áreas Perfil de un científico de datos
  • 9. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Se puede conformar un equipo de trabajo con la integración de varios profesionales del Data Science con diferentes niveles de especialización • Data Business Person • Data Creative • Data Developer • Data Researcher • Data Enginner Perfil de un científico de datos
  • 10. El proceso del Data Science
  • 11. El proceso del Data Science
  • 12. El proceso del Data Science
  • 13. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Data Wrangling. https://es.slideshare.net/gramener/data-wrangling-67544392 Proceso del DS: diversidad de tipos y fuentes de datos
  • 14. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 • incompletos: carecen de valores de atributos, carecen de ciertos atributos de interés o solo contienen datos agregados Ejem: ocupación=“” • ruidosos (noisy): contienen valores atípicos (outliers), fuera de rango ó con errores (errores ortográficos, fonéticos y tipográficos, transposiciones de palabras, varios valores en un solo campo concatenados de forma libre), etc Ejem., salario = “-10.00” • inconsistentes: contienen discrepancias en códigos o nombres (sinónimos y apodos, variaciones de prefijo y sufijo, tienen abreviaturas, truncamiento e iniciales) Ejemplos: Edad=“42” FechaNacimiento=“03/07/1997” rating “1,2,3”, rating “A, B, C” Los Datos en el mundo real están sucios (dirty-data)* * Helena Galhardas. DEI IST. (based on the slides: “A Survey of Data Quality Issues in Cooperative Information Systems”, Carlo Batini, Tiziana Catarci, Monica Scannapieco, 23rd International Conference on Conceptual Modelling (ER 2004)) Proceso del DS: importancia de la calidad de los datos
  • 15. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Rachael Tatman (2017) 5-Day Data Challenge in Kaggle! https://www.kaggle.com/rtatman/data-cleaning-challenge-handling-missing-values Proceso del DS: Tareas de limpieza de datos
  • 16. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Proceso de DS: Adquisisición e integración de datos https://datafloq.com/read/what-is-etl/6948 ETL - ELT: Procesos de adquisición, transformación y carga de datos Con el Big Data ha cambiado significativamente el orden de los procesos. Ahora se transforman "sobre la marcha" cuando lo necesitan los científicos de datos. Incluso se pueden combinar para sacar las ventajas de ambos métodos. ELT para ingestas rápidas de datos no estructurados y ETL para flexibilidad y seguridad. A este enfoque se le conoce como: ETLT (Extract, Transform, Load, Transform). https://www.astera.com/es/type/blog/etl-vs-elt-whats-the-difference/
  • 17. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Proceso del DS : La fase de adquisición de datos Los datos pueden venir de diferentes fuentes (internas, externas ) Y puede ser que seamos los propietarios o que tengamos que “adquirirlos” de alguna manera, mediante acceso vía: • Bases de datos estructuradas • Web scraping • APIs (Interfaces definidas para intercambio estructurado de datos) Énfasis en la etapa de recuperación / adquisición / recolección de Datos
  • 18. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Proceso del DS: Adquisición de datos con Web scraping https://www.edureka.co/blog/web-scraping-with-python/ Para extraer datos usando web scraping solo necesitamos seguir los siguientes pasos: 1. Localizar la URL que queremos escrapear 2. Analizar el código de la página 3. Identificar los datos de interés dentro del código de la página 4. Escribir un programa que separe los datos del código de la página 5. Ejecutar el código y extraer los datos 6. Almacenar los datos en el formato apropiado 7. Repetir el proceso por cada URL o fuente de datos
  • 19. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Ejemplo de scraping de los libros Best-Sellers en Amazon -- extracción de dataset de libros más vendidos Proceso del DS: Adquisición de datos con Web scraping
  • 20. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Proceso del DS: Librerías para hacer Web scraping https://pythonbasics.org/pandas-web-scraping https://doc.scrapy.org/en/latest/intro/tutorial.html https://oak-tree.tech/blog/python-web-scraping-selenium Con Python se tienen varias posibilidades para levar a cabo proyectos de Web scraping • Request • BeautifulSoup • Selenium (RPA*) • Pandas • Scrapy *RPA – Robotic Process Automation
  • 21. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Herramientas para hacer Web scraping También existen una gran variedad de Plataformas y Herramientas comerciales para realizar tareas de scraping • ScrapeHero.com • Simplescraper.io • parsehub.com • webscraper.io • webhose.io • scraperAPI.com • APIfy.com
  • 22. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Herramientas para hacer DataViz El DataViz El principal objetivo de la visualización de datos es facilitar el acceso a grandes para analizar y comprender grandes volúmenes de datos. Gracias a la información recopilada, analizada y visualizada, es posible identificar tendencias, comparaciones y recomendaciones. Tableau es una plataforma de análisis visual que transforma la forma en que usamos los datos para resolver problemas, lo que permite que las personas y las organizaciones aprovechen al máximo sus datos para la toma de decisiones. • tableau.com
  • 23. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Herramientas para hacer DataViz PowerBI es la plataforma de Microsoft líder en el segmento de plataformas de análisis y business intelligence. Permite encontrar rápidamente valiosa información con una alta integración de la tecnología Microsoft en sus datos para ayudar a tomar mejores decisiones empresariales. • PowerBI.com
  • 24. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Herramientas para Ciencia de Datos – End to End KNIME Plataforma integradora, especializada para crear y producir ciencia de datos utilizando un entorno fácil e intuitivo, permitiendo que todas las partes interesadas en el proceso de ciencia de datos se concentren en lo que mejor hacen… • Knime.com
  • 25. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Contexto actual de la Ciencia de Datos ¿Quiénes están aplicando el DS en el mundo? en México? ¿cómo es el mercado laboral? existe demanda por profesionales de estas áreas? La cultura del Data Driven – Empresas Data Driven ¿Dónde buscar información? • StackOverflow 2021 Developer Survey • Robert Half - Technology Salary Guide • empleosti.com.mx • Indeed.com • Linked-In Empleos y demanda de empleos para DS
  • 26. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Para conocer más sobre Ciencia de Datos También, una gran opción para aprender y mantenerse al tanto de los nuevos avances en estas áreas son los foros de discusión, blogs y portales especializados. A continuación, una breve lista de sitios recomendados: • Towards Data Science https://towardsdatascience.com/ • Kaggle https://www.kaggle.com/ • Hackernoon.com https://hackernoon.com/ • Medium https://medium.com/ • Open Data Science https://odsc.com/ • Data Science Central https://www.datasciencecentral.com/ • Harvard Data Science Review https://hdsr.mitpress.mit.edu/ Finalmente, algunos perfiles interesantes para seguir también en twitter son: • @IDC - IDC.com • @kaggle - Kaggle.com • @kdnuggets - KDNuggets • @DataScienceCtrl - DataScience Central • @TDataScience - Towards Data Science
  • 27. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Donde aprender y especialirme en Ciencia de Datos ¿Qué ofertas hay disponibles para aprender DS? • Gran oferta de especialidades, cursos, diplomados, bootcamps en DS • ¿Quiénes ofertan?: universidades, institutos, empresas tecnológicas, alianzas. • Costos, modalidad, duración • ¿Qué perfil tendrá el egresado? • Data Businessperson • Data Creative • Data Developer • Data Researcher
  • 28. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Donde aprender y especialirme en Ciencia de Datos ¿Qué ofertas hay disponibles para aprender DS? Facultad de Telemática • Maestría en Tecnologías de Internet área de cómputo cognitivo
  • 29. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Preguntas - comentarios Muchas gracias! J. Román Herrera Morales Email: rherrera@ucol.mx