10 episódios

[Deprecated] Quail data Sergio Sánchez

- Educação

Un podcast efímero de notícias y recursos para aprender del análisis y la visualización de datos.
Presentado por @tacosdedatos y @FerroRodolfo Support this podcast: https://podcasters.spotify.com/pod/show/quaildata/support

- 21 DE FEV. DE 2020
Quail data 0009 - What TF (tensorflow)

Quail data 0009 - What TF (tensorflow)

Sergio #1: Reto para predecir el clima de Pangeo

Repo con datos e instrucciones
Hilo en tuiter https://twitter.com/raspstephan/status/1229272564729614336?s=21

Rodo #2: HiPlot - Descubre relaciones en datos de altas dimensiones

HiPlot es una herramienta de visualización interactiva liviana para ayudar a descubrir correlaciones y patrones en datos de alta dimensión utilizando gráficos paralelos y otras formas gráficas para representar la información.
HiPlot se puede utilizar con IPython notebooks y a través de un webserver.

Sergio #3: Aprendizaje No Supervisado Desmitificado

Una traducción por Carlos Secada del original en inglés por Cassie Kozyrkov

Rodo #4: Me ama, no me ama: Clasifica textos con TensorFlow y Twilio

El post provee un tutorial que paso a paso te ayuda a entrenar un modelo de ML y a servirlo a través de una aplicación con Flask.
Si eres un R user, este tutorial no debería ser tan difícil de extender utilizando el NLTK4R y TensorFlow para R.

Sergio #5: Todas las charlas de rstudio::conf 2020

Periodismo con Rstudio, R y el tidyverse
Charlas sobre Rmarkdown (de Yihui Xie creador de Blogdown y Bookdown) y "Rmarkdown Driven Development"
"Datos" el paquete de R4DS en espanol

Rodo #6: ¡Comienzan a subir las charlas del PyCon Colombia 2020!

Comenzando con el keynote de Andrew Godwin, creador de Django Channels y Django Core Developer, el equipo de PyCon Colombia ha comenzado a subir los videos del evento, ¡así que no puedes perderte todo el increíble contenido que nos estarán compartiendo!

Extras:

Sergio:

Becas Santander para el MIT https://www.becas-santander.com/es/program/becas-santander-for-mit-leading-digital-transformation
Grupo de usuários de TensorFlow en Sucre, Bolivia (saludos a Lesly Zerna, atte. Rodo) https://www.meetup.com/TensorFlow-User-Group-Bolivia/
!El horario de la PyCon US ya esta! https://us.pycon.org/2020/schedule/talks/ y la charla de Denny Perez https://us.pycon.org/2020/schedule/presentation/84/ - elDevShow https://anchor.fm/eldevshow/episodes/Cmo-ser-pap-luchn-y-mudarte-a-Canad-como-desarrollador-mvil-con-el-Pinedax-e9angg

Rodo:

Meme de la semana: https://www.reddit.com/r/mathmemes/comments/f6e5vb/the_battle_of_titans/
Segundo meme de la semana: https://www.reddit.com/r/mathmemes/comments/f6g43c/society/
Open Data Day en CDMX, Morelia (Michoacán) y León (Guanajuato).
Nuevamente un saludo para Lesly, ¡que nos ayude a crear un grupo de TF en MX!

---

Send in a voice message: https://podcasters.spotify.com/pod/show/quaildata/message
Support this podcast: https://podcasters.spotify.com/pod/show/quaildata/support
- 36 min
- 14 DE FEV. DE 2020
Quail data 0008 - PyCon Co

Quail data 0008 - PyCon Co

Sergio #1: Geocomputación con R

Otro ejemplo de Bookdown para crear libros técnicos con R

Rodo #2: D-Tale - Un cliente de Flask/React para visualizar estructuras de datos de Pandas.

D-Tale combina Flask en back-end y React en front-end para brindarnos una manera fácil de ver y analizar las estructuras de datos de Pandas.
Se integra a la perfección con las Jupyter Notebooks y las terminales Python/ IPython.
Admite objetos Pandas como DataFrame, Series, MultiIndex, DatetimeIndex y RangeIndex.

Sergio #3: El que trajo la app que te hace un mapa con todas las calles de una ciudad tiene otra app que hace Ridgeline plots de mapas

Este parece ser un tema común aquí en QUAIL data jaja

Sergio #4: ¿Qué es el tidyverse? por Rafa Gouveia - https://www.youtube.com/watch?v=uGg13_qOwhQ&list=PLbDLkhJ5sFvCWFbP4tAFALHkNWNFo_FiL

8 Herramientas

Rodo #5: El breve resumen de la PyCon Colombia 2020

Increíbles keynote speakers como Andrew Godwin, Wes McKinney, Sarah Guido y Fernando Pérez, entre otros.
Increíbles talleres con un track completo sobre Data Science, Web Development, IoT y otros.
Repo de mi taller: https://github.com/RodolfoFerro/PyConCo20

Rodo #6: Thinc.ai - Una refrescante versión funcional del aprendizaje profundo, compatible con TUS bibliotecas FAVORITAS.

Puedes cambiar entre frameworks.
Realiza chequeo de tipos.
Thinc nos permite describir árboles de objetos, con referencias nuestras propias funciones a través de archivos .cfg.
Es súper ligero.
Por los creadores de SpaCy y FastAPI...

Extras:
Sergio:

Periodismo computacional - una clase de la universidad de Columbia - Un repositorio con los notebooks que estan usando en la clase este 2020
Ines montani repositorio base para crear cursos de python https://github.com/ines/course-starter-python y de R https://github.com/ines/course-starter-r

Rodo:

¡Meetup de R para Data Science y Reinforcement Learning en Monterrey el próximo 18 de febrero!
XII Congreso Mexicano de Inteligencia Artificial del 20 al 22 de mayo del 2020 en Ciudad Juárez, Chihuahua, México: http://smia.mx/comia/2020/
Gente bonita de Mérida y alrededores, asistan al Datostada: https://datostada.mx
Meme de la semana: https://www.reddit.com/r/mathmemes/comments/f3eq3o/absolutely/

---

Send in a voice message: https://podcasters.spotify.com/pod/show/quaildata/message
Support this podcast: https://podcasters.spotify.com/pod/show/quaildata/support
- 33 min
- 31 DE JAN. DE 2020
Quail data 0007 - Stats Wars

Quail data 0007 - Stats Wars

Quail Data #0007 - Stats Wars
Rodolfo #1: MOSP

MONARC Objects Sharing Platform (MOSP) es una plataforma para crear, editar y compartir objetos JSON validados de cualquier tipo. MONARC - Method for an Optimised aNAlysis of Risks by CASES (Método para un análisis optimizado de riesgos por CASOS.)
Puede usar cualquier esquema JSON disponible para crear nuevos objetos JSON a través de un formulario web generado dinámicamente y basado en el esquema seleccionado.

Sergio #2: Scikit Geometry

"scikit-geometry también viene con funciones para calcular el diagrama de Voronoi, el casco convexo, cuadros delimitadores, la suma minkowski de dos polígonos, un árbol AABB para consultas vecinas más cercanas y muchas otras utilidades útiles para cálculos geométricos, con planes para agregar muchos más!"

Rodolfo #3: pandapy

Demos un momento para tomar en cuenta el siguiente meme: https://www.reddit.com/r/mathmemes/comments/ewct2v/euler_moment/
Ahora, ¿recuerdan, por una parte a Pandas? Y por otra parte, ¿a NumPy? Pues bueno, pueden pensar en este paquete como un hijo de ambos.
PandaPy tiene la velocidad de NumPy y la usabilidad de Pandas (10x a 50x más rápido).
Así como importas pandas como pd y numpy como np, el común es importar a pandapy como pp (ya sabes → pd & np = pp).

Sergio #4: Como hacer tu propio blog sin ser un experto en computadoras con fast.ai y fast_template

Una guía muy fácil de seguir para crear tu propio blog hosteado en GitHub pages sin tener que usar la linea de comando.
Es muy practico y facil de seguir y ahora utiliza GitHub Actions para transformar tus notebooks de jupyter a blog posts

Rodolfo #5: Construyendo un Python Data Science Container usando Docker

Es un blog post que ilustra cómo crear un contenedor de Docker que incluya paquetería como NumPy, SciPy, Pandas, SciKit-Learn, Matplotlib y NLTK.
Todo se realiza a través de la construcción de un Dockerfile basado en Alpine, una versión muuuy ligera de Linux. El post te da todos los comandos para levantar el contenedor.

Sergio #6: Blog de Juvenal Campos - Como Visualizar Pirámides de Población en R

Un paso a paso de como construir una piramide de poblacion con ggplot2
Juvenal usa blogdown de R para este blog - todxs deberiamos bloguear mas!

Extras:
Sergio:

Lorem Ipsum pero mexicano ? jajaja https://ignaciochavez.com/projects/lorempaisum/
RStudioConf está aquí en San Francisco esta semana y tienen los materiales de sus talleres en GitHub pa quién no pudo asistir: https://github.com/rstudio-conf-2020

Rodo:

Para la gente Pythonista que nos escucha, ¡ya hay fecha para el PyCon Latam 2020!\
27-29 de agosto, Pto. Vallarta, Jalisco. ¡No se lo pueden perder! (https://twitter.com/PyLatam/status/1221886633210982402)
Meme de la semana

---

Send in a voice message: https://podcasters.spotify.com/pod/show/quaildata/message
Support this podcast: https://podcasters.spotify.com/pod/show/quaildata/support
- 28 min
- 24 DE JAN. DE 2020
Quail data 0006 - 100010001

Quail data 0006 - 100010001

Sergio #1: City Roads

Un sitio web para renderizar todas las calles de una ciudad a la vez
Es una app de javascript usa Vue y TurboPass la API de OpenStreetMap

Rodo #2: Facebook Prophet

Prophet es una herramienta de pronósticos para series de tiempo. Se basa en un modelo aditivo donde las tendencias no lineales se ajustan estacionalidades.
Prophet es robusto ante los datos faltantes y los cambios en la tendencia, y generalmente maneja bien los valores atípicos.
Prophet es robusto para los valores atípicos, los datos faltantes y los cambios dramáticos en su serie temporal.

Sergio #3: ggstatsplot

Un paquete de R para agregar estadísticas a tus gráficos de ggplot2

Rodo #4: Mathe Carlo - Una exploración y explicación del método de Monte Carlo.

Este es un ensayo computacional sobre el método de Monte Carlo.
En ObservableHQ incluye un método de aproximación de pi, así como un método para aproximar el valor a la integral de la ecuación y=x^2, y finalmente, concluye con una explicación de por qué se llaman métodos Monte Carlo.

Sergio #5: Google Dataset search https://blog.google/products/search/discovering-millions-datasets-web/

ha indexado casi 25 millones de estos conjuntos de datos, lo que le brinda un solo lugar para buscar conjuntos de datos y encontrar enlaces a dónde están los datos.
https://datasetsearch.research.google.com/

Rodo #6: Textblob y SDAL - Lo prometido es deuda... ¿NLP en español? El "Spanish Dictionary of Affect in Language"

hoy les compartimos el paquete Textblob escrito para Python, que ofrece funcionalidades de NLP para texto. Lo interesante es que resulta ser muy sencillo de utilizar y puede ser utilizado para distintos idiomas, entre ellos, español.
SDAL (Spanish Dictionary of Affect in Language), que incluye un listado de palabras en español con un score asociado sobre que tan positivo/negativo, etc. es cada palabra. (Saludos a Beto Barradas.)

Extras:
Sergio:

Trabajo en Córdoba Argentina - BI developer II https://app.cotopaxi.io/idearhumano/position/16
Trabajo en Unicef para Cienitificx de Datos para Big Data para el desarrollo y la Accion Humanitaria http://jobs.unicef.org/cw/en-us/job/529167/consultor%C3%ADa-monitoreo-y-evaluaci%C3%B3n-cient%C3%ADfico-de-datos-para-big-data-para-el-desarrollo-y-la-acci%C3%B3n-humanitaria
Rodo:
Tuit de la semana: https://twitter.com/daniel_isita/status/1218001440863592450. Con algo de procesamiento se podría generar una imagen similar con el paquete que les hemos compartido en el episodio pasado, speck.
Meme de la semana: https://www.reddit.com/r/mathmemes/comments/ergxem/what_a_dirty_matrixster/
¡Saludos a Manuel Toral @jmtoralc!

---

Send in a voice message: https://podcasters.spotify.com/pod/show/quaildata/message
Support this podcast: https://podcasters.spotify.com/pod/show/quaildata/support
- 29 min
- 17 DE JAN. DE 2020
Quail data 0005 - ¡Vector!

Quail data 0005 - ¡Vector!

Sergio #1: Pandas 1.0.0

pd.NA - valores nulos nativos
StringDtype - antes eran object y podías mezclar valores accidentalmente, ahora es solo strings (experimental)
booleanos con Missing Values

Rodo #2: CleverCSV - CleverCSV proporciona un reemplazo directo para el paquete csv de Python con detección de dialecto mejorada para archivos CSV desordenados.

Proporciona una práctica herramienta de línea de comandos que puede estandarizar un archivo desordenado o generar código Python para importarlo.

Sergio #3: tidytext

libro - https://www.tidytextmining.com/
Tiene funciones para el análisis de sentimientos y funciones para preparar tus datos para modelos de ML

Rodo #4: Interfaz en R para TensorFlow

Este paquete es un wrapper TensorFlow para Python, pero viene en su versión más reciente y con todo el poder y funcionalidad como TF para Python.
De las cosas interesantes además de lo ya mencionado, es que comparten detalles sobre cómo puedes desplegar aplicaciones que integren algún modelo de inteligencia artificial utilizando TensorFlow, ya sea Plumber API, Shiny o TF Serving.
Finalmente, de lo más cool: su blog, pues tiene contenido exclusivo sobre el uso y aplicación de TensorFlow totalmente con R.

Sergio #5: Bayes Test R https://github.com/easystats/bayestestR - un paquete de utilidades para analizar modelos Bayes y distribuciones posteriores

Muchas funcionalidades y visualizaciones integradas
Para lxs nerds bayesianos

Rodo #6: ipyleaflet - ¡Habemus release de ipyleaflet 0.12.0!

Un puente Jupyter / Leaflet que permite mapas interactivos en el cuaderno Jupyter.
Te permite tener y hacer uso de las primitivas que tiene Leaflet como Markers, etc.
¡Tiene widgets interactivos para utilizar en Jupyter, como sliders!
Si tienes oportunidad, echa un vistazo al repo, los gifs que ilustran su funcionamiento te van a cautivar. 😍

Extras:

Sergio:

https://latinr.github.io/ - Conferencia Latinoamericana sobre Uso de R en Investigación + Desarrollo 7 al 9 de octubre 2020 - Montevideo
Python Nicaragua primer Meetup del año - https://www.meetup.com/es-ES/Python-Nicaragua/events/267846155/
R-Ladies Xalapa re-comienzan en Febrero https://twitter.com/rladiesxalapa/status/1216528313465876481?s=21
Pagina, sitio web, servidor, motor de busqueda (blog) ¡en español! https://link.medium.com/79BK6gkDc3 de Natalia Hashimoto @NahRivera7

Rodo:

Convocatoria a formar parte del Consorcio en Ciencia de Datos de la Ibero: https://twitter.com/jorgerure/status/1218001209774096384
https://github.com/lucashadfield/speck
Meme de la semana: https://www.reddit.com/r/mathmemes/comments/ele12o/show_me_da_way/

---

Send in a voice message: https://podcasters.spotify.com/pod/show/quaildata/message
Support this podcast: https://podcasters.spotify.com/pod/show/quaildata/support
- 35 min
- 10 DE JAN. DE 2020
Quail data 0004 - ¿data o data?

Quail data 0004 - ¿data o data?

Sergio #1: Faker - Un paquete de Python para crear datos falsos.

"Faker es un paquete de Python que genera datos falsos para usted. Ya sea que necesite arrancar su base de datos, crear documentos XML atractivos, completar su persistencia para hacer una prueba de esfuerzo o anonimizar los datos tomados de un servicio de producción, Faker es para usted."
Nombres, códigos de barras, puntos geográficos (lat/long), tarjetas de crédito, nombres de puestos de trabajo, curps, hasta CSVs

Rodo #2: mPyPl - Biblioteca de tuberías monádicas para Python

mPyPl es una biblioteca que simplifica todas las tareas de procesamiento de datos en Python, al introducir un concepto de canalización funcional. Utiliza la sintaxis de tubería proporcionada por el paquete Pipe.
Se basa en tres ideas principales:
Usa técnicas de programación funcional y tuberías "flojas" basadas en el paquete Pipe
Utiliza generadores que producen flujos de diccionarios mdict, que "fluyen" a través de la tubería
Utiliza una pequeña cantidad de operaciones básicas que operan en esos campos, ocultando la complejidad de la implementación interna

Sergio #3: Bulwark - Un paquete para hacer tests basados en propiedades para dataframes de pandas

Ejemplo

import bulwark.decorators as dc
@dc.IsShape((-1, 10))
@dc.IsMonotonic(strict=True)
@dc.HasNoNans()
def compute(df):
# complex operations to determine result
...
return result_df

Rodo #4: Una guía práctica para la ingeniería de características en Python

Una guía práctica que te dice:
¿Qué es la ingeniería de características?
Cómo manejar los valores perdidos.
Cómo manejar características categóricas.
y mucho mas

Sergio #5: DeOldify para colorizar fotos en blanco y negro

Usa GANs y NoGANs para colorizar fotos en blanco y negro Y VIDEO TAMBIEN

Rodo #6: py-roughviz - La implementación en Python de la biblioteca de JavaScript RoughViz para crear gráficos interactivos.

Es un wrapper en Python de la biblioteca de JavaScript RoughViz que se puede usar para visualizar gráficos estilo de dibujo a mano.
Los gráficos soportados
Barras, pastel, línea, dispersión, dona, barras apiladas.
Entre lo más cool: ¡Acepta DataFrames de Pandas como input!

Extras: Rodo:

JobFunnel - Herramienta automatizada para "escrapear" publicaciones de trabajo en un archivo .csv.
Pregunta de la semana: data o data?

Sergio:

tacosdedatos, el boletín está disponible en substack ya - tacosdedatos.substack.com
PyCon Perú en PyCon.pe y PyCon Colombia en PyCon.co - ¡vayan!
MOOC de analisis de datos para periodistas de Alberto Cairo. https://journalismcourses.org/data-viz-course-material.html

---

Send in a voice message: https://podcasters.spotify.com/pod/show/quaildata/message
Support this podcast: https://podcasters.spotify.com/pod/show/quaildata/support
- 31 min