31 marzo 2021

Python for Oracle DBA: Guía de supervivencia Parte I

 

Abarcaremos las posibilidades de Python (En varias entregas) para nuestro mundo de administración de bases de datos y plantearemos otros campos interesantes donde centrar nuestro interés.
  • Bibliotecas y herramientas de ciencia de datos fundamentales
  • Preparación de datos / ETL
  • Visualización de datos
  • Aprendizaje automático
  • Computación escalable
  • Procesamiento de imágenes
  • Procesamiento del lenguaje natural (NLP)
  • Fronteras de la IA

Bibliotecas y herramientas de ciencia de datos fundamentales

Esta colección de herramientas Python de código abierto y bibliotecas consta de paquetes muy populares que son se utilizan con frecuencia juntos para hacer ciencia de datos. El las herramientas fundamentales no solo son esenciales y poderosas para los practicantes individuales, pero también son esenciales
para hacer ciencia de datos empresariales con Python. Muchos otras herramientas y bibliotecas en la ciencia de datos de Python y el ecosistema de Machine Learning dependen de estos paquetes fundamentales.

La biblioteca SciPy consiste en un conjunto específico de herramientas científicas y numéricas fundamentales para Python que los científicos de datos usan para construir sus propias herramientas y programas, que no deben confundirse con la comunidad SciPy y la conferencia SciPy, que incluye a cualquiera que trabaje en computación científica con Python. .

¿Para qué se utiliza?:
Rutinas para integración numérica, interpolación, álgebra lineal y estadística.

Interviene en:
SciPy es utilizado por Instacart, WalMart y Vital Labs, entre otros. Vital Labs usa SciPy para potenciar sus herramientas de análisis.

¿Dónde aprender más? https://www.scipy.org/about.html

Un paquete básico para la informática científica con Python. Numpy permite la formación de matrices y operaciones básicas con matrices.

¿Para qué se utiliza?
Numpy se usa para indexar y ordenar, pero también se puede usar para álgebra lineal y otras operaciones. SciPy tiene más funciones cuando
se trata de módulos de álgebra y algoritmos numéricos. Muchas otras bibliotecas de ciencia de datos para Python se basan en NumPy internamente, incluyendo Pandas y SciPy.

Interviene en:
Instacart, Walmart y Vital Labs utilizan Numpy para el análisis de datos. También se utiliza como base en la mayoría de los otros paquetes de ciencia de datos de Python.

¿Dónde aprender más? https://numpy.org/

Jupyter es un proyecto de código abierto creado para respaldar la ciencia de datos interactivos y la computación científica en todos los lenguajes de programación.
Jupyter ofrece un entorno basado en web para trabajar con cuadernos que contienen código, datos y texto. Los cuadernos de Jupyter son el espacio de trabajo estándar para la mayoría de los científicos de datos de Python.

¿Para qué se utiliza?
Los cuadernos de Jupyter se utilizan para crear y compartir código, ecuaciones, visualizaciones y texto en vivo. Se ha convertido en la herramienta preferida para presentar proyectos de ciencia de datos.

Interviene en:
Jupyter es utilizado por Google, Microsoft, IBM, Bloomberg, NASA y muchas otras empresas y universidades. Es seguro decir que si un la organización tiene científicos de datos que trabajan en Python, usan cuadernos de Jupyter.

¿Dónde aprender más? https://jupyter.org/
Una biblioteca para estructuras de datos tabulares, análisis de datos y herramientas de modelado de datos, incluido el trazado integrado con Matplotlib.

¿Para qué se utiliza?
Manipulación e indexación de datos, remodelación y rotación de conjuntos de datos, segmentación y alineación basados en etiquetas, fusión y unión de conjuntos de datos de alto rendimiento y análisis de datos de series de tiempo
Pandas incluye métodos eficientes para leer y escribir una amplia variedad de datos, incluidos archivos CSV, hojas de Excel y consultas SQL.

Interviene en:
Muchas empresas han descubierto que pandas es fácil de usar en todos los equipos y aumenta la productividad para el análisis de datos. Por ejemplo, Appnexus utiliza pandas en sus equipos de ingenieros, matemáticos y analistas. Datadog usa pandas para procesar datos de series de tiempo en sus servidores de producción. Es seguro decir que si una empresa está haciendo ciencia de datos, están usando Pandas.

¿Dónde aprender más? https://pandas.pydata.org/

Preparación de datos / ETL

La preparación de datos es un requisito previo para realizar análisis de datos, ciencia de datos y aprendizaje automático, y también puede ser la parte más rigurosa y que requiere más tiempo de todo el proceso. La mayoría de los flujos de trabajo de ciencia de datos utilizan inicialmente Pandas personalizados y otro código de manipulación de datos, pero estas herramientas de preparación de datos / ETL (extracción, transformación y carga) ayudan a automatizar el proceso para hacer que la preparación de datos sea más eficiente en la producción para empresas y grandes organizaciones.
Una herramienta de automatización de flujo de trabajo de código abierto de Apache para crear flujos de trabajo de datos, programar tareas y monitorear resultados. Se integra con múltiples proveedores de nube, incluidos AWS, Azure, Google y Oracle Cloud.
:
¿Para qué se utiliza?
Airflow se utiliza para administrar y automatizar las canalizaciones de datos para su uso en modelos de análisis de datos y aprendizaje automático.

Interviene en:
Airflow fue creado por desarrolladores de Airbnb para administrar las canalizaciones de big data de múltiples fuentes. Actualmente se utiliza para la gestión de la canalización de datos por Airbnb, Slack, Walmart, Lyft y Hello Fresh, entre otros.

¿Dónde aprender más? https://airflow.apache.org/

Una biblioteca de ingesta / carga de datos para una amplia variedad de formatos de archivo y servicios de datos, con catalogación jerárquica, búsqueda e interactividad con plataformas de almacenamiento remoto bajo una única interfaz.

¿Para qué se utiliza?
Intake permite a una organización catalogar datos de todo tipo, incluidas descripciones de modelos ajustados, imágenes y entradas de registro no estructuradas, por lo que los científicos de datos de Python pueden centrarse en sus análisis en lugar de en el código de E / S repetitivo. Los catálogos son archivos de texto que se pueden compartir fácilmente con otros y reutilizar entre proyectos.

Interviene en:
Actualmente, Zillow, NASA y USGS utilizan Intake para catalogar datos de muchos tipos para su uso en Python.

¿Dónde aprender más? https://intake.readthedocs.io


La siguiente entrega hablaremos de Visualización de datos y Aprendizaje automático


No hay comentarios:

Publicar un comentario

Por favor deja tu comentario, es valioso.