Mostrando entradas con la etiqueta Big Data. Mostrar todas las entradas
Mostrando entradas con la etiqueta Big Data. Mostrar todas las entradas

28 agosto 2017

Entender Oracle Data Guard

En este artículo, escribiré sobre la solución de recuperación de desastres de Oracle (recuperación de desastres). Voy a dar la terminología básica en una breve información sobre el Data Guard. Como gestores de datos, estamos obligados a tomar las medidas necesarias antes de que ocurran estos desastres. También hay que considerar tomar las acciones necesarias que son muy importantes. Estos son;
  • RPO (Recovery Point Objective) - ¿Cuántos datos puede permitirse perder?
  • RTO (Recovery Time Objective) - Sin acceso a los datos, ¿Cuanto tiempo puedes soportar?

De acuerdo con las respuestas de estas preguntas debemos establecer el sistema de copia de seguridad. No estamos satisfechos con la instalación de nuestro sistema, y ​​debemos monitorear nuestro sistema.

Ahora, veamos la solución que Oracle propone:  Oracle Data Guard.

Oracle Data Guard es la solución de recuperación de desastres. Protege nuestra base de datos de producción de los desastres, reduciendo la carga de trabajo sobre ella y su uso más efectivo. Technology, introducida por primera vez mediante el establecimiento de la base de datos de reserva manualmente con Oracle 7. Apareció como un Data Guard con Oracle 8i. 

Evolución histórica de Oracle Data Guard
Si examinamos las características de un Data Guard desde el pasado hasta el presente;
  • ORACLE 8i
    • Base de datos en espera de sólo lectura
    • Recuperación gestionada
    • Archivo de registro de rehacer archivos remotos
  • ORACLE 9i
    • Integración "Pérdida de datos cero"
    • Data Guard Broker y Data Guard Manager GUI
    • Operaciones de Switcover y Failover
    • Sincrónico automático
    • Base de datos de espera lógica
    • Protección máxima
  • ORACLE 10g
    • Aplicación en tiempo real
    • Soporte forzado para Oracle RAC
    • Failover de arranque rápido
    • Transferencia asíncrona de rehacer
    • Base de datos Flashback
  • ORACLE 11g
    • Base de datos de espera activa (Active Data Guard)
    • Instantánea de la instantánea
    • Soporte de plataforma heterogénea (Producción -Linux, Standby - Windows)
  • ORACLE 12C
    • Funciones comunes a Redo Apply y SQL Apply
    • Funciones especificas a Redo Apply
    • Funciones especificas a  SQL Apply




FLUJO DE DATOS: PHYSICAL STANDBY
Vamos a entender cómo los datos fluyen en la configuración de Oracle Data Guard mostrada arriba en ocho puntos:


  • En la base de datos principal, se inician las transacciones. Todos los bloqueos de caché del búfer (bloqueos exclusivos) que se requieren para la transacción se obtienen.
  • En la base de datos principal, los bloques de rehacer que describen los cambios (o los vectores de cambio) se generan y almacenan en el Área Global del Programa (PGA) de los procesos. Después de adquirir con éxito el bloqueo de rehacer asignación, el espacio se asigna en el búfer de registro de rehacer. El redo generado se copia de PGA de los procesos en el búfer de registro de rehacer.
  • En la base de datos primaria, el proceso de primer plano de oracle le indica a LGWR que limpie los búferes de registro de rehacer en el disco. Recuerde que los bloques de base de datos de la base de datos aún no se han actualizado con los cambios DML. El LGWR descarga los buffers de redo al ORL y reconoce la finalización de la sesión. En este punto, la transacción es persistente en el disco. No se ha cometido hasta el momento.



En algún momento futuro, los buffers de base de datos que fueron cambiados previamente serán escritos en disco por el proceso de escritura de base de datos (DBWR) en el momento del punto de control. Este punto no está marcado en el diagrama anterior.
Tenga en cuenta que antes de que el proceso DBWR haya descargado los búferes de la base de datos a los discos, el proceso LGWR debe haber escrito ya los búferes de rehacer en el disco. Esta secuencia explícita es reforzada por el protocolo de registro anticipado.
También el proceso ARCH en la base de datos primaria archiva los ORL en archivos de registro de archivos. Este punto tampoco está marcado en el diagrama anterior.

  • En la base de datos primaria, el proceso LNS lee el redo recientemente descargado del búfer de registro de redo y envía los datos de rehacer a la base de datos en espera utilizando el destino de transporte redo (LOG_ARCHIVE_DEST_n) que definimos durante la creación de la base de datos en espera. Estamos utilizando el método de transporte ASYNC, por lo que el LGWR no espera ningún reconocimiento de la LNS para esta operación de envío de red. No se comunica con el LNS excepto para iniciarlo en la etapa de inicio de la base de datos y después de un fallo de una conexión en espera.
  • En la base de datos de espera, el RFS lee el flujo de rehacer desde el socket de red en los búferes de red y, a continuación, escribe este flujo de rehacer a la SRL.
  • En la base de datos de espera, el proceso ARCH archiva las SRL en archivos de registro de archivo cuando se produce un cambio de registro en la base de datos primaria. El archivo de registro de archivo generado se registra con el archivo de control de espera.
  • En la base de datos de espera, el proceso de recuperación real comienza en este paso. El proceso de recuperación administrado (MRP) leerá de forma asincrónica el rehacer de los SRL o de los registros de rehacer archivados (cuando la recuperación se reduce o no se aplica en tiempo real). Los bloques que requieren redo apply se analizan y se colocan en segmentos de mapa en memoria apropiados.
  • En la base de datos en espera, el proceso MRP envía rehacer a los esclavos de recuperación utilizando el marco de comunicación entre procesos de consulta en paralelo (PQ). Medios paralelos

Recuperación (PMR) hace que los bloques de datos requeridos sean leídos en la caché del búfer, y posteriormente redo se aplicará a estos búferes del búfer del búfer.


PROCESOS RELACIONADOS CON BASE DE DATOS EN ESPERA FÍSICA

En la base de datos primaria:
  • LGWR: El proceso de escritura de registros vacía los buffers de registro de los archivos SGA a Online Redo Log.
  • LNS: El servicio de red de LogWriter (LNS) lee el redo que es descargado de los almacenadores intermediarios del redo por el LGWR y envía el redo sobre red a la base de datos espera. El propósito principal del proceso LNS es liberar el proceso LGWR de realizar el rol redo transport. 
  • ARCH: El archivador procesa los archivos de ORL para archivar los archivos de registro. Pueden existir hasta 30 procesos ARCH, y estos procesos ARCH también se utilizan para satisfacer solicitudes de resolución de huecos. Tenga en cuenta que un proceso ARCH tiene un papel especial en que está dedicado al archivo de registro de redo local solo y nunca se comunica con una base de datos en espera.

En la base de datos de reserva:
  • RFS: El objetivo principal del proceso de servidor de archivos remotos es realizar una red de recepción de redo transmitida desde el sitio principal y, a continuación, escribe el búfer de red (rehacer datos) a los archivos de redo registro (SRL) en espera.
  • ARCH: Los procesos de archivo en el sitio en espera realizan las mismas funciones realizadas en el sitio principal, excepto que en el sitio en espera, un proceso ARCH genera archivos de registro archivados de las SRL.
  • MRP: el proceso de recuperación administrado coordina la administración de recuperación de medios. Recuerde que un modo de espera físico está en modo de recuperación perpetua.
Básicamente, podemos categorizar la base de datos de espera física en tres componentes principales:

Data Guard Redo Servicios de Transporte
Para transferir el redo generado por la base de datos primaria a la base de datos en espera.

Data Guard Aplicar Servicios
Para recibir y aplicar el redo enviado por Redo Transport Services a la base de datos en espera.

Data Guard servicios de gestión de roles
Para ayudar en los cambios de rol de la base de datos en los escenarios de conmutación y conmutación por error- Este servicio funciona en segundo plano y se ocupa de los escenarios de conmutación / conmutación por error

27 agosto 2017

Nueva versión de Oracle GoldenGate para Big Data 12.3.1.1



En este artículo vamos a ver, Lo que todo el mundo debe saber sobre Oracle GoldenGate Big Data 12.3.1.1 

Las principales características de esta versión incluyen las siguientes novedades
  • Como nuevos objetivos de Oracle GoldenGate 12c se encuentran los siguientes sistemas:
    • Amazon Kinesis
    • API de Integración Kafka o Kafka Connect Confluent.
    • Elasticsearch
  • El Motor de Oracle GoldenGate Core 12.3: soporta los formatos de base de datos Oracle Database 12.2 y más recientes
  • Nuevas Certificaciones:
    • Apache Hadoop 2.8,
    • CDH 5.10, 5.11,
    • Hive 2.x,
    • Kafka 0.10, 0.11,
    • Cassandra 3.11
    • ...
  • Mapeo de plantillas: define plantillas para resolver dinámicamente el nombre de secuencia y la clave de partición en tiempo de ejecución
  • Rendimiento: Rendimiento mejorado hasta el 20% en comparación con la versión anterior.



Oracle GoldenGate ofrece una arquitectura modular diseñada para un rendimiento extremo, tolerancia a fallos y flexibilidad. Oracle GoldenGate para Big Data se basa en la misma arquitectura para permitir soluciones extensibles para los grandes entornos de datos de los clientes.
Oracle GoldenGate captura datos de sistemas fuente heterogéneos incluyendo sistemas de mensajería basados en Java, de forma no invasiva y con gastos indirectos insignificantes. Almacena transacciones de base de datos en archivos planos y lo bombea al marco del Adaptador Java.

Oracle GoldenGate para Big Data incluye controladores para diferentes grandes tecnologías de datos, como HDFS, Hive, HBase, Flume, Kafka, NoSQL, JDBC, etc. También incluye tecnología de formateo conectable que puede usarse para transformar datos en formatos estándar como XML , JSON, Avro, Texto delimitado. Está construido utilizando la arquitectura Java extensible, que le permite entregar fácilmente a otros grandes sistemas de datos y soportar casos de uso específicos para satisfacer sus demandas empresariales.

Con la plataforma de streaming en tiempo real de Oracle GoldenGate, puede capturar desde el sistema de origen una vez y entregar todo o una parte de los datos modificados a múltiples destinos sobre cloud, híbridos e incluso bases de datos, sistemas de mensajería y entornos de datos grandes.



En siguientes entradas de blog haremos un ejemlo de uso de GoldenGate con Big Data.

07 noviembre 2016

Puesto: DBA No SQL, eso, ... ¿existe?

Tengamos claro que soluciones del tipo NoSQL o Big Data están tomando el mundo por montera  y son cada vez más usados en entornos corporativos para mejorar el tiempo de puesta en producción y aumentar la agilidad de desarrollo. En resumen beneficios y eso nos importa a todos.

Con el advenimiento de novedades en el mundo de los sistemas de gestión de datos que se acumulan en principios distintos del álgebra relacional, una creciente duda ha crecido en torno a la necesidad y el papel del administrador de base de datos (nuestros “amados” DBAs) en este escenario. Incluso si la mayoría de estos nuevos sistemas son totalmente dependientes de los equipos de desarrollo y todos los esfuerzos de mantenimiento parecen redundantes (a partir de aquí el gerente de Dilbert, deja de leer, :) ). Una vez que se consideran todas las demandas de la puesta y mantenimiento en producción: 
  • La disponibilidad 24x7
  • La plena coherencia transaccional
  • La estrategia de recuperación fiable 

Queda claro que los DBA tienen que seguir siendo una parte vital de la cadena de responsabilidad de la empresa. Aun cuando la tecnología subyacente se aleja del sistema de gestión de base de datos relacional - ya sea  transaccional o de tipo datawarehouse

La siguiente tabla representa el paisaje actual del ecosistema de gestión de datos, con las convenciones de nombres que se utilizan.


RDBMS
NoSQL
Big Data
Ecosistema
Base de datos
Datastore
Dataset
Propietario
DBA
Desarrollador
Analista de datos
Propiedades
ACID
BASE
CAP
Clustering
Todo compartido
Nada compartido
Nada compartido
Madurez
mMás de 40 años
Más de 10 años
Más de 10 años
Cuota de mercado estimada
75%
20%
5%

Aunque los términos "NoSQL" y "Big Data" a menudo se utilizan indistintamente, la distinción es evidente, con respecto a sus áreas de uso, utilidad estrategia de negocio y la capacidad para gestionar tráfico concurrente. Dicho esto, NoSQL se ajusta más al espacio OLTP y Big Data es más de un tipo de datawarehouse (DWH).

En el paisaje que evoluciona rápidamente de soluciones de gestión de datos, será cada vez más importante, para aprovechar la mayor cantidad de conocimientos y experiencias relacionales en la arquitectura y la ingeniería de DWH y conjuntos de datos.

  • Manejar una auditoría Sarbanes-Oxley o del ENS, en España, 
  • Manejar una actualización en marcha, 
  • Realizar una migración con tiempo de inactividad casi cero.
  • Recuperarse de un desastre

Esos conocimientos, ya están dentro del know-how del DBA del dia a dia. Sólo necesita que se extiende hacia las disciplinas de gestión de datos de reciente introducción.



Programador
Analista
bbdd
Diseñador
bbdd
Arquitecto
BBDD
DBA
Especialista
Sistemas
Especialista
Almacenamiento
Especialista
Red
Especialista
Seguridad
Arquitecto
Solución
Diseño
BBDD
indirecto
indirecto
directo
indirecto
indirecto




directo
Desarrollo
BBDD
directo

directo
indirecto
directo
indirecto
indirecto
indirecto
indirecto
indirecto
Arquitectura
BBDD
directo
directo
indirecto
indirecto
indirecto
indirecto
indirecto
Análisis
Datos
directo
directo

directo
indirecto





Instalación/
actualización
bbdd
indirecto
directo
directo
indirecto
indirecto
indirecto
Optimizador
Consultas
directo
directo
indirecto
indirecto
directo





Copia
Restauración
bbdd
indirecto
directo
indirecto
indirecto
indirecto
Aprovisionamiento
Nube


indirecto
directo
directo
directo
directo
directo
directo
directo
Operaciones
Almacenamiento

indirecto
indirecto
directo
directo


indirecto
Operaciones
Red



indirecto
indirecto
directo
indirecto


indirecto
Control
Seguridad



indirecto
indirecto
directo
indirecto
indirecto
directo
indirecto

El dato es el rey

Observando la evolución del panorama de los sistemas de gestión de datos desde el año 2000, es una apuesta bastante segura suponer que la tecnología en sí comenzará a perder su importancia, mientras que las habilidades tecnológicas prosperarán como el panorama de software de gestión de datos se expande y se diversifica. Aunque NoSQL y Big data ofrecen  nuevas técnicas para el tratamiento de la información, esta proposición está todavía lejos de ser completa y es aquí donde los DBA pueden llenar el vacío.


Esto a su vez induce un cambio importante en la perspectiva y la forma de pensar de los expertos en tecnología relacional actuales. Técnicas, algoritmos y patrones que son comunes a NoSQL y big data pueden ser implantados en los sistemas de bases de datos para mejorar la disponibilidad, la capacidad y el rendimiento. 

Esto ya ha empezado: Map Reduce ha sido utilizado en los datawarehouse durante muchos años, sólo con una terminología diferente. Del mismo modo, los patrones de acceso de clave y valor de los DWH no son nuevos en absoluto a las bases de datos que eran capaces de trabajar de forma asíncrona desde hace décadas. Lo que hizo fue el cambio continuo avance en la tecnología de hardware ligada a la evolución de los requisitos de disponibilidad y tamaño de los datos. A punto de romper la ley de Moore y justo por delante de la próxima revolución en-memoria, puede resultar que todos los sistemas de gestión de datos usen ambas aproximaciones de mana conjunta.