Lake Database la nueva feature de Azure Synapse ¿Adiós a los SQL convencionales?

¿Estamos al final de las SQL convencionales? ¿Microsoft se ha vuelto loco? Para entender un poco el hype vamos a aprender qué significa esta nueva funcionalidad llamada “Lake Database“ de Microsoft para Azure Synapse que actualmente está en preview.

Si eres del mundo de los datos, estarás más que acostumbrado a trabajar en Data Lake que, en esencia, no es más que un lugar donde guardar los diferentes orígenes de datos.

Dentro de nuestro Data Lake podemos disponer de una gran cantidad de datos, imágenes, documentos, tablas en csv o en parquet. Si nuestra empresa tiene algo en #DataDriven (si no sabes qué es, te dejo por aquí un enlace), es posible que tengamos Data Scientist trabajando con nuestros Dataset, y Data Analyst escudriñando los datos.

Al final, siempre existe el riesgo de que, pese a que dividamos correctamente nuestro Lake (Bronze, Silver & Gold), a medida que la empresa va creciendo y haciendo un mayor uso de los datos, puede llegar a ser difícil construir nuestro modelo únicamente en Data Lake, especialmente si al final deseamos tener una integridad referencial, el saber qué datos tienen relación. Esto era todo un desafío a la hora de interactuar con un Data Lake. La mayoría de las veces optábamos por subir nuestro modelo de datos a un base de datos convencional o nos resignábamos a perder esta información.

Lake Database aborda el desafío de los Data Lake actuales, donde es difícil entender cómo se estructuran finalmente los datos.

¿Cómo lo aborda?

Gracias a esta nueva funcionalidad podemos tener los datos en formato .csv o parquet en nuestro Data Lake (con la consiguiente optimización de rendimiento y almacenamiento) y desde el Lake Database Designer leerlos directamente como si fueran tablas. De igual manera, desde nuestra Lake Database podremos tanto explorar con SQL nuestros datos como tener metadata asociada a los mismos.

¡Qué idea! ¿no? ¿Y cómo no se nos había ocurrido antes?😅 Para ser sinceros, y aunque no lo parezca, esto ya era conocido de antes. Recibía el nombre de «Spark Databases» e incluso con los openrowset al hacer externals tables podías hacer algo realmente similar.

Nuestro Lake Database Designer proporciona una herramienta con la que podemos diseñar nuestra DB sin prácticamente tirar una línea de código, añadir metadata a las tablas (PK, descripción, etc..) y lo que es mejor, una visualización que nos permitirá entender el data model de una forma totalmente intuitiva.

¿Cómo podemos usar esta nueva herramienta?

No voy a entrar demasiado en detallar paso a paso cómo crear un Lake Database ya que: aquí, aquí o aquí, por ejemplo, tenéis muy buenos tutoriales (y sencillos) sobre cómo hacerlo. Mi principal idea es que entendáis realmente qué es esta nueva funcionalidad y qué nos aporta. Para empezar a utilizarla, simplemente tenemos que clicar en la pestaña «Data» al botón de «+» , añadimos un workspace de Lake database, y ¡listo!