Las ventajas que te ofrece Microsoft Azure y el mundo.NET

Databricks: ¡La nueva pestaña Repos ha venido para quedarse!

Databricks acaba de sacar una nueva funcionalidad: ¡la pestaña #Repos! En un principio, en Databricks podíamos conectarlo con Git, por ejemplo con Azure Devops, hacer nuestros commits y restaurar nuestros cambios a versiones anteriores. Entonces… ¿qué tiene de emocionante esta nueva pestaña si ya teníamos la funcionalidad?

Si has trabajado diariamente con Databricks sabrás que esta funcionalidad es bastante limitada. Conectar toda una carpeta al repositorio es imposible, pues tienes que ir notebook a notebook conectándolo y en el uso de sus ramas no hay nada claro a la hora de su manejo.

La pestaña Repos viene a resolver este problema, dando una integración a nivel de repositorio directamente dentro de Databricks, permitiendo crear o clonar directamente cualquier repositorio de Git.

Con Databricks Repos tendrás un acceso similar a la funcionalidad Git, incluido la capacidad de gestionar ramas, sincronizar un proyecto completo de Git, hacer pull desde cambios remotos de manera directa… En definitiva, tenemos el poder y la capacidad de seguir las development best practices como cuando desarrollamos software.

¿Cómo podemos usarla?

Escenario: estamos trabajando en un desarrollo en una empresa multinacional donde cada país tiene su Databricks independiente y su propio Devops con el que tienen todos sus sistemas de Azure integrados.

El área de Data Scientist está trabajando en un modelo de machine learning con el resto de los países.

Con el sistema actual, no sería posible esa colaboración o bien necesitaríamos una configuración un tanto complicada para tenerlo disponible cuando algún país haga una aportación a nuestro modelo.

Con el nuevo sistema de Repos podemos generar un repositorio en Github, donde subiremos nuestro código del modelo de machine learning, distribuyéndolo al resto de países. De esta forma podremos tener tantos repositorios como  sea necesario y compartirlo con quien deba acceder.

Múltiples repositorios conectados:

Como podéis observar en la fotografía, nos permite tener una buena arquitectura de carpetas donde podamos tener varios repositorios conectados a todas sus carpetas.

¿Bastante práctico no? ¡Pues eso no es todo!

Si nos fijamos cuando exploramos las carpetas del repositorio, vemos cómo únicamente aparecen los ficheros notebook nativos de Databricks. Pero, y si tengo un .py dentro del repositorio ¿por qué no puedo verlo?

Databricks nunca ha tenido problemas para importar los ficheros Python y no debería ser un problema visualizar nuestros ficheros .py o incluso un .txt, sin embargo, no los visualizamos.

Aunque de forma nativa no vamos a poder visualizarlo, actualmente en preview han sacado una nueva funcionalidad que nos permitirá visualizar y editar nuestros ficheros. Te voy a enseñar cómo puedes activarla.

Sigue estos pasos:

– Entrar a Settings > Admin Console
– Dar click a la pestaña de Workspace Settings
– Activamos la opción de Files in Repos

Importante: Recuerda que esto sólo podrá ser activado si dispones de poderes de administrador.

Y ¡Voilà! Ya tenemos activada la nueva funcionalidad de Repos y al fin podremos trabajar sin tantas complicaciones 🙂

mm

About Javier Iniesta

Javier Iniesta es Data Team Leader en ENCAMINA, CoFundador de SAMEBullying, Coodinador del club .NET de la UCAM, MSP y emprendedor Social.
This entry was posted in data, Databricks. Bookmark the permalink.
Suscríbete a Piensa en Sofware desarrolla en Colores

Suscríbete a Piensa en Sofware desarrolla en Colores

Recibe todas las actualizaciones semanalmente de nuestro blog

You have Successfully Subscribed!

ENCAMINA, piensa en colores