Escrito por Beservices

Publicado: (julio 2022)   |   Última modificación: (octubre 2022).

Uno de los cambios importantes en el ámbito del análisis de datos es empezar a tratar los datos como un producto y como tal, estos productos deben mantenerse o proveer un cierto nivel de servicio. Ya no hablamos de conjuntos de datos si no de productos de datos que se ofrecen para facilitar su consumo por los usuarios de negocio. Y aquí es donde están ganando protagonismo dos tendencias que van unidas, Data Lakehouse y Data Mesh.

¿Qué es un Data Lakehouse y un Data Mesh? 

Empecemos por el principio, hasta hora analizábamos los datos en un almacén de datos estructurados o Data Waterhouse (DWH), tablas que se relacionan entre si creando un modelo de analítico de datos. Pero las empresas tienen más datos en archivos, emails, videos, redes sociales, xml, series numéricas, entre otros que podríamos analizar.

Estos son lo que le llamaremos datos no estructurados o semiestructurados. Los datos no estructurados tienen estructura interna, pero no están predefinidos por modelos de datos.

De aquí surge la necesidad de crear bases de datos diferentes con estos datos para su posterior análisis. A esto le llamaremos Data Lake. La exploración sobre estos datos la realizarán especialistas, los Data Scientist. Estos buscarán lógicas entre los datos para conseguir análisis útiles para el negocio, creando productos de datos. Y aquí es donde se estructuran para que los usuarios de negocio puedan utilizarlos, el Data Lakehouse. La mezcla entre un Data Lake y un DWH.

 

Aunque es un avance en las capacidades de análisis y como se consumen en productos de datos, pero el hecho de ser una plataforma centralizada tiene sus ventajas y desventajas. Por un lado, al ser una plataforma centralizada, el gobierno de los datos en teoría es más sencillo. Por el otro, al ser una plataforma monolítica, la evolución tecnológica es más compleja, ya que afecta a todos los procesos. Y al ser un único equipo que gestiona la plataforma, se ha de encargar de atender a los generadores de datos para su ingesta como a los usuarios para su consumo, convirtiéndose en cuellos de botella. Y aquí es donde aparece el Data Mesh.

Los Data Mesh los hemos de entender como si dividiéramos el Data Lake en diferentes dominios de datos con un mismo objetivo de análisis, ya sea un departamento, una unidad de negocio o una región por poner algún ejemplo. Así, los Data Mesh son descentralizados, pero deben mantener una capa federada de gobierno para permitir también el análisis entre dominios. Con ello cada dominio es dueño y propietario de sus datos y productos de datos. Así, el equipo de plataformas está centrado en la evolución de la plataforma gracias a la autonomía que se ha dado a los dominios. 


Hay más conceptos como el Data Fabric, pero esto ya para otro artículo.  Para terminar una conclusión y un ejemplo.

Para llegar al final, hay de empezar por el principio que son los datos estructurados en una Data Warehouse. A ello le iremos añadiendo datos no estructurados para crear una Data Lake y/o un Data Lakehouse creando productos de datos para los usuarios de negocio. Y cuando estos se conviertan en un problema por el volumen de la plataforma, creando silos de conocimiento y cuellos de botella, es cuando iremos hacia un Data Mesh.

Un ejemplo  

Sois una empresa con vuestro propio Data Warehouse y/o Data Lake que está creciendo basado en la adquisición de otras empresas. Estos tienen sus propios Data Warehouse y/o Data Lake. ¿Qué hacemos? ¿Lo centralizamos todo o creamos lagos de datos repartidos que unimos bajo un paraguas como un Data Mesh? Espero que ahora ya sepáis la respuesta. 

Cada vez con nos encontramos con más frecuencia organizaciones que apuestan por implementar una solución Data Lakehouse o Data Mesh para mejorar el análisis de sus datos porque aportan un alto valor competitivo.

Si quieres implementarlas en tu empresa, en beServices te podemos ayudar a conseguirlo.