Skip to the content.

Sail + PySpark: mi experiencia

Buenas a todos, hoy os vengo a contar lo que está siendo para mí un nuevo mundo: colaborar con el proyecto Lake Sail.

¿Qué es Lake Sail?

Lake Sail es un motor de ejecución escrito en Rust que busca ser una alternativa moderna a Apache Spark, con la ventaja de que se integra directamente con el ecosistema de PySpark.

Esto significa que como usuario puedes seguir escribiendo tu código en Python de la misma manera que lo harías con Spark, pero por debajo todo se ejecuta en Rust, apoyándose en Apache DataFusion como núcleo.

¿Por qué me parece importante?

Hay varios motivos, pero destaco uno clave:
👉 podemos prescindir de la JVM en entornos Spark-like.

Esto tiene un impacto enorme:

En la web de Lake Sail ya se pueden ver benchmarks que comparan su rendimiento y muestran mejoras interesantes frente a Spark clásico.

Mi experiencia colaborando

Entrar en este proyecto ha sido para mí un reto y una motivación. Venir del mundo Big Data con Spark y empezar a tocar código en Rust me ha abierto la puerta a nuevas formas de pensar y programar.

Lo que más me atrae es esa combinación entre:

Conclusión

Creo que proyectos como Lake Sail pueden marcar un antes y un después en el ecosistema Big Data. Personalmente, me está sirviendo para aprender Rust, aportar a una comunidad emergente y explorar cómo puede ser el futuro de la analítica distribuida sin las limitaciones de la JVM.

Seguiré compartiendo mi experiencia conforme avance en esta colaboración. 🚀

Recursos sobre Sail