Anima Mundi

La stack Business Intelligence du futur ! 🔮

TL; DR :

La BI est un sujet d'ingénierie complexe, autant au moment de concevoir une infra que pour la faire évoluer ensuite.

Il semblerait que, comme ce fût le cas côté Data Science (l'irrésistible transition depuis SAS, SPSS, Statistica vers Python, R, Spark) et côté storage (qui utilise encore du Oracle, Informix ou du DB2 par choix quand il pourrait être sur Postgres), on glisse rapidement vers de l'open source côté Business Intelligence aussi. Mais aussi côté cloud !

Cet article résume rapidement les tendances qu'on observe dans les entreprises tech centrées données. Ces tendances modèlent ce que sera l'état de l'art demain. Je précise quand même que, côté cloud, j'ai un léger biais GCP simplement car c'est le fournisseur que je connais le mieux et que j'ai le plus utilisé. Il est cependant très facile de trouver des composants équivalents chez les autres fournisseurs via une rapide recherche ("équivalent BigQuery aws").

1. Stockage 💾

Cloud, évidemment. On migre progressivement ses bases de données on-premise, et tant pis pour la dépendance à tel ou tel fournisseur (ceci est un faux argument qui permet de ne pas s'attaquer à un problème complexe !).

Pour le stockage classique en base relationnelle, le choix est abondant :

Côté datawarehouse

2. ETL/ELT & data integration 🛠️

Sûrement la partie du workflow où le choix est le plus compliqué

Quelques solutions commerciales de qualité

Côté open-source, on peut s'en sortir avec un mélange de :

Côté "temps réel" 🚀

3. Analytics & dashboarding 📈

Là aussi, beaucoup de choix, et d'excellentes solutions open-sources sur un marché longtemps dominé par les produits Enterprise type MicroStrategy, SAP Business Objects, Qlik, et plus récemment Tableau qui tient encore bien.

4. Pour parfaire le tableau 🖌️

Requêtes ⛏️

L'excellent Trino (AKA Presto) comme moteur de requêtes fédérées permet d'utiliser SQL pour requêter des sources diverses à une vitesse monstre. On peut par exemple extraire une table depuis Hive en faisant une jointure sur une source MongoDB ou PostgreSQL.

Facebook utilise Trino/Presto pour des requêtes interactives sur plusieurs sources de données internes, y compris leur entrepôt de données de 300Po. Plus de 1 000 employés de Facebook utilisent Presto quotidiennement pour exécuter plus de 30 000 requêtes qui, au total, analysent plus d'un pétaoctet chacune jour. (source)

Data Discovery 🔭

Avoir plein de données, c'est cool, mais il faut pouvoir se retrouver là-dedans. Amundsen (❤) est un très bon Data Catalog open source qui permet d'automatiser la majorité du travail de documentation en se connectant aux sources de données pour en récupérer les métadonnées régulièrement (grâce à Airflow). C'est une sorte de dictionnaire des données interne, qui permet de savoir ce que contient tel schéma ou telle table, ou encore ce que contient précisément le champ NUXTAP2 de la table BUSI_CNT, ou encore d'ou provient ce dashboard Tableau qui date de 2017 et que plus personne ne regarde. Amundsen dispose de connecteurs pour une énorme variété de sources de données dont voici la liste.
Disposer d'un data catalog est absolument essentiel.

Autrement, voici un article super intéressant sur le sujet écrit par Maxime Beauchemin, le créateur d'Airflow & de Superset, et une animation que je trouve sympa (ignorer le sponsor).

Merci pour votre lecture ! 😊👋

~ Anas EL KHALOUI

#AI #Business #Tech #french