Qu'est-ce que ZML et comment fonctionne cette technologie ?

ZML est un ensemble d'outils open source pour l faire de l'inference IA a haute performance. Il cree une couche d'abstraction qui permet de faire tourner n'importe quel modele de langage sur n'importe quel type d'accelerateur : GPU Nvidia, AMD, TPU Google, Trainium Amazon, et les chips dedies comme Furiosa ou Tenstorrent. L'objectif est de rendre le cout du changement egal a zero pour stimuler la competition.

Quelle est la difference entre training et inference en IA ?

Le training c'est comme les cours a l'ecole : on apprend en ingurgitant beaucoup de donnees. L'inference c'est l'interrogation : on utilise ce qu'on a appris pour repondre rapidement. Le training est reserve a quelques dizaines d'acteurs mondiaux, tandis que l'inference est le besoin universel de tous les utilisateurs d'IA. ZML se concentre sur l'inference car c'est la ou se situe le marche de masse.

Pourquoi le monopole de Nvidia pose-t-il probleme pour l'economie de l'IA ?

Nvidia capture 74% de marge brute sur les GPU, ce qui comprime les marges de toute la chaine en aval. Les cloud providers ont 30% de marge, mais les fournisseurs de services IA n'ont que 1,5%. Sans competition reelle sur les accelerateurs, les prix restent eleves et l'IA moins accessible. ZML vise a commodifier les accelerateurs pour creer cette competition.

Quel est l'impact des modeles de raisonnement sur le compute ?

Les modeles de raisonnement comme O1 et DeepSeek generent jusqu'a 10 fois plus de tokens qu'un LLM classique pour une seule reponse. Cela change fondamentalement les economics car le cout par requete explose. De plus, le temps de reponse augmente (30 secondes contre instantane), ce qui segmente les usages : les utilisateurs testent d'abord avec un modele rapide avant de lancer un raisonnement.

Pourquoi la France est-elle bien positionnee pour l'infrastructure IA ?

L'acces a l'energie est le facteur limitant pour les datacenters d'IA. La France dispose du nucleaire qui fournit une energie fiable, abondante et bas-carbone. Steeve souligne que la capacite a construire des datacenters depend d'abord de l'acces a l'energie electrique, ce qui donne un avantage structurel a la France par rapport a d'autres pays europeens.

Episode 111

Steeve Morin — ZML, revolutionner le compute IA | Comptoir IA #111

7 janvier 20251:29:3489 min

Steeve Morin

Fondateur de ZML, ancien VP Engineering chez Zenly (rachete par Snapchat)

YouTube Spotify Apple Podcasts

Resume

Steeve Morin, fondateur de ZML et ancien VP Engineering de Zenly (rachete par Snapchat), explique comment ZML cree une couche d abstraction pour l'inference IA a haute performance, permettant de faire tourner n'importe quel modele sur n'importe quel accelerateur (Nvidia, AMD, Google TPU, Amazon Trainium). Le projet a ete valide par Yann LeCun sur Twitter comme une pile d'inference impressionnante et open source. Steeve analyse la chaine de valeur economique de l'IA ou Nvidia capture 74% de marge brute sur les GPU, TSMC 60% sur la fabrication, et les cloud providers 30%, ne laissant que 1,5% de marge aux fournisseurs de services IA. Il decrypte les modeles de raisonnement comme O1 et DeepSeek qui generent 10x plus de tokens et changent fondamentalement les economics du compute. Sur l'energie, il souligne que la France est idealement positionnee avec le nucleaire pour accueillir des datacenters d'IA. ZML compte 8 employes et a leve des fonds avec New Wave et Twin TVC. Steeve recommande le film Contact de Carl Sagan et reste sceptique sur l'utilite des humanoides.