Comptoir IA Podcast

Episode 111

Steeve Morin — ZML, revolutionner le compute IA | Comptoir IA #111

1:29:3489 min
SM

Steeve Morin

Fondateur de ZML, ancien VP Engineering chez Zenly (rachete par Snapchat)

Resume

Steeve Morin, fondateur de ZML et ancien VP Engineering de Zenly (rachete par Snapchat), explique comment ZML cree une couche d abstraction pour l'inference IA a haute performance, permettant de faire tourner n'importe quel modele sur n'importe quel accelerateur (Nvidia, AMD, Google TPU, Amazon Trainium). Le projet a ete valide par Yann LeCun sur Twitter comme une pile d'inference impressionnante et open source. Steeve analyse la chaine de valeur economique de l'IA ou Nvidia capture 74% de marge brute sur les GPU, TSMC 60% sur la fabrication, et les cloud providers 30%, ne laissant que 1,5% de marge aux fournisseurs de services IA. Il decrypte les modeles de raisonnement comme O1 et DeepSeek qui generent 10x plus de tokens et changent fondamentalement les economics du compute. Sur l'energie, il souligne que la France est idealement positionnee avec le nucleaire pour accueillir des datacenters d'IA. ZML compte 8 employes et a leve des fonds avec New Wave et Twin TVC. Steeve recommande le film Contact de Carl Sagan et reste sceptique sur l'utilite des humanoides.

Points cles de l'episode

  • 1ZML cree une couche d'abstraction pour l'inference IA permettant de faire tourner un modele sur n'importe quel accelerateur (Nvidia, AMD, TPU, Trainium)
  • 2Yann LeCun a valide ZML sur Twitter comme une pile d'inference IA haute performance, open source et impressionnante
  • 3Nvidia capture 74% de marge brute sur les GPU, TSMC 60% sur la fabrication, les cloud providers 30% — la chaine de valeur est tres concentree
  • 4Les modeles de raisonnement (O1, DeepSeek) generent 10x plus de tokens que les LLM classiques et changent les economics du compute
  • 5La mission de ZML : rendre le cout du changement d'accelerateur egal a zero pour creer de la competition et faire baisser les prix
  • 6La France est idealement positionnee avec le nucleaire pour les datacenters IA car l'acces a l'energie est le facteur limitant
  • 7DeepSeek a ete entraine pour seulement 5 millions de dollars et affiche des performances impressionnantes sur les benchmarks
  • 8Le training c'est comme les cours, l'inference c'est l'interro : on doit repondre rapidement avec ce qu'on a appris

Transcription complete

00:00

Presentation de ZML et voeux 2025

Nicolas GuyonSteeve Morin, fondateur de ZML, nous sommes le 3 janvier 2025. Tu es aussi le VP Engineering de Zenly, magnifique success story francaise avec un rachat par Snapchat. J'ai eu le plaisir de te croiser a l'inauguration du bureau parisien d'OpenAI.

Steeve MorinZML, ca ne veut pas dire grand-chose, je trouvais que le nom sonnait bien. ZML est ecrit dans un langage qui s'appelle Zig. J'ai toujours aime ASML pour ce qu'ils font. On fait un ensemble d'outils pour faire de l'inference a tres haute performance pour la production. Quand je parle de production, je parle de systemes a l'echelle OpenAI.

01:39

L'inference vs le training : l'analogie des cours et de l'interro

Steeve MorinLe training, c'est comme les cours : on apprend plein de choses. L'inference, c'est l'interro : on doit repondre rapidement et efficacement en utilisant ce qu'on a appris. Le training est reserve a quelques dizaines d'acteurs dans le monde. L'inference, c'est le besoin universel : chaque fois que vous parlez a ChatGPT, c'est de l'inference.

03:45

Validation par Yann LeCun et levee de fonds

Nicolas GuyonYann LeCun a presente ZML sur Twitter en le decrivant comme une pile d'inference IA haute performance capable de paralleliser et d'executer des systemes d'apprentissage profond sur de nombreux types de materiel. Il a dit que c'etait impressionnant et open source.

Steeve MorinOn est huit chez ZML. On a fait une levee de fonds avec New Wave et Twin TVC. On s'est tres bien entendus.

10:05

Outils IA : Copilot et Poolside pour le code

Steeve MorinClairement, dans mon quotidien, c'est Copilot, Poolside. J'ai eu la chance de faire partie des utilisateurs prives de Poolside. Tous les LLM pour le code, c'est mon arme secrete. Je ne suis pas trop encore passe sur les agents style Cursor. L'anglais n'est pas un tres bon langage de programmation. Je suis et resterai un ingenieur de formation et de coeur.

14:52

DeepSeek et les performances a 5 millions de dollars

Steeve MorinDeepSeek, un modele chinois, a affiche des performances impressionnantes pour un cout d'entrainement de seulement 5 millions de dollars. C'est fascinant de voir ces developpements et leur impact potentiel sur le marche. Les GPU ne sont pas nativement concus pour l'IA, ce qui ouvre la voie a d'autres technologies comme les TPU de Google ou les puces dediees.

20:35

La chaine de valeur et les marges ecrasantes de Nvidia

Steeve MorinNvidia capture 74% de marge brute. TSMC qui fabrique les puces a 60% de marge. Les cloud providers prennent environ 30%. Et tout en haut de la chaine, les fournisseurs de services IA n'ont que 1,5% de marge. On ne peut pas faire une marge de 1,5% la ou celui juste en dessous a 30, puis 74, puis 60.

Steeve MorinLe seul moyen mecanique de democratiser ca, c'est de faire flechir cette part du gateau. Et comment ? Avec l'outil le plus vieux du capitalisme : la competition. La mission de ZML, c'est que le cout du changement soit egal a zero. Ca veut dire que je m'en fiche de ce sur quoi ca tourne, il faut que ca tourne.

39:04

Demo : un modele sur plusieurs GPU differents

Steeve MorinOn a fait une demonstration ou le meme modele tourne sur plusieurs types d'accelerateurs differents. On montre que la flexibilite et l'interoperabilite des systemes sont possibles. Si j'ai deux accelerateurs a performances differentes, je vais choisir le plus efficace. Et si le cout du changement est transparent, il n'y a aucun interet a prendre le moins efficace.

42:15

Les modeles de raisonnement changent les economics

Nicolas GuyonLes modeles de raisonnement comme O1, O3 de OpenAI et DeepSeek generent 10 fois plus de tokens qu'un LLM traditionnel. Quel impact ca va avoir sur le marche ?

Steeve MorinC'est une reponse un peu brute force au probleme. Ca change fondamentalement les economics et les modeles de compute associes. Pendant qu'il pense, ca devient vite chiant, 30 secondes a repondre. On segmente les questions : est-ce que ca vaut le coup ? On teste d'abord avec un autre modele.

46:05

Energie et datacenters : l'atout nucleaire francais

Steeve MorinL'acces a l'energie est le facteur limitant pour les datacenters. La France est idealement positionnee avec le nucleaire pour soutenir les besoins en compute de l'IA. C'est une energie fiable, abondante et bas-carbone. La capacite a construire des datacenters depend d'abord de l'acces a l'energie electrique.

55:15

Consolidation du marche IA et acteurs cles

Steeve MorinJe ne prevois pas de gagnant clair dans la course a l'IA. Les cartes sont rebattues en permanence depuis deux ans. Google et Mistral sont bien positionnes mais le marche reste dynamique. La diversite des acteurs est benefique pour l'innovation. Quand Mistral sort ses modeles, ils sont premiers instantanement, et puis les gens bossent.

01:06:19

Robotique : fascination et scepticisme sur les humanoides

Steeve MorinJe trouve ca incroyable mais je ne crois pas trop aux humanoides d'un point de vue utilite. Ce qui me fascine, c'est que les modeles sortent directement les commandes des moteurs. C'est des pixels en entree et en sortie le courant qui fait marcher les moteurs. On n'a presque meme pas de concept de ferme la main. Hugging Face fait des choses extremement belles avec Le Robot.

01:10:31

AGI, super intelligence et questions existentielles

Steeve MorinJe reste incertain quant a la timeline pour l'AGI. La definition elle-meme est complexe. J'espere que des avancees significatives auront lieu dans les prochaines annees. Si je pouvais poser une question a une IA du futur, ce serait sur la possibilite de communiquer avec d'autres formes de vie dans l'univers.

01:20:36

Contact de Carl Sagan : le film de science-fiction prefere

Steeve MorinContact, de tres tres loin. Si on passe l'aspect science-fiction, c'est la reponse humaine qui me fascine. Je suis absolument fan de Carl Sagan. Ce qui est beau dans ce film, c'est toute la facon dont ca se deroule et que ca part de zero. Le langage universel qui est mathematique.

Nicolas GuyonJ'ai lu sur X que Contact avait inspire les premiers chercheurs sur les LLM, sur le Transformer. Pour ceux qui le souhaitent, vous pouvez aller sur le GitHub de ZML, c'est open source.

📬 Recevez les meilleurs insights IA chaque semaine

Veille, analyses et cas d'usage concrets dans votre boite mail.

S'abonner a la newsletter

Questions frequentes

🎙️A propos de votre hote

Nicolas Guyon

Formateur IA & Expert en Intelligence Artificielle Generative

Animateur du podcast Comptoir IA (160+ episodes, 50 000 ecoutes/mois), intervenant BFM Business et ambassadeur du Plan National IA, Nicolas accompagne les entreprises et les independants dans leur adoption de l'IA generative pour transformer leur activite. Ses formations IA en entreprise couvrent les fondamentaux de l'intelligence artificielle jusqu'aux cas d'usage avances de l'IA generative.

Ses clients : Hermes, Naval Group, ERAM, Arkopharma, Puig, CESI, SANEF...

Episodes similaires