Aller au contenu principal

SubQ promet une IA capable de lire des millions de mots à moindre coût, mais les tests indépendants restent le vrai test

Une IA plus attentive pourrait coûter beaucoup moins cher. Avec SubQ, la startup américaine Subquadratic promet de réduire le poids du calcul dans les grands modèles de langage. La piste paraît concrète, mais les chiffres publiés demandent encore des contrôles ouverts.

Ordinateur non marqué et dossier fermé dans un couloir de serveurs.
Une scène sobre de centre de données illustre les promesses de modèles capables de traiter de très longs contextes. L’image met l’accent sur l’infrastructure réelle plutôt que sur une métaphore futuriste. – DailyGeekShow.com / Image Illustration

Pourquoi SubQ vise le point faible économique des modèles de langage

Les grands modèles de langage reposent encore largement sur le Transformer, l’architecture popularisée en 2017. Son mécanisme central, l’attention, compare chaque morceau de texte avec tous les autres. Comme dans une salle où chaque personne parlerait à toutes les autres, le brouhaha grandit très vite.

Ce coût suit une logique dite quadratique : doubler le texte ne double pas seulement le travail, il le multiplie par quatre. Pour une entreprise qui analyse contrats, tickets clients ou code source, cette règle transforme vite une longue requête en facture de calcul.

Ce que Subquadratic annonce vraiment avec SubQ 1M-Preview

Subquadratic, dont Justin Dangel est cofondateur et directeur général, a présenté SubQ le 5 mai 2026. La société affirme que son modèle utilise une attention parcimonieuse, c’est-à-dire une attention qui ne regarde qu’une partie des relations entre tokens.

Un token correspond à un fragment de mot ou de signe traité par le modèle. SubQ chercherait les liens utiles au lieu de comparer toutes les positions. La promesse tient dans une idée lisible : garder les bonnes conversations, couper les autres, puis conserver la cohérence.

Les chiffres avancés placent la barre haut. Subquadratic évoque 12 millions de tokens dans un résultat de recherche, 52 fois plus de vitesse que FlashAttention à 1 million de tokens, et près de 1 000 fois moins de calcul d’attention dans certains scénarios.

Pourquoi les développeurs regardent cette annonce avec prudence

Les longues fenêtres de contexte intéressent les équipes qui travaillent sur des dépôts de code, des bases documentaires ou des dossiers réglementaires. Sans contexte complet, elles découpent les fichiers, indexent les passages et utilisent le RAG, pour retrieval augmented generation, une recherche avant génération.

SubQ promet de réduire ces échafaudages, mais un modèle fermé reste difficile à juger. Les benchmarks publiés, comme RULER ou SWE-Bench Verified, donnent des repères. Ils ne remplacent pas des audits indépendants sur des corpus variés, avec coûts, erreurs et limites reproductibles.

Le vrai enjeu porte moins sur l’annonce que sur les usages vérifiés

L’idée d’une attention plus légère ne naît pas avec SubQ. Des chercheurs testent depuis plusieurs années des approches linéaires, parcimonieuses ou récurrentes. Des travaux théoriques récents montrent aussi que certaines formes d’attention rapide restent possibles, mais sous conditions mathématiques précises.

La question centrale devient donc opérationnelle. SubQ doit prouver qu’un long contexte ne sert pas seulement à avaler beaucoup de texte, mais à retrouver la bonne phrase au bon moment. Un livre entier dans la mémoire ne vaut rien si la page utile disparaît.

Subquadratic ouvre SubQ via une API en accès anticipé, SubQ Code pour les dépôts logiciels et SubQ Search pour la recherche longue. Le prochain repère sera simple : des tests publics, répétés par des tiers, sur 1 million de tokens et au-delà.

Par Eric Rafidiarimanana, le

Étiquettes: ,

Catégories: ,

Partager cet article

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *