L'IA améliore-t-elle la productivité des développeurs ?

Dans certains secteurs, comme le développement informatique, l’IA fait déjà partie des pratiques de travail courantes. L’essor des assistants de code IA (Cursor, Claude Code, etc.), bouleverse en effet les workflows de développement.

Il soulève dès lors une question centrale : dans quelle mesure ces outils transforment-ils la productivité des développeurs, et dans quelles conditions les gains annoncés se matérialisent-ils réellement ?

Pour éclairer cet enjeu, cette revue de littérature vise à recenser et synthétiser les travaux les plus récents sur l’impact de ces assistants sur la productivité, à identifier les effets mis en évidence (gains, limites, effets différenciés selon les tâches et les profils), et à dégager les principaux facteurs explicatifs ainsi que les lacunes de la recherche actuelle.

La « productivité des développeurs » n’est pas mesurée de la même manière dans chacune de ces recherches, ce qui complexifie la comparaison de ces études

La « productivité des développeurs » est un concept multidimensionnel. Pour mesurer l’impact des assistants de code IA sur la productivité, il conviendrait ainsi de tenir compte de plusieurs indicateurs, mesurant aussi bien les effets quantitatifs que qualitatifs ou encore la satisfaction des développeurs. L’opérationnalisation du concept dans les recherches sur ce sujet ne s’intéressent souvent qu’à certaines dimensions, offrant de fait une mesure imparfaite de l’impact sur la productivité. En outre, ces différentes recherches ne s’intéressent pas toutes aux mêmes dimensions, ce qui complexifie leur comparaison.

Si vous souhaitez en plus sur la mesure de la productivité des développeurs, nous avons consacré un article à ce sujet accessible ici.

arXiv.org et revue par les pairs : les limites à garder en tête

L’analyse de cette littérature permet de constater que nombre d’articles sur ce sujet sont publiés sur arXiv.org, une plateforme de prépublication. Ce format a un avantage évident : il accélère la diffusion des résultats et facilite la discussion scientifique. Par ailleurs, les classements de revues académiques et le rang attribué à chaque revue ont eux-mêmes fait l’objet de critiques ; autrement dit, un article publié dans une revue classée n’est pas un gage automatique de qualité.

Mais il faut aussi être clair sur l’autre face de la médaille : sur arXiv, les articles ne sont pas évalués par les pairs avant publication. Cela signifie que certaines contributions peuvent gagner en visibilité avant que leur méthodologie, leurs hypothèses ou leurs résultats aient été réellement éprouvés. Le risque, dans un domaine aussi « à la mode » que les assistants de code IA est que des travaux séduisants ou très partagés puissent gagner en popularité malgré une méthode fragile, des biais non maîtrisés, ou des résultats difficilement généralisables.

Pour éviter cet écueil, nous avons choisi pour chaque article de détailler la méthode, puis de mettre explicitement en évidence ses limites (biais, validité externe, taille d’échantillon, protocole, métriques, reproductibilité, etc.).

L’objectif de cette revue de littérature est ainsi de permettre une lecture utile et éclairée : comprendre ce que chaque étude apporte réellement, et ce qu’elle ne permet pas d’affirmer.

Becker et al., 2025, Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity. publié sur arXiv.org

Objectif de la recherche

Evaluer l’impact des outils IA sur la productivité des développeurs dans des conditions réelles.

Gap théorique que cette recherche essaye de combler

Jusqu’à présent, l’impact des outils IA était évalué en laboratoire : les tâches utilisées dans les expériences nécessitaient peu de contexte ou de familiarité préalable. Les études en laboratoire présentent le désavantage de limiter la validité écologique de la recherche, c’est-à-dire la transposition à des contextes de développement réels. Par ailleurs, les études existantes mesurent la productivité des développeurs via des indicateurs tels que :

Nombre de lignes de code ajoutées ;
Nombre de tâches réalisées. Les auteurs indiquent que ces indicateurs mesurent néanmoins imparfaitement la productivité des développeurs :
Un code peut être plus verbeux sans apporter de gain fonctionnel ;
Une tâche peut être divisée en plusieurs sous-tâches sans que la quantité réelle de travail n’augmente.

Méthodologie

Essai contrôlé randomisé en conditions réelles.
L’échantillon est constitué de 16 développeurs expérimentés, mais ayant une expérience modérée avec l’IA.
Il est demandé aux développeurs de l’échantillon, de réaliser 246 tâches sur des projets matures auxquels ils contribuent depuis en moyenne 5 ans.
Chaque tâche est assignée aléatoirement à un groupe autorisant ou interdisant l’usage des outils d’IA récents (entre février et juin 2025). Le choix de l’outil d’IA est laissé libre. Lorsque l’usage de l’IA est permis, les développeurs utilisent principalement Cursor Pro et Claude 3.5/3.7 Sonnet.
Les auteurs demandent aux développeurs de leur échantillon, avant et après l’étude, d’estimer le gain de temps de réalisation des tâches permis par l’IA.
A partir d’enregistrements d’écran, les chercheurs labellisent manuellement les activités réalisées par les développeurs pour objectiver ce gain de temps.

Quelques remarques sur la méthodologie :

La permission d’usage d’un assistant de code IA ne signifie pas que les développeurs vont forcément l’utiliser. Ils peuvent choisir de ne pas l’utiliser, ou d’utiliser un autre outil d’IA à la place.
Cursor et Claude ne semblent pas avoir été configurés exprès pour les projets sur lesquels les développeurs autorisés à utiliser l’IA travaillent. Du moins, la section « 2.2.1 AI Tools and Training » n’en dit rien.
La majorité des développeurs de l’échantillon n’a pas d’expérience dans l’utilisation de Cursor : « 93% have prior experience with tools like ChatGPT, but only 44% have experience using Cursor »

Résultats

Estimation des gains de temps permis par l’IA par les développeurs eux-mêmes : o « Avant de commencer, les développeurs estiment que l’IA réduira le temps de réalisation des tâches de 24 %. Après l’étude, ils réévaluent cet effet à une réduction de 20 %. » (Notre traduction) o « De manière surprenante, nous constatons que l’IA augmente en réalité le temps de réalisation de 19 % – les outils d’IA ont ralenti les développeurs. Ce ralentissement va également à l’encontre des prévisions d’experts en économie (réduction de 39 %) et en apprentissage automatique (réduction de 38 %). » (Notre traduction)
La figure ci-dessous montre le pourcentage de temps que les développeurs passent sur chaque activité, lorsque l’IA est autorisée et lorsqu’elle est interdite.

Pourcentage moyen de temps passé par activité dans les enregistrements d’écran annotés

Les auteurs cherchent à expliquer ces résultats en explorant 21 facteurs potentiels pouvant contribuer au fait que les développeurs passent plus de temps sur certaines tâches lorsque l’IA est autorisée.

Ils expliquent que selon eux, l’effet de ralentissement ne provient probablement pas uniquement de leur protocole expérimental.

Voici ci-dessous les facteurs identifiés par les chercheurs et qu’ils ont classés selon leur probabilité de contribution au ralentissement des développeurs sur certaines tâches lorsqu’ils utilisent l’IA. Factors likely to contribute to slowdown

Factors with unclear effet on slowdown

Factors unlikely to contribute to slowdown

Evaluation critique de l’étude

Cette recherche présente plusieurs limites importantes, notamment sur le plan méthodologique :

L’échantillon est composé de seulement 16 développeurs : la faible taille de l’échantillon ne garantit pas une représentativité, et limite très fortement les possibilités de généralisation des résultats.
En termes de représentativité de l’échantillon justement, celui-ci comprenait des développeurs expérimentés. Il aurait été pertinent de tenir compte de la variable « expérience du développeurs » dans l’étude de la relation entre « utilisation d’un assistant de code IA » et « évolution de la productivité » et d’inclure des développeurs juniors dans l’échantillon.
La majorité des développeurs de l’échantillon (56%) n’a pas d’expérience avec Cursor.
Cursor n’est pas configuré pour les projets spécifiques sur lesquels les développeurs travaillent.

Ces points doivent notamment être discutés au regard de l’étude de Kumar et al. (2025), détaillée plus loin, dont les résultats mènent d’autant plus à questionner les apports de Becker et al. (2025) :

Tout d’abord, l’étude de Kumar et al. (2025) apparaît plus robuste, puisqu’elle repose sur un échantillon de 300 développeurs, et non de 16.
Kumar et al. (2025) montrent qu’un usage sporadique d’assistants de code IA ne permet pas de bénéficier de gains de productivité. Ainsi, il s’agit selon nous d’une mise en perspective importante de la recherche de Becker et al. (2025), puisque la majorité des développeurs de l’échantillon n’a pas d’expérience sur les assistants de code, notamment sur Cursor. Il n’est pas ailleurs pas précisé, pour la part des développeurs ayant de l’expérience sur cet assistant de code, quel est justement ce niveau d’expérience (depuis combien de temps l’utilisent-ils, à quelle fréquence, pour quelles tâches, ont-ils suivi une formation spécifique, etc.)
Kumar et al. (2025) mettent en évidence que les développeurs expérimentés bénéficient moins des avantages des outils d’IA que les développeurs juniors. Dès lors, le choix d’un échantillon composé quasi-exclusivement de développeurs expérimentés tend à mettre en question les résultats de l’étude Becker et al. (2025).