IA : trop de données peut la rendre… moins intelligente, l’erreur que redoutent les experts

Des chercheurs d’institutions prestigieuses comme Carnegie Mellon, Stanford, Harvard et Princeton viennent d’alerter sur un phénomène surprenant mais inquiétant : un surentraînement des intelligences artificielles via une masse excessive de données pourrait, paradoxalement, réduire leurs performances. Ce phénomène, qu’ils appellent « surentraînement catastrophique », soulève des préoccupations importantes pour l’avenir de l’IA.

Quand l’intelligence artificielle se fragilise avec trop de données

L’étude menée par ces scientifiques a comparé deux versions du modèle OLMo-1B, un modèle d’intelligence artificielle : l’une a été entraînée avec 2,3 billions de tokens (unités de données), tandis que l’autre a utilisé 3 billions de tokens. À la grande surprise des chercheurs, la version ayant reçu moins de données d’entraînement a montré des performances supérieures de jusqu’à 3 % sur des tests de référence tels que AlpacaEval et ARC.

Pourquoi une telle différence ? Selon les scientifiques, l’augmentation excessive des tokens semble entraîner une fragilité progressive du modèle. En d’autres termes, plus les données augmentent, plus le modèle devient sensible à des ajustements mineurs. Cela signifie que même de légers ajouts ou perturbations peuvent inverser les progrès précédents, réduisant ainsi l’efficacité de l’IA.

Le point d’inflexion : un seuil critique à ne pas franchir

Les chercheurs expliquent qu’il existe un point d’inflexion au-delà duquel l’entraînement devient contre-productif. Ce moment survient généralement au-delà de 2,5 billions de tokens pour des modèles plus petits comme OLMo-1B. Une fois ce seuil franchi, les bénéfices de l’entraînement sont contrebalancés par une instabilité interne, qui peut affecter les résultats des tests. Pour illustrer cette fragilité, les scientifiques ont ajouté du bruit gaussien à des modèles déjà pré-entraînés, ce qui a entraîné une dégradation des performances en fonction de la durée de l’entraînement.

Réfléchir à l’optimisation de l’entraînement

Les scientifiques ne suggèrent pas d’abandonner complètement le pré-entraînement, mais ils appellent à une réflexion plus profonde sur la quantité d’entraînement initiale nécessaire. Selon eux, il est essentiel de recentrer l’attention sur le dimensionnement des modèles et d’optimiser l’ensemble du processus d’entraînement, en prenant en compte les effets à long terme de l’ajout de données.

Les découvertes faites par ces chercheurs montrent qu’une approche plus mesurée et réfléchie dans l’entraînement des IA pourrait prévenir les risques liés à un surentraînement. Ainsi, plutôt que de continuer à accumuler des données sans réfléchir, il est nécessaire de se concentrer sur un ajustement optimal du modèle et de sa capacité à traiter des informations de manière efficace et durable.

Send this to a friend