Character.ai dévoile des techniques efficaces pour le pré-entraînement à grande échelle

Tony Kim
23 décembre 2025 21h56

Character.ai révèle des méthodes innovantes pour optimiser le préentraînement à grande échelle, en se concentrant sur des techniques telles que Squinch, le bridage dynamique et Gumbel Softmax, afin d'améliorer l'efficacité de l'entraînement des modèles d'IA.

Character.ai, un acteur notable dans le domaine de l'IA, a récemment partagé des informations sur ses premiers efforts pour optimiser l'entraînement des transformers à grande échelle. L'entreprise, qui a depuis réorienté son attention vers les fondations de modèles open-source, a initialement exploré diverses techniques pour améliorer l'efficacité et la vitesse d'entraînement, selon le blog de Character.AI.

Compression de gradient : Squinch

L'une des innovations clés mises en avant dans les efforts de Character.ai est un algorithme de compression de gradient connu sous le nom de Squinch. Développée par le cofondateur Noam Shazeer, cette technique de compression 6 bits a été conçue pour réduire considérablement la bande passante de communication lors de l'entraînement distribué tout en maintenant la précision du modèle. L'algorithme compresse efficacement les gradients à 6 bits par élément, optimisant ainsi l'utilisation de la bande passante des clusters d'entraînement.

Régularisation de précision : Attention Z-Reg

Character.ai a également développé Attention Z-Reg, une méthode de régularisation appliquée aux logits d'attention pour assurer la stabilité numérique. Cette technique aide à maintenir la précision des représentations bfloat16, cruciale pour optimiser l'entraînement de grands modèles.

Stabilité de quantification : Bridage dynamique

Le bridage dynamique est une autre technique employée pour améliorer la stabilité de quantification. Il empêche les petites valeurs d'activation de s'effondrer à zéro en calculant dynamiquement la plage de bridage en fonction de la racine carrée moyenne des poids d'entrée. Cette méthode améliore la stabilité de l'entraînement en réduisant les erreurs de quantification.

API d'attention efficace : Masque de visibilité

L'introduction du masque de visibilité, un outil pour représenter les relations entre tokens pendant l'entraînement et l'inférence, a amélioré l'efficacité des systèmes d'entraînement. Cette API aide à gérer les plages d'attention au sein des lots, en prenant en charge les relations de documents structurés en arbre et l'attention bidirectionnelle.

Optimisation de la distillation : Gumbel Softmax

Dans le domaine de la distillation de modèles, Character.ai a exploité la technique Gumbel Softmax pour réduire les coûts de stockage et de bande passante tout en maintenant la fidélité des modèles enseignants. Cette approche implique l'échantillonnage de sous-ensembles de sorties de modèles enseignants, préservant les valeurs cibles douces pour un entraînement de modèle étudiant plus efficace.

Les efforts de Character.ai pour optimiser le préentraînement ont ouvert la voie à un entraînement de modèles d'IA plus efficace, même si l'entreprise s'oriente vers l'apprentissage par renforcement post-entraînement pour les modèles open-source. Ces techniques, notamment Squinch et Gumbel Softmax, soulignent l'engagement de l'entreprise à faire progresser l'efficacité et l'évolutivité de l'IA.

Source de l'image : Shutterstock

Source : https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining

Character.ai dévoile des techniques efficaces pour le pré-entraînement à grande échelle

Compression de gradient : Squinch

Régularisation de précision : Attention Z-Reg

Stabilité de quantification : Bridage dynamique

API d'attention efficace : Masque de visibilité

Optimisation de la distillation : Gumbel Softmax

Vous aimerez peut-être aussi

Les FAI philippins bloquent les principales plateformes d'échange de cryptos en raison des règles de licence

Meilleure Crypto À Acheter Maintenant – Prévision du Prix de Russell

Prévision du prix de Solana : 100 $ est-il le prochain objectif alors que SOL prolonge sa baisse ?

Actualités tendance

Les FAI philippins bloquent les principales plateformes d'échange de cryptos en raison des règles de licence

Meilleure Crypto À Acheter Maintenant – Prévision du Prix de Russell

Prévision du prix de Solana : 100 $ est-il le prochain objectif alors que SOL prolonge sa baisse ?

BlackRock transfère 200 millions de dollars en Bitcoin et 29 millions de dollars en Ethereum vers Coinbase Prime

Les entreprises médiatiques européennes se préparent à une année 2026 difficile alors que la publicité décline et que l'IA perturbe le secteur

Prix des cryptomonnaies