L'article Character.ai Dévoile des Techniques Efficaces pour le Préentraînement à Grande Échelle est paru sur BitcoinEthereumNews.com. Tony Kim 23 déc. 2025 21h56 Character.aiL'article Character.ai Dévoile des Techniques Efficaces pour le Préentraînement à Grande Échelle est paru sur BitcoinEthereumNews.com. Tony Kim 23 déc. 2025 21h56 Character.ai

Character.ai dévoile des techniques efficaces pour le pré-entraînement à grande échelle



Tony Kim
23 décembre 2025 21h56

Character.ai révèle des méthodes innovantes pour optimiser le préentraînement à grande échelle, en se concentrant sur des techniques telles que Squinch, le bridage dynamique et Gumbel Softmax, afin d'améliorer l'efficacité de l'entraînement des modèles d'IA.

Character.ai, un acteur notable dans le domaine de l'IA, a récemment partagé des informations sur ses premiers efforts pour optimiser l'entraînement des transformers à grande échelle. L'entreprise, qui a depuis réorienté son attention vers les fondations de modèles open-source, a initialement exploré diverses techniques pour améliorer l'efficacité et la vitesse d'entraînement, selon le blog de Character.AI.

Compression de gradient : Squinch

L'une des innovations clés mises en avant dans les efforts de Character.ai est un algorithme de compression de gradient connu sous le nom de Squinch. Développée par le cofondateur Noam Shazeer, cette technique de compression 6 bits a été conçue pour réduire considérablement la bande passante de communication lors de l'entraînement distribué tout en maintenant la précision du modèle. L'algorithme compresse efficacement les gradients à 6 bits par élément, optimisant ainsi l'utilisation de la bande passante des clusters d'entraînement.

Régularisation de précision : Attention Z-Reg

Character.ai a également développé Attention Z-Reg, une méthode de régularisation appliquée aux logits d'attention pour assurer la stabilité numérique. Cette technique aide à maintenir la précision des représentations bfloat16, cruciale pour optimiser l'entraînement de grands modèles.

Stabilité de quantification : Bridage dynamique

Le bridage dynamique est une autre technique employée pour améliorer la stabilité de quantification. Il empêche les petites valeurs d'activation de s'effondrer à zéro en calculant dynamiquement la plage de bridage en fonction de la racine carrée moyenne des poids d'entrée. Cette méthode améliore la stabilité de l'entraînement en réduisant les erreurs de quantification.

API d'attention efficace : Masque de visibilité

L'introduction du masque de visibilité, un outil pour représenter les relations entre tokens pendant l'entraînement et l'inférence, a amélioré l'efficacité des systèmes d'entraînement. Cette API aide à gérer les plages d'attention au sein des lots, en prenant en charge les relations de documents structurés en arbre et l'attention bidirectionnelle.

Optimisation de la distillation : Gumbel Softmax

Dans le domaine de la distillation de modèles, Character.ai a exploité la technique Gumbel Softmax pour réduire les coûts de stockage et de bande passante tout en maintenant la fidélité des modèles enseignants. Cette approche implique l'échantillonnage de sous-ensembles de sorties de modèles enseignants, préservant les valeurs cibles douces pour un entraînement de modèle étudiant plus efficace.

Les efforts de Character.ai pour optimiser le préentraînement ont ouvert la voie à un entraînement de modèles d'IA plus efficace, même si l'entreprise s'oriente vers l'apprentissage par renforcement post-entraînement pour les modèles open-source. Ces techniques, notamment Squinch et Gumbel Softmax, soulignent l'engagement de l'entreprise à faire progresser l'efficacité et l'évolutivité de l'IA.

Source de l'image : Shutterstock

Source : https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining

Opportunité de marché
Logo de Sleepless AI
Cours Sleepless AI(AI)
$0.0374
$0.0374$0.0374
+0.37%
USD
Graphique du prix de Sleepless AI (AI) en temps réel
Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter service@support.mexc.com pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.