O artigo Character.ai Unveils Efficient Techniques for Large-Scale Pretraining apareceu em BitcoinEthereumNews.com. Tony Kim 23 de dez. de 2025 21:56 Character.aiO artigo Character.ai Unveils Efficient Techniques for Large-Scale Pretraining apareceu em BitcoinEthereumNews.com. Tony Kim 23 de dez. de 2025 21:56 Character.ai

Character.ai revela técnicas eficientes para pré-treino em grande escala



Tony Kim
23 de dez de 2025 21:56

A Character.ai revela métodos inovadores para otimizar o pré-treino em larga escala, focando em técnicas como Squinch, dynamic clamping e Gumbel Softmax, para melhorar a eficiência no treino de modelos de IA.

A Character.ai, um interveniente notável no espaço da IA, partilhou recentemente insights sobre os seus primeiros esforços para otimizar o treino de transformers em larga escala. A empresa, que desde então mudou o seu foco para fundações de modelos open-source, explorou originalmente várias técnicas para melhorar a eficiência e velocidade de treino, de acordo com o Character.AI Blog.

Compressão de Gradiente: Squinch

Uma das principais inovações destacadas nos esforços da Character.ai é um algoritmo de compressão de gradiente conhecido como Squinch. Desenvolvido pelo cofundador Noam Shazeer, esta técnica de compressão de 6 bits foi concebida para reduzir significativamente a largura de banda de comunicação durante o treino distribuído, mantendo a precisão do modelo. O algoritmo comprime efetivamente os gradientes para 6 bits por elemento, otimizando o uso da largura de banda dos clusters de treino.

Regularização de Precisão: Attention Z-Reg

A Character.ai também desenvolveu o Attention Z-Reg, um método de regularização aplicado aos logits de atenção para garantir estabilidade numérica. Esta técnica ajuda a manter a precisão das representações bfloat16, crucial para otimizar o treino de modelos grandes.

Estabilidade de Quantização: Dynamic Clamping

O Dynamic Clamping é outra técnica empregue para melhorar a estabilidade de quantização. Previne que valores de ativação pequenos colapsem para zero ao calcular dinamicamente o intervalo de clamping baseado na raiz quadrada média dos pesos de entrada. Este método melhora a estabilidade de treino ao reduzir erros de quantização.

API de Atenção Eficiente: Visibility Mask

A introdução do Visibility Mask, uma ferramenta para representar relações entre tokens durante o treino e inferência, melhorou a eficiência dos sistemas de treino. Esta API ajuda a gerir intervalos de atenção dentro de lotes, suportando relações de documentos estruturadas em árvore e atenção bidirecional.

Otimização de Destilação: Gumbel Softmax

No domínio da destilação de modelos, a Character.ai aproveitou a técnica Gumbel Softmax para reduzir custos de armazenamento e largura de banda mantendo a fidelidade dos modelos professor. Esta abordagem envolve a amostragem de subconjuntos de outputs do modelo professor, preservando valores de alvos soft para um treino de modelo estudante mais eficiente.

Os esforços da Character.ai na otimização do pré-treino abriram caminho para um treino de modelos de IA mais eficiente, mesmo quando a empresa muda para aprendizagem por reforço pós-treino para modelos open-source. Estas técnicas, incluindo Squinch e Gumbel Softmax, sublinham o compromisso da empresa em avançar a eficiência e escalabilidade da IA.

Fonte da imagem: Shutterstock

Fonte: https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining

Oportunidade de mercado
Logo de Sleepless AI
Cotação Sleepless AI (AI)
$0.03731
$0.03731$0.03731
+1.91%
USD
Gráfico de preço em tempo real de Sleepless AI (AI)
Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail service@support.mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.