La publicación Character.ai presenta técnicas eficientes para preentrenamiento a gran escala apareció en BitcoinEthereumNews.com. Tony Kim 23 dic 2025 21:56 Character.aiLa publicación Character.ai presenta técnicas eficientes para preentrenamiento a gran escala apareció en BitcoinEthereumNews.com. Tony Kim 23 dic 2025 21:56 Character.ai

Character.ai presenta técnicas eficientes para preentrenamiento a gran escala



Tony Kim
23 de diciembre de 2025 21:56

Character.ai revela métodos innovadores para optimizar el preentrenamiento a gran escala, enfocándose en técnicas como Squinch, sujeción dinámica y Gumbel Softmax, para mejorar la eficiencia en el entrenamiento de modelos de IA.

Character.ai, un actor notable en el espacio de la IA, ha compartido recientemente información sobre sus esfuerzos iniciales para optimizar el entrenamiento de transformers a gran escala. La compañía, que desde entonces ha cambiado su enfoque hacia fundaciones de modelos de código abierto, originalmente exploró diversas técnicas para mejorar la eficiencia y velocidad del entrenamiento, según el Blog de Character.AI.

Compresión de Gradiente: Squinch

Una de las innovaciones clave destacadas en los esfuerzos de Character.ai es un algoritmo de compresión de gradiente conocido como Squinch. Desarrollado por el cofundador Noam Shazeer, esta técnica de compresión de 6 bits fue diseñada para reducir significativamente el ancho de banda de comunicación durante el entrenamiento distribuido mientras se mantiene la precisión del modelo. El algoritmo comprime efectivamente los gradientes a 6 bits por elemento, optimizando el uso del ancho de banda de los clústeres de entrenamiento.

Regularización de Precisión: Attention Z-Reg

Character.ai también desarrolló Attention Z-Reg, un método de regularización aplicado a los logits de atención para garantizar la estabilidad numérica. Esta técnica ayuda a mantener la precisión de las representaciones bfloat16, crucial para optimizar el entrenamiento de modelos grandes.

Estabilidad de Cuantización: Sujeción Dinámica

La Sujeción Dinámica es otra técnica empleada para mejorar la estabilidad de cuantización. Previene que los valores de activación pequeños colapsen a cero al calcular dinámicamente el rango de sujeción basado en la raíz cuadrada media de los pesos de entrada. Este método mejora la estabilidad del entrenamiento al reducir los errores de cuantización.

API de Atención Eficiente: Visibility Mask

La introducción del Visibility Mask, una herramienta para representar relaciones entre tokens durante el entrenamiento y la inferencia, ha mejorado la eficiencia de los sistemas de entrenamiento. Esta API ayuda a gestionar rangos de atención dentro de lotes, soportando relaciones de documentos estructurados en árbol y atención bidireccional.

Optimización de Destilación: Gumbel Softmax

En el ámbito de la destilación de modelos, Character.ai ha aprovechado la técnica Gumbel Softmax para reducir los costos de almacenamiento y ancho de banda mientras mantiene la fidelidad de los modelos maestros. Este enfoque implica muestrear subconjuntos de salidas del modelo maestro, preservando valores objetivo suaves para un entrenamiento más eficiente del modelo estudiante.

Los esfuerzos de Character.ai en optimizar el preentrenamiento han allanado el camino para un entrenamiento de modelos de IA más eficiente, incluso mientras la compañía se orienta hacia el aprendizaje por refuerzo post-entrenamiento para modelos de código abierto. Estas técnicas, incluyendo Squinch y Gumbel Softmax, subrayan el compromiso de la compañía con el avance de la eficiencia y escalabilidad de la IA.

Fuente de imagen: Shutterstock

Fuente: https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección service@support.mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.

También te puede interesar

¡No caigas en el “Torito”! Ponen en marcha el alcoholímetro durante fiestas decembrinas

¡No caigas en el “Torito”! Ponen en marcha el alcoholímetro durante fiestas decembrinas

El Programa Alcoholímetro, Jornadas Decembrinas comenzó hace 11 días y hasta el momento se han remitido a 800 conductores al Centro de Sanciones Administrativas
Compartir
Adn402025/12/25 08:29
El acuerdo comercial de la UE con EE.UU. no se ha traducido en un mayor gasto en importaciones de energía

El acuerdo comercial de la UE con EE.UU. no se ha traducido en un mayor gasto en importaciones de energía

La UE comunicó al presidente Donald Trump que gastaría 750.000 millones de dólares en energía estadounidense durante los próximos tres años. Ese compromiso se hizo alto y claro cuando ambas partes
Compartir
Cryptopolitan2025/12/25 08:22
El reciente repunte de Solana (SOL) puede impresionar, pero los inversores que buscan un ROI que cambie sus vidas están mirando a otro lado

El reciente repunte de Solana (SOL) puede impresionar, pero los inversores que buscan un ROI que cambie sus vidas están mirando a otro lado

La publicación El reciente rally de Solana (SOL) puede impresionar, pero los inversores que buscan un ROI que cambie sus vidas están mirando a otro lado apareció en BitcoinEthereumNews.com. El último rally de Solana (SOL) ha atraído a inversores de todas partes, pero la historia más importante para los inversores con visión de futuro es hacia dónde se dirigen las próximas oleadas de rendimientos que pueden cambiar vidas. A medida que Solana continúa viendo altos niveles de uso del ecosistema y utilización de la red, el escenario se está preparando lentamente para Mutuum Finance (MUTM). MUTM tiene un precio de $0.035 en su preventa de rápido crecimiento. Una apreciación de precio del 14.3% es lo que los inversores van a anticipar en la siguiente fase. Se han recaudado más de $15.85 millones mientras la preventa sigue ganando impulso. A diferencia de la mayoría de los tokens que surfean olas de prelanzamiento a corto plazo, Mutuum Finance se está convirtiendo en una opción centrada en la utilidad con mayor potencial de valor y, por lo tanto, una opción cada vez mejor para inversores que buscan más que solo acción de precios. Solana mantiene ganancias cerca de $234 mientras persiste la especulación Solana (SOL) cotiza actualmente a $234.08, manteniendo su rango de 24 horas alrededor de $234.42 a $248.19 mientras ilustra la tendencia reciente. El token ha registrado fuertes ganancias de siete días de casi 13%, superando con creces a la mayoría de sus pares, respaldado por el aumento de volumen y compras institucionales. La resistencia está en $250-$260, y el soporte parece estar en $220-$230, por lo que estos son niveles significativos para un posible breakout o retroceso. Sin embargo, la nueva criptomoneda DeFi Mutuum Finance, está siendo considerada por los observadores del mercado como con mayor potencial alcista, estando todavía en preventa. Preventa Fase 6 de Mutuum Finance Mutuum Finance se encuentra actualmente en la Etapa 6 de Preventa y ofrece tokens por $0.035. La preventa ha avanzado muy rápido, y los inversores han recaudado más de $15.85 millones. El proyecto también espera una stablecoin vinculada al USD en la blockchain Ethereum para pagos convenientes y como guardián de valor a largo plazo. Mutuum Finance es una plataforma DeFi de préstamos dual y multipropósito que beneficia tanto a prestatarios como a prestamistas. Proporciona la red tanto para minoristas como...
Compartir
BitcoinEthereumNews2025/09/18 06:23