{"id":34473,"date":"2025-09-15T14:51:47","date_gmt":"2025-09-15T17:51:47","guid":{"rendered":"https:\/\/building.nubank.com\/?p=34473"},"modified":"2025-09-15T18:45:01","modified_gmt":"2025-09-15T21:45:01","slug":"muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales","status":"publish","type":"post","link":"https:\/\/building.nubank.com\/es\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\/","title":{"rendered":"Muon para Mejorar la Eficiencia de Datos en el Preentrenamiento de Modelos Fundamentales"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\"><em><i>Autores: <\/i>Daniel Braithwaite, Arissa Yoshida, Rafael Celente y Aman Gupta<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">En publicaciones anteriores [1,2,3], presentamos el enfoque de Nubank para utilizar modelos fundamentales basados en datos de transacciones con el fin de resolver problemas predictivos [4]. Estos textos describieron c\u00f3mo estructuramos nuestros datos de transacciones para modelos fundamentales [2], c\u00f3mo preentrenamos dichos modelos y, finalmente, c\u00f3mo los ajustamos (joint fusion) para tareas espec\u00edficas [3]. Es importante destacar que observamos grandes avances en tareas cr\u00edticas para Nubank. El resultado m\u00e1s significativo fue que estas mejoras no provinieron del uso de fuentes adicionales de datos, sino del aprendizaje de representaciones \u00f3ptimas de transacciones, en lugar de utilizar features dise\u00f1adas manualmente.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Aunque poderosos, estos modelos fundamentales son costosos de entrenar desde el punto de vista computacional. En Nubank, buscamos constantemente maneras de mejorar la eficiencia de datos, tanto para reducir costos como para construir modelos con mejor desempe\u00f1o. En esta publicaci\u00f3n, exploramos c\u00f3mo un nuevo optimizador, Muon [5], nos est\u00e1 ayudando a alcanzar estos objetivos. Muon ha recibido gran atenci\u00f3n en la comunidad de investigaci\u00f3n en LLMs, especialmente por ser m\u00e1s eficiente en el uso de muestras para alcanzar un nivel de calidad fijo en el preentrenamiento, en comparaci\u00f3n con AdamW (que hasta ahora ha sido la opci\u00f3n est\u00e1ndar en la mayor\u00eda de los entrenamientos de gran escala).<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">La calidad de nuestros modelos fundamentales aumenta en funci\u00f3n de la cantidad de datos utilizados, llegando a m\u00e1s de 203 millones de filas. Por ejemplo, en la Figura 1 mostramos c\u00f3mo el AUC del conjunto de prueba para uno de nuestros modelos m\u00e1s peque\u00f1os (24 millones de par\u00e1metros) escala en funci\u00f3n del n\u00famero de puntos de datos usados en joint fusion. Incluso mejoras peque\u00f1as, como un incremento de 0,05% en el AUC, son altamente valiosas, ya que podr\u00edan significar ahorros de millones de d\u00f3lares para Nubank. Sin embargo, a medida que el AUC mejora, tambi\u00e9n lo hace el costo de entrenamiento. El joint fusion [3] con 5 millones de filas tarda alrededor de 12 horas en 8 GPUs NVIDIA A100, mientras que con 40 millones de filas el tiempo se eleva a aproximadamente 95 horas, usando las mismas 8 A100s.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"417\" data-attachment-id=\"34481\" data-permalink=\"https:\/\/building.nubank.com\/es\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\/image-23\/\" data-orig-file=\"https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-23.png?fit=1600%2C651&amp;ssl=1\" data-orig-size=\"1600,651\" data-comments-opened=\"1\" data-image-meta=\"{&quot;aperture&quot;:&quot;0&quot;,&quot;credit&quot;:&quot;&quot;,&quot;camera&quot;:&quot;&quot;,&quot;caption&quot;:&quot;&quot;,&quot;created_timestamp&quot;:&quot;0&quot;,&quot;copyright&quot;:&quot;&quot;,&quot;focal_length&quot;:&quot;0&quot;,&quot;iso&quot;:&quot;0&quot;,&quot;shutter_speed&quot;:&quot;0&quot;,&quot;title&quot;:&quot;&quot;,&quot;orientation&quot;:&quot;0&quot;}\" data-image-title=\"image\" data-image-description=\"\" data-image-caption=\"\" data-large-file=\"https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-23.png?fit=1024%2C417&amp;ssl=1\" src=\"https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-23.png?resize=1024%2C417&#038;ssl=1\" alt=\"\" class=\"wp-image-34481\" srcset=\"https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-23.png?resize=1024%2C417&amp;ssl=1 1024w, https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-23.png?resize=300%2C122&amp;ssl=1 300w, https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-23.png?resize=768%2C312&amp;ssl=1 768w, https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-23.png?resize=1536%2C625&amp;ssl=1 1536w, https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-23.png?resize=1200%2C488&amp;ssl=1 1200w, https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-23.png?w=1600&amp;ssl=1 1600w\" sizes=\"auto, (max-width: 1000px) 100vw, 1000px\" \/><figcaption class=\"wp-element-caption\">Figura 1 \u2013 La calidad del modelo mejora en funci\u00f3n del tama\u00f1o del dataset<\/figcaption><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">El costo computacional de entrenar estos modelos muestra la importancia de utilizar m\u00e9todos que aumenten la eficiencia de datos. Al mismo tiempo, tambi\u00e9n significa que podemos lograr mejor desempe\u00f1o con el mismo n\u00famero de pasos de entrenamiento. Existen diversos m\u00e9todos para mejorar la eficiencia de datos, pero en esta publicaci\u00f3n exploramos el uso del optimizador Muon [5] para hacer que el preentrenamiento de nuestros modelos fundamentales sea m\u00e1s eficiente. Como consecuencia, estos modelos mejorados generan ahorro de costos y mejor rendimiento de producto para los clientes de Nubank.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">El optimizador Muon [5] representa un cambio significativo frente a los enfoques heur\u00edsticos dominantes como AdamW, al introducir un m\u00e9todo de optimizaci\u00f3n de segundo orden, simple y derivado de principios fundamentales. Dise\u00f1ado espec\u00edficamente para capas lineales densas de redes neuronales, el mecanismo central de Muon puede describirse como un descenso m\u00e1s pronunciado estructurado en matrices, con regularizaci\u00f3n mediante norma espectral. Su operaci\u00f3n fundamental consiste en \u201cortogonalizar\u201d la matriz de gradientes de cada capa de pesos, empujando los valores singulares para que est\u00e9n cercanos a 1. Este proceso preserva la informaci\u00f3n direccional del gradiente mientras normaliza su magnitud en todas las direcciones, evitando que la optimizaci\u00f3n sea dominada por unos pocos componentes ruidosos o poco \u00fatiles. Este concepto, aunque elegante en teor\u00eda, se vuelve pr\u00e1ctico gracias al uso de la iteraci\u00f3n eficiente de Newton-Schulz [6], que aproxima la ortogonalizaci\u00f3n sin el costo computacional prohibitivo de una descomposici\u00f3n SVD completa.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Este dise\u00f1o basado en principios se traduce directamente en ganancias sustanciales de eficiencia, tanto en datos como en c\u00f3mputo. Las actualizaciones de momento ortogonalizado de Muon permiten pasos m\u00e1s estables y directos hacia el m\u00ednimo de la funci\u00f3n de p\u00e9rdida, y posibilitan que el modelo aprenda m\u00e1s de cada token procesado. Los beneficios son significativos tambi\u00e9n desde la perspectiva computacional: experimentos de scaling law muestran consistentemente que Muon puede alcanzar una calidad de modelo comparable a la de modelos entrenados con AdamW, consumiendo solo alrededor de la mitad (~52%) de los FLOPs de entrenamiento, lo que equivale a una mejora de aproximadamente 2x en eficiencia computacional [7,8].<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Para probar nuestra hip\u00f3tesis de que Muon puede generar mejores modelos fundamentales para Nubank, preentrenamos varios modelos de 330 millones de par\u00e1metros en un dataset de 20 millones de muestras. Comparamos el desempe\u00f1o del optimizador Muon contra el ampliamente utilizado AdamW en cuatro tasas de aprendizaje diferentes: 1e-4, 2e-4, 1e-3 y 2e-3. La figura a continuaci\u00f3n muestra estos resultados. Es importante notar que Muon converge significativamente m\u00e1s r\u00e1pido que AdamW y alcanza soluciones con p\u00e9rdidas de validaci\u00f3n menores en todas las tasas de aprendizaje probadas.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"214\" data-attachment-id=\"34475\" data-permalink=\"https:\/\/building.nubank.com\/es\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\/image-20\/\" data-orig-file=\"https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-21.png?fit=1600%2C334&amp;ssl=1\" data-orig-size=\"1600,334\" data-comments-opened=\"1\" data-image-meta=\"{&quot;aperture&quot;:&quot;0&quot;,&quot;credit&quot;:&quot;&quot;,&quot;camera&quot;:&quot;&quot;,&quot;caption&quot;:&quot;&quot;,&quot;created_timestamp&quot;:&quot;0&quot;,&quot;copyright&quot;:&quot;&quot;,&quot;focal_length&quot;:&quot;0&quot;,&quot;iso&quot;:&quot;0&quot;,&quot;shutter_speed&quot;:&quot;0&quot;,&quot;title&quot;:&quot;&quot;,&quot;orientation&quot;:&quot;0&quot;}\" data-image-title=\"image\" data-image-description=\"\" data-image-caption=\"\" data-large-file=\"https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-21.png?fit=1024%2C214&amp;ssl=1\" src=\"https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-21.png?resize=1024%2C214&#038;ssl=1\" alt=\"\" class=\"wp-image-34475\" srcset=\"https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-21.png?resize=1024%2C214&amp;ssl=1 1024w, https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-21.png?resize=300%2C63&amp;ssl=1 300w, https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-21.png?resize=768%2C160&amp;ssl=1 768w, https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-21.png?resize=1536%2C321&amp;ssl=1 1536w, https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-21.png?resize=1200%2C251&amp;ssl=1 1200w, https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-21.png?w=1600&amp;ssl=1 1600w\" sizes=\"auto, (max-width: 1000px) 100vw, 1000px\" \/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Al consolidar todas las ejecuciones en una sola comparaci\u00f3n, observamos que los tres mejores modelos fueron: Muon 1e-3, Muon 2e-3 y AdamW 1e-3. Cabe resaltar que los entrenamientos con Muon convergieron m\u00e1s r\u00e1pido que el mejor resultado obtenido con AdamW. Estos hallazgos confirman nuestra hip\u00f3tesis de que el uso de Muon puede entrenar mejores modelos fundamentales. Un punto adicional: las p\u00e9rdidas de predicci\u00f3n del pr\u00f3ximo token son inusualmente bajas para language modeling, ya que los tokens especializados utilizados en nuestros modelos fundamentales poseen un vocabulario potencial restringido.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"371\" data-attachment-id=\"34478\" data-permalink=\"https:\/\/building.nubank.com\/es\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\/image-21\/\" data-orig-file=\"https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-22.png?fit=1600%2C579&amp;ssl=1\" data-orig-size=\"1600,579\" data-comments-opened=\"1\" data-image-meta=\"{&quot;aperture&quot;:&quot;0&quot;,&quot;credit&quot;:&quot;&quot;,&quot;camera&quot;:&quot;&quot;,&quot;caption&quot;:&quot;&quot;,&quot;created_timestamp&quot;:&quot;0&quot;,&quot;copyright&quot;:&quot;&quot;,&quot;focal_length&quot;:&quot;0&quot;,&quot;iso&quot;:&quot;0&quot;,&quot;shutter_speed&quot;:&quot;0&quot;,&quot;title&quot;:&quot;&quot;,&quot;orientation&quot;:&quot;0&quot;}\" data-image-title=\"image\" data-image-description=\"\" data-image-caption=\"\" data-large-file=\"https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-22.png?fit=1024%2C371&amp;ssl=1\" src=\"https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-22.png?resize=1024%2C371&#038;ssl=1\" alt=\"\" class=\"wp-image-34478\" srcset=\"https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-22.png?resize=1024%2C371&amp;ssl=1 1024w, https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-22.png?resize=300%2C109&amp;ssl=1 300w, https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-22.png?resize=768%2C278&amp;ssl=1 768w, https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-22.png?resize=1536%2C556&amp;ssl=1 1536w, https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-22.png?resize=1200%2C434&amp;ssl=1 1200w, https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/image-22.png?w=1600&amp;ssl=1 1600w\" sizes=\"auto, (max-width: 1000px) 100vw, 1000px\" \/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">En esta publicaci\u00f3n mostramos las ventajas de integrar el optimizador Muon en el pipeline de preentrenamiento de los modelos fundamentales de Nubank. Al adoptar Muon, logramos una convergencia m\u00e1s r\u00e1pida y una calidad de modelos superior en comparaci\u00f3n con AdamW, desbloqueando mejoras en la eficiencia de datos y c\u00f3mputo. Estos avances se traducen directamente en beneficios tangibles para Nubank: reducci\u00f3n de costos de entrenamiento y mejor desempe\u00f1o de producto, lo que, en \u00faltima instancia, brinda una mejor experiencia a nuestros clientes. Nuestros resultados confirman que t\u00e9cnicas de optimizaci\u00f3n sofisticadas como Muon son cruciales para expandir los l\u00edmites de lo posible con modelos fundamentales a gran escala, garantizando que sigamos innovando de manera eficiente y efectiva.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Referencias<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">[1] Braithwaite, D., &amp; Udagawa, H. (2025, March 24). Understanding our customers&#8217; finances through foundation models. Building Nubank. <a href=\"https:\/\/building.nubank.com\/es\/entendiendo-las-finanzas-de-nuestros-clientes-a-traves-de-modelos-fundacionales\/\">https:\/\/building.nubank.com\/understanding-our-customers-finances-through-foundation-models\/<\/a><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">[2] Braithwaite, D., &amp; Udagawa, H. (2025, April 22). Defining an interface between transaction data and foundation models. Building Nubank. <a href=\"https:\/\/building.nubank.com\/es\/definiendo-una-interfaz-entre-los-datos-de-transacciones-y-los-modelos-fundamentales\/\">https:\/\/building.nubank.com\/defining-an-interface-between-transaction-data-and-foundation-models\/<\/a><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">[3] Braithwaite, D., Cavalcanti, M., &amp; Udagawa, H. (2025, May 14). Fine-tuning transaction user models. Building Nubank. <a href=\"https:\/\/building.nubank.com\/es\/ajuste-fino-de-modelos-de-usuario-basados-en-transacciones\/\">https:\/\/building.nubank.com\/fine-tuning-transaction-user-models\/<\/a><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">[4] Braithwaite, D. T., Cavalcanti, M., McEver, R. A., et al (2025). Your Spending Needs Attention: Modeling Financial Habits with Transformers. arXiv preprint <a href=\"https:\/\/arxiv.org\/abs\/2507.23267\">arXiv:2507.23267<\/a>.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">[5] Jordan, K., Jin, Y., Boza, V., You, J., Cesista, F., Newhouse, L., &amp; Bernstein, J. (2024). Muon: An optimizer for hidden layers in neural networks. <a href=\"https:\/\/kellerjordan.github.io\/posts\/muon\/\" rel=\"nofollow\">https:\/\/kellerjordan.github.io\/posts\/muon\/<\/a><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">[6] Bernstein, J., &amp; Newhouse, L. (2024). Old optimizer, new norm: An anthology. arXiv preprint arXiv:2409.20325.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">[7] Shah, I., Polloreno, A. M., Stratos, K., Monk, P., Chaluvaraju, A., Hojel, A., &#8230; &amp; Vaswani, A. (2025). Practical efficiency of muon for pretraining. arXiv preprint arXiv:2505.02222.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">[8] Liu, J., Su, J., Yao, X., Jiang, Z., Lai, G., Du, Y., &#8230; &amp; Yang, Z. (2025). Muon is scalable for LLM training. arXiv preprint arXiv:2502.16982.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Exploramos c\u00f3mo el optimizador Muon, una alternativa innovadora a AdamW, nos ayuda a construir modelos fundacionales m\u00e1s eficientes, con una convergencia m\u00e1s r\u00e1pida y costos reducidos.<\/p>\n","protected":false},"author":178110103,"featured_media":34509,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"_jetpack_newsletter_access":"","_jetpack_dont_email_post_to_subs":false,"_jetpack_newsletter_tier_id":0,"_jetpack_memberships_contains_paywalled_content":false,"_wpcom_ai_launchpad_first_post":false,"_jetpack_feature_clip_id":0,"_jetpack_memberships_contains_paid_content":false,"footnotes":"","jetpack_post_was_ever_published":false},"categories":[778793308,2509,2508],"tags":[2597,2544,2564,2543,2500],"ppma_author":[2321],"class_list":["post-34473","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ai-research-es","category-data-analytics-es","category-data-science-machine-learning-es","tag-engineering-culture-es","tag-inteligencia-artificial-es","tag-large-language-models-es","tag-machine-learning-es","tag-software-engineering-es"],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.9 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Muon para Mejorar la Eficiencia de Datos en el Preentrenamiento de Modelos Fundamentales - Building Nubank<\/title>\n<meta name=\"description\" content=\"Exploramos c\u00f3mo el optimizador Muon, una alternativa innovadora a AdamW, nos ayuda a construir modelos fundacionales m\u00e1s eficientes, con una convergencia m\u00e1s r\u00e1pida y costos reducidos.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/building.nubank.com\/es\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\/\" \/>\n<meta property=\"og:locale\" content=\"es_ES\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Muon para Mejorar la Eficiencia de Datos en el Preentrenamiento de Modelos Fundamentales - Building Nubank\" \/>\n<meta property=\"og:description\" content=\"Exploramos c\u00f3mo el optimizador Muon, una alternativa innovadora a AdamW, nos ayuda a construir modelos fundacionales m\u00e1s eficientes, con una convergencia m\u00e1s r\u00e1pida y costos reducidos.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/building.nubank.com\/es\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\/\" \/>\n<meta property=\"og:site_name\" content=\"Building Nubank\" \/>\n<meta property=\"article:published_time\" content=\"2025-09-15T17:51:47+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2025-09-15T21:45:01+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/building.nubank.com\/wp-content\/uploads\/2025\/09\/Screenshot-2025-09-15-at-15.20.58-2.png\" \/>\n\t<meta property=\"og:image:width\" content=\"1534\" \/>\n\t<meta property=\"og:image:height\" content=\"655\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/png\" \/>\n<meta name=\"author\" content=\"Nubank Editorial\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Escrito por\" \/>\n\t<meta name=\"twitter:data1\" content=\"Nubank Editorial\" \/>\n\t<meta name=\"twitter:label2\" content=\"Tiempo de lectura\" \/>\n\t<meta name=\"twitter:data2\" content=\"6 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\\\/\\\/building.nubank.com\\\/es\\\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\\\/#article\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/building.nubank.com\\\/es\\\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\\\/\"},\"author\":{\"name\":\"Nubank Editorial\",\"@id\":\"https:\\\/\\\/building.nubank.com\\\/es\\\/#\\\/schema\\\/person\\\/462f4f5a8d4ec3ccbc3d661dde00f0a4\"},\"headline\":\"Muon para Mejorar la Eficiencia de Datos en el Preentrenamiento de Modelos Fundamentales\",\"datePublished\":\"2025-09-15T17:51:47+00:00\",\"dateModified\":\"2025-09-15T21:45:01+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\\\/\\\/building.nubank.com\\\/es\\\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\\\/\"},\"wordCount\":1251,\"commentCount\":0,\"image\":{\"@id\":\"https:\\\/\\\/building.nubank.com\\\/es\\\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/i0.wp.com\\\/building.nubank.com\\\/wp-content\\\/uploads\\\/2025\\\/09\\\/Screenshot-2025-09-15-at-15.20.58-2.png?fit=1534%2C655&ssl=1\",\"keywords\":[\"Engineering culture\",\"inteligencia artificial\",\"large language models\",\"machine learning\",\"Software engineering\"],\"articleSection\":[\"AI Research\",\"Data &amp; Analytics\",\"Data Science &amp; Machine Learning\"],\"inLanguage\":\"es\",\"potentialAction\":[{\"@type\":\"CommentAction\",\"name\":\"Comment\",\"target\":[\"https:\\\/\\\/building.nubank.com\\\/es\\\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\\\/#respond\"]}]},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/building.nubank.com\\\/es\\\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\\\/\",\"url\":\"https:\\\/\\\/building.nubank.com\\\/es\\\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\\\/\",\"name\":\"Muon para Mejorar la Eficiencia de Datos en el Preentrenamiento de Modelos Fundamentales - Building Nubank\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/building.nubank.com\\\/es\\\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\\\/\\\/building.nubank.com\\\/es\\\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\\\/#primaryimage\"},\"image\":{\"@id\":\"https:\\\/\\\/building.nubank.com\\\/es\\\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/i0.wp.com\\\/building.nubank.com\\\/wp-content\\\/uploads\\\/2025\\\/09\\\/Screenshot-2025-09-15-at-15.20.58-2.png?fit=1534%2C655&ssl=1\",\"datePublished\":\"2025-09-15T17:51:47+00:00\",\"dateModified\":\"2025-09-15T21:45:01+00:00\",\"author\":{\"@id\":\"https:\\\/\\\/building.nubank.com\\\/es\\\/#\\\/schema\\\/person\\\/462f4f5a8d4ec3ccbc3d661dde00f0a4\"},\"description\":\"Exploramos c\u00f3mo el optimizador Muon, una alternativa innovadora a AdamW, nos ayuda a construir modelos fundacionales m\u00e1s eficientes, con una convergencia m\u00e1s r\u00e1pida y costos reducidos.\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/building.nubank.com\\\/es\\\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\\\/#breadcrumb\"},\"inLanguage\":\"es\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/building.nubank.com\\\/es\\\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\\\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\\\/\\\/building.nubank.com\\\/es\\\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\\\/#primaryimage\",\"url\":\"https:\\\/\\\/i0.wp.com\\\/building.nubank.com\\\/wp-content\\\/uploads\\\/2025\\\/09\\\/Screenshot-2025-09-15-at-15.20.58-2.png?fit=1534%2C655&ssl=1\",\"contentUrl\":\"https:\\\/\\\/i0.wp.com\\\/building.nubank.com\\\/wp-content\\\/uploads\\\/2025\\\/09\\\/Screenshot-2025-09-15-at-15.20.58-2.png?fit=1534%2C655&ssl=1\",\"width\":1534,\"height\":655,\"caption\":\"Muon for Improved Foundation Model Pretraining Data Efficiency\"},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/building.nubank.com\\\/es\\\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\\\/\\\/building.nubank.com\\\/es\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Muon para Mejorar la Eficiencia de Datos en el Preentrenamiento de Modelos Fundamentales\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/building.nubank.com\\\/es\\\/#website\",\"url\":\"https:\\\/\\\/building.nubank.com\\\/es\\\/\",\"name\":\"Building Nubank\",\"description\":\"We make the extraordinary happen\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/building.nubank.com\\\/es\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"es\"},{\"@type\":\"Person\",\"@id\":\"https:\\\/\\\/building.nubank.com\\\/es\\\/#\\\/schema\\\/person\\\/462f4f5a8d4ec3ccbc3d661dde00f0a4\",\"name\":\"Nubank Editorial\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/8c056170dc75ffd365b306a0ac7bea4e51d1cdab52a0c84e6ba0a42f7e2f4633?s=96&d=identicon&r=g0a78bc815f2126d9ba65b2af185671f1\",\"url\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/8c056170dc75ffd365b306a0ac7bea4e51d1cdab52a0c84e6ba0a42f7e2f4633?s=96&d=identicon&r=g\",\"contentUrl\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/8c056170dc75ffd365b306a0ac7bea4e51d1cdab52a0c84e6ba0a42f7e2f4633?s=96&d=identicon&r=g\",\"caption\":\"Nubank Editorial\"},\"url\":\"https:\\\/\\\/building.nubank.com\\\/es\\\/author\\\/editorial\\\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Muon para Mejorar la Eficiencia de Datos en el Preentrenamiento de Modelos Fundamentales - Building Nubank","description":"Exploramos c\u00f3mo el optimizador Muon, una alternativa innovadora a AdamW, nos ayuda a construir modelos fundacionales m\u00e1s eficientes, con una convergencia m\u00e1s r\u00e1pida y costos reducidos.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/building.nubank.com\/es\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\/","og_locale":"es_ES","og_type":"article","og_title":"Muon para Mejorar la Eficiencia de Datos en el Preentrenamiento de Modelos Fundamentales - Building Nubank","og_description":"Exploramos c\u00f3mo el optimizador Muon, una alternativa innovadora a AdamW, nos ayuda a construir modelos fundacionales m\u00e1s eficientes, con una convergencia m\u00e1s r\u00e1pida y costos reducidos.","og_url":"https:\/\/building.nubank.com\/es\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\/","og_site_name":"Building Nubank","article_published_time":"2025-09-15T17:51:47+00:00","article_modified_time":"2025-09-15T21:45:01+00:00","og_image":[{"width":1534,"height":655,"url":"https:\/\/building.nubank.com\/wp-content\/uploads\/2025\/09\/Screenshot-2025-09-15-at-15.20.58-2.png","type":"image\/png"}],"author":"Nubank Editorial","twitter_card":"summary_large_image","twitter_misc":{"Escrito por":"Nubank Editorial","Tiempo de lectura":"6 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/building.nubank.com\/es\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\/#article","isPartOf":{"@id":"https:\/\/building.nubank.com\/es\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\/"},"author":{"name":"Nubank Editorial","@id":"https:\/\/building.nubank.com\/es\/#\/schema\/person\/462f4f5a8d4ec3ccbc3d661dde00f0a4"},"headline":"Muon para Mejorar la Eficiencia de Datos en el Preentrenamiento de Modelos Fundamentales","datePublished":"2025-09-15T17:51:47+00:00","dateModified":"2025-09-15T21:45:01+00:00","mainEntityOfPage":{"@id":"https:\/\/building.nubank.com\/es\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\/"},"wordCount":1251,"commentCount":0,"image":{"@id":"https:\/\/building.nubank.com\/es\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\/#primaryimage"},"thumbnailUrl":"https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/Screenshot-2025-09-15-at-15.20.58-2.png?fit=1534%2C655&ssl=1","keywords":["Engineering culture","inteligencia artificial","large language models","machine learning","Software engineering"],"articleSection":["AI Research","Data &amp; Analytics","Data Science &amp; Machine Learning"],"inLanguage":"es","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/building.nubank.com\/es\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/building.nubank.com\/es\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\/","url":"https:\/\/building.nubank.com\/es\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\/","name":"Muon para Mejorar la Eficiencia de Datos en el Preentrenamiento de Modelos Fundamentales - Building Nubank","isPartOf":{"@id":"https:\/\/building.nubank.com\/es\/#website"},"primaryImageOfPage":{"@id":"https:\/\/building.nubank.com\/es\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\/#primaryimage"},"image":{"@id":"https:\/\/building.nubank.com\/es\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\/#primaryimage"},"thumbnailUrl":"https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/Screenshot-2025-09-15-at-15.20.58-2.png?fit=1534%2C655&ssl=1","datePublished":"2025-09-15T17:51:47+00:00","dateModified":"2025-09-15T21:45:01+00:00","author":{"@id":"https:\/\/building.nubank.com\/es\/#\/schema\/person\/462f4f5a8d4ec3ccbc3d661dde00f0a4"},"description":"Exploramos c\u00f3mo el optimizador Muon, una alternativa innovadora a AdamW, nos ayuda a construir modelos fundacionales m\u00e1s eficientes, con una convergencia m\u00e1s r\u00e1pida y costos reducidos.","breadcrumb":{"@id":"https:\/\/building.nubank.com\/es\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\/#breadcrumb"},"inLanguage":"es","potentialAction":[{"@type":"ReadAction","target":["https:\/\/building.nubank.com\/es\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\/"]}]},{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/building.nubank.com\/es\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\/#primaryimage","url":"https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/Screenshot-2025-09-15-at-15.20.58-2.png?fit=1534%2C655&ssl=1","contentUrl":"https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/Screenshot-2025-09-15-at-15.20.58-2.png?fit=1534%2C655&ssl=1","width":1534,"height":655,"caption":"Muon for Improved Foundation Model Pretraining Data Efficiency"},{"@type":"BreadcrumbList","@id":"https:\/\/building.nubank.com\/es\/muon-para-mejorar-la-eficiencia-de-datos-en-el-preentrenamiento-de-modelos-fundamentales\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/building.nubank.com\/es\/"},{"@type":"ListItem","position":2,"name":"Muon para Mejorar la Eficiencia de Datos en el Preentrenamiento de Modelos Fundamentales"}]},{"@type":"WebSite","@id":"https:\/\/building.nubank.com\/es\/#website","url":"https:\/\/building.nubank.com\/es\/","name":"Building Nubank","description":"We make the extraordinary happen","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/building.nubank.com\/es\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"es"},{"@type":"Person","@id":"https:\/\/building.nubank.com\/es\/#\/schema\/person\/462f4f5a8d4ec3ccbc3d661dde00f0a4","name":"Nubank Editorial","image":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/secure.gravatar.com\/avatar\/8c056170dc75ffd365b306a0ac7bea4e51d1cdab52a0c84e6ba0a42f7e2f4633?s=96&d=identicon&r=g0a78bc815f2126d9ba65b2af185671f1","url":"https:\/\/secure.gravatar.com\/avatar\/8c056170dc75ffd365b306a0ac7bea4e51d1cdab52a0c84e6ba0a42f7e2f4633?s=96&d=identicon&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/8c056170dc75ffd365b306a0ac7bea4e51d1cdab52a0c84e6ba0a42f7e2f4633?s=96&d=identicon&r=g","caption":"Nubank Editorial"},"url":"https:\/\/building.nubank.com\/es\/author\/editorial\/"}]}},"jetpack_featured_media_url":"https:\/\/i0.wp.com\/building.nubank.com\/wp-content\/uploads\/2025\/09\/Screenshot-2025-09-15-at-15.20.58-2.png?fit=1534%2C655&ssl=1","jetpack_shortlink":"https:\/\/wp.me\/pbKBB5-8Y1","jetpack_sharing_enabled":true,"authors":[{"term_id":2321,"user_id":178110103,"is_guest":0,"slug":"editorial","display_name":"Nubank Editorial","avatar_url":"https:\/\/secure.gravatar.com\/avatar\/8c056170dc75ffd365b306a0ac7bea4e51d1cdab52a0c84e6ba0a42f7e2f4633?s=96&d=identicon&r=g","0":null,"1":"","2":"","3":"","4":"","5":"","6":"","7":"","8":""}],"_links":{"self":[{"href":"https:\/\/building.nubank.com\/es\/wp-json\/wp\/v2\/posts\/34473","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/building.nubank.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/building.nubank.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/building.nubank.com\/es\/wp-json\/wp\/v2\/users\/178110103"}],"replies":[{"embeddable":true,"href":"https:\/\/building.nubank.com\/es\/wp-json\/wp\/v2\/comments?post=34473"}],"version-history":[{"count":6,"href":"https:\/\/building.nubank.com\/es\/wp-json\/wp\/v2\/posts\/34473\/revisions"}],"predecessor-version":[{"id":34525,"href":"https:\/\/building.nubank.com\/es\/wp-json\/wp\/v2\/posts\/34473\/revisions\/34525"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/building.nubank.com\/es\/wp-json\/wp\/v2\/media\/34509"}],"wp:attachment":[{"href":"https:\/\/building.nubank.com\/es\/wp-json\/wp\/v2\/media?parent=34473"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/building.nubank.com\/es\/wp-json\/wp\/v2\/categories?post=34473"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/building.nubank.com\/es\/wp-json\/wp\/v2\/tags?post=34473"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/building.nubank.com\/es\/wp-json\/wp\/v2\/ppma_author?post=34473"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}