Alibaba lanza Qwen2.5-Max, su modelo de IA de código abierto con arquitectura MoE

Ciudad de México  

Patricia Manero (NotiPress/Composición)

Alibaba lanza Qwen2.5-Max, su modelo de IA de código abierto más potente hasta la fecha

 

La compañía china Alibaba presentó su nuevo modelo de inteligencia artificial, Qwen2.5-Max, basado en arquitectura Mezcla de Expertos (MoE) y desarrollado como una alternativa de código abierto. Según la empresa, este modelo demostró un rendimiento superior a DeepSeek V3 y GPT-4o en pruebas de conocimiento general, programación y resolución de problemas.

Qwen2.5-Max fue preentrenado con más de 20 billones de tokens y optimizado mediante Ajuste Fino Supervisado (SFT) y Aprendizaje de Refuerzo con Retroalimentación Humana (RLHF). Su principal innovación es el uso de redes secundarias especializadas, lo que mejora la eficiencia en el procesamiento de datos y reduce la demanda computacional.

De acuerdo con la compañía, la arquitectura MoE permite desarrollar modelos de IA de gran tamaño con menor consumo de recursos, facilitando su adaptación a distintos tipos de tareas. "El lanzamiento de DeepSeek V3 ha atraído la atención de toda la comunidad de IA hacia los modelos MoE. Sin embargo, los investigadores y la industria tienen una experiencia limitada para llevar a gran escala este tipo de algoritmos", explicó Alibaba.

Para medir su desempeño, Alibaba evaluó Qwen2.5-Max en diversas pruebas de referencia, incluyendo:

Los ingenieros compararon los resultados con modelos como DeepSeek V3, Llama-3.1-405B, Qwen2.5-72B, GPT-4o y Claude-3.5-Sonnet, concluyendo que Qwen2.5-Max obtuvo los mejores puntajes en todas las métricas evaluadas.

Según lo adelantado, Qwen2.5-Max es un modelo de código abierto y su API está disponible para desarrolladores a través de Alibaba Cloud. Además, los usuarios pueden probar sus capacidades mediante Qwen Chat, un bot conversacional que ofrece funciones como búsqueda en la web y generación de contenido multimedia, similar a ChatGPT y DeepSeek.

El lanzamiento se produce en un contexto de creciente competencia en la industria de IA. Recientemente, DeepSeek captó atención con su modelo DeepSeek-R1, diseñado para ofrecer costos significativamente más bajos en comparación con otros modelos de razonamiento avanzado.

Según estimaciones, el costo de entrenamiento de DeepSeek-R1 fue de aproximadamente 6 millones de dólares, en contraste con los más de 60 millones invertidos por Meta en el desarrollo de Llama 3.1. Esta reducción de costos ha permitido que DeepSeek-R1 sea una opción más accesible para empresas y desarrolladores.

Con el crecimiento de DeepSeek,sus competidores se vieron obligados a ajustar sus estrategias. Alibaba Cloud redujo hasta un 97% los precios de sus modelos de IA, mientras que ByteDance presentó Doubao-1.5-Pro, una versión mejorada de su modelo con mayores capacidades de razonamiento.

A pesar de esta tendencia, Liang Wenfeng, fundador de DeepSeek, aseguró en 2023 que su empresa no busca una "guerra de precios". "Los grandes modelos fundacionales requieren innovación continua. Las capacidades de los gigantes tecnológicos tienen sus límites", afirmó.

 

¿Te gustó el contenido?

 

 

Recibe las noticias por correo

Entérate de la economía, noticias internacionales y el impacto en los negocios. Aviso de privacidad