Competencia de grandes modelos de IA: de los avances académicos a la batalla más larga.

Competencia de grandes modelos de IA: de temas académicos a problemas de ingeniería

El mes pasado, estalló una intensa "guerra de animales" en el campo de la IA.

Por un lado está el Llama, que es muy popular entre los desarrolladores debido a su naturaleza de código abierto. Por otro lado, está el gran modelo llamado Falcon. En mayo, después del lanzamiento del Falcon-40B, superó al Llama y se posicionó en la cima de la lista de LLM de código abierto.

Esta lista fue creada por la comunidad de modelos de código abierto y proporciona un estándar para evaluar la capacidad de los LLM. El ranking básicamente se alterna entre Llama y Falcon. Después del lanzamiento de Llama 2, la familia de llamas lideró temporalmente; pero a principios de septiembre, Falcon lanzó la versión 180B y volvió a obtener una clasificación más alta.

Curiosamente, los desarrolladores de "Falcon" no son una empresa de tecnología, sino un instituto de investigación en innovación tecnológica de la capital de los Emiratos Árabes Unidos. Funcionarios del gobierno han declarado que participan en este proyecto para desafiar a los jugadores clave.

Hoy en día, el campo de la IA ha entrado en una fase de gran diversidad. Los países y empresas con capacidad están desarrollando sus propios modelos de lenguaje de gran tamaño. En la región del Golfo, hay más de un jugador: en agosto, Arabia Saudita compró más de 3000 chips H100 para universidades nacionales con el fin de entrenar LLM.

Un inversor se quejó: "En su momento, menosprecié la innovación en los modelos de negocio de Internet, pensando que no tenían barreras. No esperaba que el emprendimiento con grandes modelos de tecnología dura, sigue siendo una batalla de cientos de modelos..."

¿Cómo es que la tecnología dura, supuestamente de alta dificultad, se ha convertido en una tendencia en la que todos pueden participar?

El auge del Transformer

Las startups estadounidenses, los gigantes tecnológicos chinos y los magnates del petróleo de Oriente Medio pueden embarcarse en grandes modelos gracias al famoso artículo "Attention Is All You Need".

En 2017, ocho científicos informáticos dieron a conocer el algoritmo Transformer en este artículo. Este artículo es actualmente el tercero más citado en la historia de la IA, y la aparición de Transformer desató esta ola actual de entusiasmo por la IA.

Los actuales modelos grandes, incluidos los célebres de la serie GPT, se basan en la arquitectura Transformer.

Antes de esto, "enseñar a las máquinas a leer" ha sido un problema académico reconocido. A diferencia del reconocimiento de imágenes, cuando los humanos leen, no solo se centran en las palabras y frases actuales, sino que también combinan el contexto para entender. Las entradas de las primeras redes neuronales eran independientes entre sí, lo que les impedía comprender textos largos y a menudo causaba errores de traducción.

En 2014, el científico de Google Ilya Sutskever logró un avance por primera vez. Utilizó redes neuronales recurrentes (RNN) para procesar el lenguaje natural, mejorando considerablemente el rendimiento de Google Translate. RNN propuso un "diseño cíclico", permitiendo que cada neurona reciba simultáneamente la entrada actual y la del momento anterior, lo que le otorga la capacidad de "combinar el contexto".

La aparición de las RNN encendió el entusiasmo de la academia, pero los desarrolladores pronto descubrieron que tenía serias deficiencias: este algoritmo utiliza cálculos secuenciales, aunque resuelve el problema del contexto, su eficiencia de ejecución es baja y tiene dificultades para manejar grandes cantidades de parámetros.

Desde 2015, Noam Shazeer y otros 8 investigadores comenzaron a desarrollar un sustituto para RNN, y el resultado final fue el Transformer. En comparación con RNN, Transformer tiene dos grandes transformaciones: la primera es el uso de codificación de posición en lugar de diseño cíclico, lo que permite el cálculo en paralelo, aumentando considerablemente la eficiencia del entrenamiento y llevando a la IA a la era de los grandes modelos; la segunda es el fortalecimiento adicional de la capacidad de comprensión del contexto.

El Transformer resolvió de un golpe múltiples defectos y se desarrolló gradualmente como una solución principal en el campo del NLP. Hizo que los grandes modelos pasaran de ser un problema de investigación teórica a ser un problema puramente ingenieril.

En 2019, OpenAI desarrolló GPT-2 basado en Transformer, sorprendiendo a la academia. Google lanzó inmediatamente Meena, que superó a GPT-2 simplemente aumentando parámetros y potencia de cálculo. Esto dejó profundamente impactado a Shazeer, el autor de Transformer, quien escribió un memorando titulado "Meena devora el mundo".

Después de la aparición del Transformer, la velocidad de innovación de los algoritmos en el ámbito académico se ha ralentizado significativamente. Elementos de ingeniería como la ingeniería de datos, la escala de computación y la arquitectura de modelos se han convertido en clave para la competencia en IA. Cualquier empresa con un cierto nivel de capacidad técnica puede desarrollar grandes modelos.

El científico de la computación Andrew Ng señaló en una conferencia en la Universidad de Stanford: "La IA es un conjunto de herramientas que incluye el aprendizaje supervisado, el aprendizaje no supervisado, el aprendizaje por refuerzo y la IA generativa. Todas estas son tecnologías generales, similares a la electricidad y a Internet."

Aunque OpenAI sigue siendo el referente de los LLM, las agencias de análisis creen que la ventaja de GPT-4 radica principalmente en las soluciones de ingeniería. Si se hace de código abierto, cualquier competidor podrá copiarlo rápidamente. Este analista espera que otras grandes empresas tecnológicas pronto puedan desarrollar modelos grandes con un rendimiento comparable al de GPT-4.

Un castillo de naipes

Hoy en día, "la batalla de los cien modelos" ya no es una exageración, sino una realidad objetiva.

Informes relevantes muestran que, hasta julio de este año, el número de grandes modelos en el país ha alcanzado los 130, superando los 114 de Estados Unidos. Diversos mitos y leyendas ya no son suficientes para que las empresas tecnológicas nacionales los utilicen como nombres.

Además de China y Estados Unidos, algunos países más ricos también han logrado inicialmente el "un país, un modelo": Japón y los Emiratos Árabes Unidos ya tienen sus propios grandes modelos, así como Bhashini, liderado por el gobierno de la India, y HyperClova X, creado por la compañía de Internet surcoreana Naver.

Esta escena parece haber regresado a la era de las burbujas del temprano Internet. Tal como se mencionó anteriormente, el Transformer ha convertido los grandes modelos en un problema puramente ingenieril; mientras haya personas con dinero y tarjetas gráficas, lo demás se deja en manos de los parámetros. Sin embargo, aunque la barrera de entrada no sea alta, no significa que todos puedan convertirse en gigantes de la era de la IA.

El "Animal Battle" mencionado al principio es un caso típico: aunque Falcon ha superado a Llama en el ranking, es difícil decir cuánta impactó ha tenido en Meta.

Como todos saben, las empresas abren sus propios logros, no solo para compartir los beneficios tecnológicos, sino también para movilizar la sabiduría social. A medida que diferentes sectores continúan utilizando y mejorando Llama, Meta puede aplicar estos logros en sus propios productos.

Para los grandes modelos de código abierto, una comunidad de desarrolladores activa es la principal ventaja competitiva.

Meta estableció una ruta de código abierto cuando formó su laboratorio de IA en 2015; Zuckerberg, que comenzó con las redes sociales, entiende mejor el camino de "mantener buenas relaciones con el público".

En octubre, Meta también organizó un evento llamado "Incentivo para Creadores en AI": los desarrolladores que utilicen Llama 2 para resolver problemas sociales como la educación y el medio ambiente tendrán la oportunidad de recibir financiamiento de 500,000 dólares.

Hoy en día, la serie Llama de Meta se ha convertido en un referente de los LLM de código abierto. A principios de octubre, 8 de los 10 primeros LLM en un ranking de código abierto están basados en Llama 2. Solo en esta plataforma, hay más de 1500 LLM que utilizan la licencia de código abierto de Llama 2.

Por supuesto, mejorar el rendimiento como Falcon no estaría de más, pero actualmente la mayoría de los LLM en el mercado todavía tienen una diferencia notable con GPT-4.

Por ejemplo, hace poco, GPT-4 obtuvo el primer lugar en la prueba AgentBench con una puntuación de 4.41. AgentBench fue lanzado conjuntamente por la Universidad Tsinghua y varias universidades de renombre de Estados Unidos, y se utiliza para evaluar la capacidad de razonamiento y toma de decisiones de los LLM en entornos abiertos multidimensionales. El contenido de la prueba abarca 8 escenarios diferentes, incluyendo sistemas operativos, bases de datos, grafos de conocimiento y batallas de cartas.

Los resultados de la prueba muestran que el segundo, Claude, solo tiene 2.77 puntos, lo que representa una diferencia aún notable. En cuanto a esos LLM de código abierto con gran renombre, sus resultados suelen estar alrededor de 1 punto, menos de una cuarta parte de GPT-4.

Es importante saber que GPT-4 fue lanzado en marzo de este año, y esto es el resultado de más de medio año de esfuerzo por parte de colegas de todo el mundo. La causa de esta diferencia es el excelente equipo de científicos de OpenAI y la larga experiencia acumulada en la investigación de LLM, lo que les permite mantenerse siempre a la vanguardia.

Es decir, la principal ventaja de los grandes modelos no son los parámetros, sino la construcción del ecosistema ( código abierto ) o la pura capacidad de inferencia ( cerrado ).

Con la creciente actividad de la comunidad de código abierto, el rendimiento de los LLM podría converger, ya que todos están utilizando arquitecturas de modelo y conjuntos de datos similares.

Otro problema más intuitivo es: aparte de Midjourney, parece que no hay ningún otro modelo grande que realmente pueda ser rentable.

¿Dónde está el punto de anclaje del valor?

En agosto de este año, un artículo titulado "OpenAI podría quebrar a finales de 2024" llamó la atención. El tema del artículo se puede resumir en una sola frase: la velocidad a la que OpenAI quema dinero es demasiado rápida.

El texto menciona que, desde el desarrollo de ChatGPT, las pérdidas de OpenAI se han ampliado rápidamente, con pérdidas de aproximadamente 540 millones de dólares solo en 2022, y solo pueden depender de la inversión de Microsoft para mantenerse a flote.

Aunque el título del artículo es exagerado, también refleja la situación de muchos proveedores de grandes modelos: un grave desequilibrio entre costos e ingresos.

Los altos costos han llevado a que actualmente solo Nvidia gane mucho dinero con la IA, quizás también Broadcom.

Según la consultora Omdia, Nvidia vendió más de 300,000 unidades del H100 en el segundo trimestre de este año. Este es un chip de alta eficiencia para entrenamiento de IA, y las empresas tecnológicas y los institutos de investigación de todo el mundo están comprando a toda prisa. Si apilamos estas 300,000 unidades del H100, el peso sería equivalente a 4.5 aviones Boeing 747.

Las ganancias de Nvidia han despegado, con un aumento interanual de ingresos del 854%, lo que ha sorprendido a Wall Street. Actualmente, la H100 se está revendiendo en el mercado de segunda mano por entre 40,000 y 50,000 dólares, mientras que su costo de materiales es de aproximadamente 3,000 dólares.

El alto costo de la potencia de cálculo se ha convertido en un obstáculo para el desarrollo de la industria en cierta medida. Sequoia Capital ha estimado que las empresas tecnológicas globales gastarán aproximadamente 200 mil millones de dólares al año en la construcción de infraestructura para grandes modelos; en comparación, los grandes modelos solo pueden generar un máximo de 75 mil millones de dólares en ingresos al año, lo que deja un déficit de al menos 125 mil millones de dólares.

Además, a excepción de unos pocos casos como Midjourney, la mayoría de las empresas de software aún no han encontrado un modelo de negocio claro después de invertir grandes sumas de dinero. Especialmente las exploraciones de los líderes de la industria, Microsoft y Adobe, han sido algo titubeantes.

La herramienta de generación de código AI GitHub Copilot, desarrollada por Microsoft en colaboración con OpenAI, tiene un costo mensual de 10 dólares, pero debido a los costos de infraestructura, Microsoft pierde 20 dólares por usuario, y los usuarios intensivos hacen que Microsoft pierda hasta 80 dólares al mes. A partir de esto, se puede suponer que el Microsoft 365 Copilot, que tiene un precio de 30 dólares, podría generar pérdidas aún mayores.

Igualmente, Adobe, que acaba de lanzar la herramienta Firefly AI, también ha implementado un sistema de puntos para evitar que los usuarios hagan un uso excesivo que cause pérdidas a la empresa. Una vez que los usuarios superen los puntos asignados mensualmente, Adobe reducirá la velocidad del servicio.

Es importante saber que Microsoft y Adobe son gigantes del software con escenarios comerciales claros y una gran cantidad de usuarios de pago. Sin embargo, la mayoría de los modelos de parámetros acumulados como montañas todavía tienen como mayor escenario de aplicación el chat.

No se puede negar que si no fuera por la aparición de OpenAI y ChatGPT, esta revolución de la IA podría no haber ocurrido en absoluto; pero en la actualidad, el valor creado por el entrenamiento de grandes modelos probablemente aún está en discusión.

Además, con la intensificación de la competencia homogénea y el aumento de modelos de código abierto, los proveedores de grandes modelos puramente grandes pueden enfrentar mayores desafíos.

El éxito del iPhone 4 no se debe al procesador A4 de 45 nm, sino a que puede jugar aplicaciones como Plants vs Zombies y Angry Birds.

GPT-5.71%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 5
  • Republicar
  • Compartir
Comentar
0/400
BearMarketNoodlervip
· hace13h
clásica cosecha de riqueza petrolera tomar a la gente por tonta
Ver originalesResponder0
RumbleValidatorvip
· hace21h
No se han publicado los datos de prueba de estabilidad, lo que dificulta verificar la credibilidad.
Ver originalesResponder0
BanklessAtHeartvip
· hace22h
Los partidarios industriales están extáticos. Código abierto es el futuro. Se sugiere invertir.
Ver originalesResponder0
GateUser-c799715cvip
· hace22h
Esto es una pelea que ha llegado a los EAU.
Ver originalesResponder0
AirdropHunterXMvip
· hace23h
Pelear, pelear. ¿Quién gana, cuenta como el de quién?
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)