Dilemas en el desarrollo de Web3 AI: se destacan las contradicciones entre modelos de alta dimensión y modularidad.

robot
Generación de resúmenes en curso

Estado actual y direcciones futuras del desarrollo de Web3 AI

Las acciones de Nvidia alcanzan un nuevo máximo, y el avance de los modelos multimodales ha profundizado la barrera técnica de la IA en Web2. Desde la alineación semántica hasta la comprensión visual, desde la incrustación de alta dimensión hasta la fusión de características, los modelos complejos están integrando de manera sin precedentes diversas formas de expresión a una velocidad nunca antes vista, construyendo una fortaleza de IA cada vez más cerrada. El mercado bursátil estadounidense también ha votado con acciones reales, ya sea acciones relacionadas con criptomonedas o acciones de IA, todas han experimentado un pequeño mercado alcista. Sin embargo, este auge está casi sin relación con el campo de las criptomonedas.

Los recientes intentos de Web3 AI, especialmente en la exploración de la dirección de Agentes, parecen haber desviado su rumbo: intentar ensamblar un sistema modular multimodal al estilo Web2 con una estructura descentralizada es, en realidad, una doble desalineación tanto técnica como de pensamiento. En un contexto donde la acoplabilidad de los módulos es extremadamente alta, la distribución de características es altamente inestable y la demanda de poder de cálculo se concentra cada vez más, la modularidad multimodal tiene dificultades para establecerse en el ecosistema Web3.

El futuro de la IA Web3 no radica en la imitación, sino en la estrategia de rodeo. Desde la alineación semántica en espacios de alta dimensión, hasta el cuello de botella de información en los mecanismos de atención, y la alineación de características bajo potencia heterogénea, todo necesita ser repensado. La IA Web3 debería adoptar una estrategia táctica de "rodear las ciudades desde el campo".

Web3 AI basado en un modelo multimodal aplanado, la dificultad de alineación semántica provoca un bajo rendimiento

En los sistemas multimodales de la Web2 AI moderna, "alineación semántica" se refiere a mapear la información de diferentes modalidades en un mismo espacio semántico, permitiendo que el modelo entienda y compare el significado detrás de estas señales tan dispares. Solo al lograr un espacio de incrustación de alta dimensión tiene sentido dividir el flujo de trabajo en diferentes módulos para reducir costos y aumentar la eficiencia. Sin embargo, en el protocolo Web3 Agent, es difícil lograr una incrustación de alta dimensión, ya que la modularidad puede ser una ilusión de la Web3 AI.

La exigencia de que la IA Web3 implemente un espacio de alta dimensión equivale a requerir que el protocolo Agent desarrolle por sí mismo todas las interfaces API involucradas, lo cual va en contra de su intención de ser modular. El sistema multimodal modular descrito por las pequeñas y medianas empresas de IA Web3 no resiste un análisis riguroso. La arquitectura de alta dimensión exige un entrenamiento unificado de extremo a extremo o una optimización colaborativa: desde la captura de señales hasta el cálculo de estrategias, y luego la ejecución y el control de riesgos, todos los pasos deben compartir el mismo conjunto de representaciones y funciones de pérdida.

Para lograr un agente inteligente de cadena completa con barreras de entrada en la industria, se requiere modelado conjunto de extremo a extremo, incrustaciones unificadas entre módulos y un enfoque sistemático en el entrenamiento y despliegue colaborativos. Sin embargo, actualmente no existe una necesidad de este tipo en el mercado, y naturalmente, también falta una demanda de mercado correspondiente.

En un espacio de baja dimensión, es difícil diseñar con precisión el mecanismo de atención.

Los modelos multimodales de alto nivel requieren el diseño de mecanismos de atención precisos. El mecanismo de atención es esencialmente una forma de asignar dinámicamente recursos computacionales, permitiendo que el modelo "se enfoque" selectivamente en las partes más relevantes al procesar una entrada de una determinada modalidad.

¿Por qué es difícil lograr una programación de atención unificada en una IA Web3 basada en módulos? Primero, el mecanismo de atención depende de un espacio de Query-Key-Value unificado; todas las características de entrada deben ser mapeadas al mismo espacio de vectores de alta dimensión para poder calcular pesos dinámicos mediante el producto punto. Sin embargo, las API independientes devuelven datos en diferentes formatos y distribuciones, y sin una capa de incrustación unificada, es difícil formar un conjunto de Q/K/V interactivas.

En segundo lugar, la atención de múltiples cabezas permite enfocarse en diferentes fuentes de información de manera paralela en la misma capa, y luego agregar los resultados; mientras que las API independientes a menudo son llamadas lineales, donde la salida de cada paso es solo la entrada del siguiente módulo, careciendo de la capacidad de ponderación dinámica paralela y múltiple.

Finalmente, el verdadero mecanismo de atención asignará dinámicamente pesos a cada elemento en función del contexto general; en el modo API, el módulo solo puede ver el contexto "independiente" en el que se llama, sin un contexto central compartido en tiempo real entre sí, lo que impide lograr asociaciones y enfoques globales entre módulos.

La modularidad discontinua en el ensamblaje provoca que la fusión de características se mantenga en una unión estática superficial.

"Fusión de características" es la combinación adicional de vectores de características obtenidos de diferentes modalidades después de su procesamiento, basado en la alineación y la atención, para su uso directo en tareas posteriores. Web3 AI se queda, por supuesto, en la etapa más simple de concatenación, ya que la fusión dinámica de características requiere un espacio de alta dimensión y un mecanismo de atención preciso; cuando estas condiciones previas no se cumplen, naturalmente la fusión de características en la etapa final tampoco puede alcanzar un rendimiento excepcional.

La IA de Web2 tiende a un entrenamiento conjunto de extremo a extremo: maneja simultáneamente diversas características de modalidad en el mismo espacio de alta dimensión, optimizando en conjunto con las capas de atención y fusión junto con las capas de tareas descendentes. Por otro lado, la IA de Web3 adopta más el enfoque de ensamblaje de módulos discretos, encapsulando varios API como agentes independientes, y luego ensamblando de manera simple las etiquetas, valores o alertas de umbral que cada uno de ellos produce, donde la lógica principal o humana realiza la decisión integral. Este método carece de un objetivo de entrenamiento unificado y no tiene flujo de gradiente entre módulos.

Las barreras en la industria de la IA se están profundizando, pero los puntos de dolor aún no han surgido.

El sistema multimodal de Web2 AI es un proyecto de ingeniería extremadamente grande. No solo requiere conjuntos de datos multimodales masivos, diversos y bien etiquetados, sino que también necesita una gran cantidad de GPU y tiempo de entrenamiento; en términos de arquitectura del modelo, integra varios conceptos de diseño de redes y técnicas de optimización más recientes; en la implementación de ingeniería, también se debe construir una plataforma de entrenamiento distribuido escalable, un sistema de monitoreo, gestión de versiones del modelo y una línea de despliegue. Este trabajo sistemático, de extremo a extremo y de pila completa, plantea altas exigencias en cuanto a fondos, datos, capacidad de cálculo, talento e incluso colaboración organizacional, lo que constituye una barrera de entrada muy fuerte en la industria.

Web3 AI o cualquier producto de criptomonedas que se presente bajo la bandera de la adecuación del mercado del producto necesita desarrollarse con la táctica de "la zona rural rodeando la ciudad". Debería probarse a pequeña escala en escenarios periféricos, asegurando que la base sea sólida antes de esperar la aparición de escenarios centrales. El núcleo de Web3 AI radica en la descentralización, y su trayectoria de evolución se manifiesta en alta paralelización, baja acoplamiento y compatibilidad de potencia de cálculo heterogénea. Esto hace que Web3 AI tenga más ventajas en escenarios como el cálculo en el borde, siendo adecuado para estructuras livianas, tareas fáciles de paralelizar y que pueden ser incentivadas.

Sin embargo, la barrera de la IA de Web2 apenas comienza a formarse, y esta es la etapa temprana de la competencia entre las principales empresas. Solo cuando se agoten los beneficios de la IA de Web2, los puntos de dolor que deja serán la oportunidad para que la IA de Web3 intervenga. Antes de eso, la IA de Web3 necesita identificar cuidadosamente los protocolos con potencial de "rodear las ciudades desde el campo", prestando atención a si pueden iterar constantemente en escenarios pequeños y si tienen la flexibilidad suficiente para adaptarse a un entorno de mercado en constante cambio.

AGENT14.6%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 7
  • Compartir
Comentar
0/400
0xLostKeyvip
· 07-17 11:15
Y se ha ido volando al cielo otra vez.
Ver originalesResponder0
ImpermanentPhilosophervip
· 07-15 22:52
Teóricamente, el hold de alta frecuencia.
Ver originalesResponder0
BrokenDAOvip
· 07-15 02:14
Otro diseño de sistema que carece de equilibrio de juego... El peso del voto siempre es un nudo muerto.
Ver originalesResponder0
CryptoHistoryClassvip
· 07-15 02:12
*verifica los datos históricos* ah sí... el mismo patrón que vimos con las primeras redes neuronales en 2017. ngmi
Ver originalesResponder0
RadioShackKnightvip
· 07-15 02:09
Están haciendo cosas muy sofisticadas, ya no puedo seguirles el ritmo.
Ver originalesResponder0
RugPullProphetvip
· 07-15 01:55
Esto es otra gran trampa de capital.
Ver originalesResponder0
StableGeniusDegenvip
· 07-15 01:54
Solo es una moda pasajera.
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)