État actuel et directions futures du développement de l'IA Web3
Le prix des actions d'NVIDIA atteint un nouveau sommet, les progrès des modèles multimodaux approfondissent la barrière technologique de l'IA Web2. De l'alignement sémantique à la compréhension visuelle, de l'intégration en haute dimension à la fusion des caractéristiques, des modèles complexes intègrent à une vitesse sans précédent diverses modalités d'expression, construisant un terrain d'IA de plus en plus fermé. Le marché boursier américain a également voté par des actions concrètes, que ce soit des actions liées aux cryptomonnaies ou des actions d'IA, toutes connaissent une petite tendance haussière. Cependant, cet engouement est presque sans lien avec le domaine des cryptomonnaies.
Les tentatives récentes dans le domaine de l'IA Web3, en particulier l'exploration de la direction des agents, semblent s'être écartées : essayer d'assembler un système modulaire multimodal de style Web2 avec une structure décentralisée représente en réalité un double décalage tant technique que conceptuel. Aujourd'hui, avec une forte couplage des modules, une distribution des caractéristiques hautement instable et des besoins en puissance de calcul de plus en plus concentrés, le modulaire multimodal a du mal à s'imposer dans l'écosystème Web3.
L'avenir de l'IA Web3 ne réside pas dans l'imitation, mais dans une approche stratégique de contournement. De l'alignement sémantique dans des espaces de haute dimension, aux goulets d'étranglement d'information dans les mécanismes d'attention, jusqu'à l'alignement des caractéristiques sous une puissance de calcul hétérogène, tout nécessite une nouvelle réflexion. L'IA Web3 devrait adopter une stratégie tactique de "l'encerclement des villes par les campagnes".
Web3 AI basé sur un modèle multimodal aplati, l'alignement sémantique difficile entraîne une faible performance
Dans les systèmes multimodaux de l'IA Web2 moderne, "l'alignement sémantique" fait référence à la cartographie des informations de différentes modalités dans le même espace sémantique, permettant au modèle de comprendre et de comparer les significations derrière ces signaux très différents. Ce n'est que dans la mesure où un espace d'embedding de haute dimension est réalisé que diviser le flux de travail en différents modules a un sens en termes de réduction des coûts et d'amélioration de l'efficacité. Cependant, dans le protocole Web3 Agent, il est difficile de réaliser une haute dimension d'embedding, car la modularité peut être une illusion de l'IA Web3.
Exiger que l'IA Web3 réalise un espace de haute dimension équivaut à demander au protocole Agent de développer lui-même toutes les interfaces API impliquées, ce qui va à l'encontre de son intention de modularité. Le système multimodal modulaire décrit par les PME de l'IA Web3 ne résiste pas à l'examen. L'architecture de haute dimension nécessite un entraînement unifié de bout en bout ou une optimisation collaborative : de la capture de signaux à l'élaboration de stratégies, jusqu'à l'exécution et la gestion des risques, toutes les étapes doivent partager le même ensemble de représentations et de fonctions de perte.
Pour réaliser un agent intelligent à chaîne complète avec des barrières industrielles, il est nécessaire de surmonter des obstacles grâce à une modélisation conjointe de bout en bout, une intégration unifiée entre les modules, ainsi qu'un ingénierie systématique pour l'entraînement et le déploiement collaboratifs. Cependant, le marché actuel ne présente pas de tels points de douleur, et il manque donc également une demande de marché correspondante.
Dans un espace de faible dimension, il est difficile de concevoir précisément un mécanisme d'attention.
Des modèles multimodaux de haut niveau nécessitent la conception de mécanismes d'attention précis. Le mécanisme d'attention est essentiellement un moyen de répartir dynamiquement les ressources de calcul, permettant au modèle de "se concentrer" sélectivement sur les parties les plus pertinentes lors du traitement d'une entrée de modalité.
Pourquoi est-il difficile de réaliser une planification d'attention unifiée avec une IA Web3 basée sur des modules ? Tout d'abord, le mécanisme d'attention repose sur un espace Query-Key-Value unifié, où toutes les caractéristiques d'entrée doivent être mappées dans le même espace vectoriel de haute dimension afin de calculer des poids dynamiques par produit scalaire. Or, les API indépendantes renvoient chacune des données dans des formats et des distributions différents, sans couche d'intégration unifiée, ce qui rend difficile la formation d'un ensemble interactif de Q/K/V.
Deuxièmement, l'attention multi-tête permet de se concentrer simultanément sur différentes sources d'information au sein de la même couche, puis d'agréger les résultats ; tandis que les API indépendantes sont souvent des appels linéaires, où la sortie de chaque étape n'est que l'entrée du module suivant, manquant de la capacité de pondération dynamique parallèle et multipath.
Enfin, le véritable mécanisme d'attention attribue dynamiquement des poids à chaque élément en fonction du contexte global ; dans le mode API, le module ne peut voir que le contexte "indépendant" dans lequel il est appelé, sans partage en temps réel d'un contexte central entre eux, ce qui empêche l'établissement d'associations et de focalisations globales entre les modules.
La modularité discrète entraîne une fusion des caractéristiques qui reste à une simple jointure statique
"La fusion des caractéristiques" consiste à combiner davantage les vecteurs caractéristiques obtenus après traitement de différentes modalités, sur la base de l'alignement et de l'attention, pour une utilisation directe dans des tâches en aval. L'IA Web3 en est bien sûr à la phase de concaténation la plus simple, car la fusion dynamique des caractéristiques repose sur un espace de haute dimension et un mécanisme d'attention précis. Lorsque ces conditions préalables ne sont pas remplies, il est naturellement impossible d'atteindre une performance exceptionnelle dans la fusion des caractéristiques à la dernière étape.
L'IA Web2 tend à être formée de manière conjointe de bout en bout : elle traite simultanément diverses caractéristiques des modalités dans le même espace de haute dimension, optimisant de manière collaborative avec les couches d'attention et de fusion ainsi qu'avec la couche de tâches en aval. En revanche, l'IA Web3 adopte davantage une approche de collage de modules discrets, encapsulant divers API en Agents indépendants, puis assemblant simplement les étiquettes, valeurs ou alertes de seuils que chacun d'eux produit, par le biais d'une logique principale ou d'une décision humaine. Cette approche manque à la fois d'un objectif d'entraînement unifié et de flux de gradients inter-modules.
Les barrières dans l'industrie de l'IA se renforcent, mais les points de douleur ne se sont pas encore manifestés.
Le système multimodal de l'IA Web2 est un projet d'ingénierie extrêmement vaste. Il nécessite non seulement un ensemble de données multimodales massives, diversifiées et soigneusement annotées, mais aussi un investissement important en GPU et en temps d'entraînement ; au niveau de l'architecture du modèle, il intègre divers concepts de conception de réseaux et techniques d'optimisation les plus récents ; dans la mise en œuvre technique, il est également nécessaire de construire une plateforme d'entraînement distribuée évolutive, un système de surveillance, ainsi qu'une gestion et un pipeline de déploiement des versions des modèles. Ce travail systématique et à plein spectre impose des exigences très élevées en termes de financement, de données, de puissance de calcul, de talents et même de collaboration organisationnelle, constituant ainsi une barrière à l'entrée très forte dans l'industrie.
Les produits de cryptomonnaie comme Web3 AI ou tout autre produit prétendant faire correspondre le marché doivent se développer selon la tactique de "l'encerclement des villes par les campagnes", en testant à petite échelle dans des scénarios marginaux, en s'assurant que les bases sont solides avant d'attendre l'émergence de scénarios centraux. Le cœur de Web3 AI réside dans la décentralisation, dont le chemin d'évolution se manifeste par une haute parallélisation, un faible couplage et la compatibilité des puissances de calcul hétérogènes. Cela confère à Web3 AI un avantage dans des scénarios tels que le calcul en périphérie, le rendant adapté aux structures légères, aux tâches facilement parallélisables et incitatives.
Cependant, les barrières de l'IA Web2 ne commencent à se former que maintenant, c'est une phase précoce de la concurrence entre les grandes entreprises. Ce n'est que lorsque les avantages de l'IA Web2 auront disparu que les points de douleur qu'elle a laissés seront l'opportunité pour l'IA Web3 d'entrer en jeu. Avant cela, l'IA Web3 devra soigneusement identifier les protocoles ayant un potentiel de "encercler les villes depuis les campagnes", en se concentrant sur leur capacité à itérer continuellement dans de petits scénarios et à posséder une flexibilité suffisante pour faire face à un environnement de marché en évolution dynamique.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
26 J'aime
Récompense
26
7
Partager
Commentaire
0/400
0xLostKey
· 07-17 11:15
Ça a encore été emporté au ciel.
Voir l'originalRépondre0
ImpermanentPhilosopher
· 07-15 22:52
Théoriquement, le hold à haute fréquence.
Voir l'originalRépondre0
BrokenDAO
· 07-15 02:14
Un autre système de conception manquant d'équilibre de jeu... le poids du vote est toujours un nœud mort.
Voir l'originalRépondre0
CryptoHistoryClass
· 07-15 02:12
*vérifie les données historiques* ah oui... le même schéma que nous avons vu avec les premiers réseaux neuronaux en 2017. ngmi
Voir l'originalRépondre0
RadioShackKnight
· 07-15 02:09
On recommence avec des choses haut de gamme, c'est trop difficile à gérer.
Défis du développement de l'IA Web3 : les contradictions entre les modèles de haute dimension et la modularité se révèlent.
État actuel et directions futures du développement de l'IA Web3
Le prix des actions d'NVIDIA atteint un nouveau sommet, les progrès des modèles multimodaux approfondissent la barrière technologique de l'IA Web2. De l'alignement sémantique à la compréhension visuelle, de l'intégration en haute dimension à la fusion des caractéristiques, des modèles complexes intègrent à une vitesse sans précédent diverses modalités d'expression, construisant un terrain d'IA de plus en plus fermé. Le marché boursier américain a également voté par des actions concrètes, que ce soit des actions liées aux cryptomonnaies ou des actions d'IA, toutes connaissent une petite tendance haussière. Cependant, cet engouement est presque sans lien avec le domaine des cryptomonnaies.
Les tentatives récentes dans le domaine de l'IA Web3, en particulier l'exploration de la direction des agents, semblent s'être écartées : essayer d'assembler un système modulaire multimodal de style Web2 avec une structure décentralisée représente en réalité un double décalage tant technique que conceptuel. Aujourd'hui, avec une forte couplage des modules, une distribution des caractéristiques hautement instable et des besoins en puissance de calcul de plus en plus concentrés, le modulaire multimodal a du mal à s'imposer dans l'écosystème Web3.
L'avenir de l'IA Web3 ne réside pas dans l'imitation, mais dans une approche stratégique de contournement. De l'alignement sémantique dans des espaces de haute dimension, aux goulets d'étranglement d'information dans les mécanismes d'attention, jusqu'à l'alignement des caractéristiques sous une puissance de calcul hétérogène, tout nécessite une nouvelle réflexion. L'IA Web3 devrait adopter une stratégie tactique de "l'encerclement des villes par les campagnes".
Web3 AI basé sur un modèle multimodal aplati, l'alignement sémantique difficile entraîne une faible performance
Dans les systèmes multimodaux de l'IA Web2 moderne, "l'alignement sémantique" fait référence à la cartographie des informations de différentes modalités dans le même espace sémantique, permettant au modèle de comprendre et de comparer les significations derrière ces signaux très différents. Ce n'est que dans la mesure où un espace d'embedding de haute dimension est réalisé que diviser le flux de travail en différents modules a un sens en termes de réduction des coûts et d'amélioration de l'efficacité. Cependant, dans le protocole Web3 Agent, il est difficile de réaliser une haute dimension d'embedding, car la modularité peut être une illusion de l'IA Web3.
Exiger que l'IA Web3 réalise un espace de haute dimension équivaut à demander au protocole Agent de développer lui-même toutes les interfaces API impliquées, ce qui va à l'encontre de son intention de modularité. Le système multimodal modulaire décrit par les PME de l'IA Web3 ne résiste pas à l'examen. L'architecture de haute dimension nécessite un entraînement unifié de bout en bout ou une optimisation collaborative : de la capture de signaux à l'élaboration de stratégies, jusqu'à l'exécution et la gestion des risques, toutes les étapes doivent partager le même ensemble de représentations et de fonctions de perte.
Pour réaliser un agent intelligent à chaîne complète avec des barrières industrielles, il est nécessaire de surmonter des obstacles grâce à une modélisation conjointe de bout en bout, une intégration unifiée entre les modules, ainsi qu'un ingénierie systématique pour l'entraînement et le déploiement collaboratifs. Cependant, le marché actuel ne présente pas de tels points de douleur, et il manque donc également une demande de marché correspondante.
Dans un espace de faible dimension, il est difficile de concevoir précisément un mécanisme d'attention.
Des modèles multimodaux de haut niveau nécessitent la conception de mécanismes d'attention précis. Le mécanisme d'attention est essentiellement un moyen de répartir dynamiquement les ressources de calcul, permettant au modèle de "se concentrer" sélectivement sur les parties les plus pertinentes lors du traitement d'une entrée de modalité.
Pourquoi est-il difficile de réaliser une planification d'attention unifiée avec une IA Web3 basée sur des modules ? Tout d'abord, le mécanisme d'attention repose sur un espace Query-Key-Value unifié, où toutes les caractéristiques d'entrée doivent être mappées dans le même espace vectoriel de haute dimension afin de calculer des poids dynamiques par produit scalaire. Or, les API indépendantes renvoient chacune des données dans des formats et des distributions différents, sans couche d'intégration unifiée, ce qui rend difficile la formation d'un ensemble interactif de Q/K/V.
Deuxièmement, l'attention multi-tête permet de se concentrer simultanément sur différentes sources d'information au sein de la même couche, puis d'agréger les résultats ; tandis que les API indépendantes sont souvent des appels linéaires, où la sortie de chaque étape n'est que l'entrée du module suivant, manquant de la capacité de pondération dynamique parallèle et multipath.
Enfin, le véritable mécanisme d'attention attribue dynamiquement des poids à chaque élément en fonction du contexte global ; dans le mode API, le module ne peut voir que le contexte "indépendant" dans lequel il est appelé, sans partage en temps réel d'un contexte central entre eux, ce qui empêche l'établissement d'associations et de focalisations globales entre les modules.
La modularité discrète entraîne une fusion des caractéristiques qui reste à une simple jointure statique
"La fusion des caractéristiques" consiste à combiner davantage les vecteurs caractéristiques obtenus après traitement de différentes modalités, sur la base de l'alignement et de l'attention, pour une utilisation directe dans des tâches en aval. L'IA Web3 en est bien sûr à la phase de concaténation la plus simple, car la fusion dynamique des caractéristiques repose sur un espace de haute dimension et un mécanisme d'attention précis. Lorsque ces conditions préalables ne sont pas remplies, il est naturellement impossible d'atteindre une performance exceptionnelle dans la fusion des caractéristiques à la dernière étape.
L'IA Web2 tend à être formée de manière conjointe de bout en bout : elle traite simultanément diverses caractéristiques des modalités dans le même espace de haute dimension, optimisant de manière collaborative avec les couches d'attention et de fusion ainsi qu'avec la couche de tâches en aval. En revanche, l'IA Web3 adopte davantage une approche de collage de modules discrets, encapsulant divers API en Agents indépendants, puis assemblant simplement les étiquettes, valeurs ou alertes de seuils que chacun d'eux produit, par le biais d'une logique principale ou d'une décision humaine. Cette approche manque à la fois d'un objectif d'entraînement unifié et de flux de gradients inter-modules.
Les barrières dans l'industrie de l'IA se renforcent, mais les points de douleur ne se sont pas encore manifestés.
Le système multimodal de l'IA Web2 est un projet d'ingénierie extrêmement vaste. Il nécessite non seulement un ensemble de données multimodales massives, diversifiées et soigneusement annotées, mais aussi un investissement important en GPU et en temps d'entraînement ; au niveau de l'architecture du modèle, il intègre divers concepts de conception de réseaux et techniques d'optimisation les plus récents ; dans la mise en œuvre technique, il est également nécessaire de construire une plateforme d'entraînement distribuée évolutive, un système de surveillance, ainsi qu'une gestion et un pipeline de déploiement des versions des modèles. Ce travail systématique et à plein spectre impose des exigences très élevées en termes de financement, de données, de puissance de calcul, de talents et même de collaboration organisationnelle, constituant ainsi une barrière à l'entrée très forte dans l'industrie.
Les produits de cryptomonnaie comme Web3 AI ou tout autre produit prétendant faire correspondre le marché doivent se développer selon la tactique de "l'encerclement des villes par les campagnes", en testant à petite échelle dans des scénarios marginaux, en s'assurant que les bases sont solides avant d'attendre l'émergence de scénarios centraux. Le cœur de Web3 AI réside dans la décentralisation, dont le chemin d'évolution se manifeste par une haute parallélisation, un faible couplage et la compatibilité des puissances de calcul hétérogènes. Cela confère à Web3 AI un avantage dans des scénarios tels que le calcul en périphérie, le rendant adapté aux structures légères, aux tâches facilement parallélisables et incitatives.
Cependant, les barrières de l'IA Web2 ne commencent à se former que maintenant, c'est une phase précoce de la concurrence entre les grandes entreprises. Ce n'est que lorsque les avantages de l'IA Web2 auront disparu que les points de douleur qu'elle a laissés seront l'opportunité pour l'IA Web3 d'entrer en jeu. Avant cela, l'IA Web3 devra soigneusement identifier les protocoles ayant un potentiel de "encercler les villes depuis les campagnes", en se concentrant sur leur capacité à itérer continuellement dans de petits scénarios et à posséder une flexibilité suffisante pour faire face à un environnement de marché en évolution dynamique.