Classé dans : Science et technologie
Sujet : Salon commercial

Huawei Cloud à la KubeCon EU 2024 : libérer l'ère intelligente avec l'innovation open source continue

PARIS, 27 mars 2024 /PRNewswire/ -- Lors de la KubeCon + CloudNativeCon Europe 2024, qui s'est tenue à Paris le 21 mars, Dennis Gu, architecte en chef de Huawei Cloud, a souligné, dans un discours d'ouverture intitulé « Cloud Native x AI : Unleashing the Intelligent Era with Continuous Open Source Innovation » (Cloud natif x IA : libérer l'ère intelligente avec l'innovation open source continue), que l'intégration de technologies cloud natives et de l'IA était cruciale pour stimuler la transformation de l'industrie. Huawei Cloud prévoit de continuer à innover dans les projets open source et de collaborer avec les développeurs pour créer une ère intelligente.

Dennis Gu, Chief Architect of Huawei Cloud

L'IA pose des défis clés au paradigme du cloud natif.

Ces dernières années, les technologies cloud natives ont révolutionné les systèmes informatiques traditionnels et accéléré les progrès numériques dans des domaines tels que l'Internet et les services gouvernementaux. Le cloud natif a introduit de nouvelles possibilités, telles que des ventes ultrarapides et des opérations agiles, comme le DevOps, grâce à la gouvernance des microservices. Ces changements ont eu un impact significatif sur la vie des gens, et la croissance rapide et l'adoption généralisée de l'IA, y compris les modèles à grande échelle, sont désormais au coeur de l'intelligence industrielle.

Selon une enquête d'Epoch réalisée en 2023, le calcul requis pour les modèles de base a été multiplié par 10 tous les 18 mois, ce qui est cinq fois plus rapide que le taux de croissance prévu par la loi de Moore pour le calcul général. L'émergence de cette « nouvelle loi de Moore » due à l'IA et à la prévalence des modèles d'IA à grande échelle présente des défis pour les technologies cloud natives. Dans son discours, Dennis Gu a souligné les points clés suivants :

Une faible utilisation moyenne du GPU/NPU augmente le coût de l'entraînement de l'IA et de l'inférence dans l'IA.
Les échecs fréquents des grands clusters d'entraînement réduisent l'efficacité de l'entraînement.
La configuration complexe des modèles à grande échelle entraîne des exigences élevées en matière de développement de l'IA.
Le déploiement de l'inférence dans l'IA à grande échelle comporte le risque de délais d'accès imprévisibles pour l'utilisateur final et implique des problèmes potentiels de confidentialité des données.

L'innovation Huawei Cloud AI offre aux développeurs des idées pour relever les défis.

La taille croissante des modèles d'IA exige davantage de calcul, ce qui crée des défis pour les technologies cloud natives, mais crée également des opportunités d'innovation dans l'industrie. Dennis Gu a partagé des histoires sur l'innovation en IA de Huawei Cloud, offrant aux développeurs un point de référence pour relever les défis.

Huawei Cloud a utilisé KubeEdge, une plateforme de calcul edge native dans le cloud, pour créer une plateforme de planification et de gestion multirobots. Avec cette plateforme, les utilisateurs peuvent utiliser des commandes en langage naturel pour indiquer à la plateforme ce qu'elle doit faire, et le système coordonne plusieurs robots en périphérie pour accomplir des tâches complexes. Le système est conçu avec une architecture en trois parties (cloud, noeud périphérique et robot) pour relever des défis tels que la compréhension du langage naturel, la planification et la gestion efficaces de plusieurs robots et la gestion de l'accès à plusieurs types de robots. Il utilise de grands modèles pour exécuter des commandes en langage naturel et effectue des prévisions de trafic, l'attribution des tâches et la planification des itinéraires. L'architecture en trois parties améliore considérablement la flexibilité de la plateforme robotique, accroît l'efficacité de la gestion de 25 %, réduit le temps nécessaire au déploiement du système de 30 % et ramène le temps nécessaire au déploiement de nouveaux robots de plusieurs mois à quelques jours.

Pour l'une des principales plateformes de partage de contenu en Chine, qui compte plus de 100 millions d'utilisateurs actifs par mois, le principal service est celui des recommandations sur la page d'accueil. Cette fonctionnalité est alimentée par un modèle comportant près de 100 milliards de paramètres. Pour entraîner ce modèle, la plateforme utilise un cluster d'entraînement avec des milliers de noeuds de calcul, y compris des centaines de ps et de travailleurs pour une seule tâche d'entraînement. Il y a donc une forte demande pour une meilleure planification de la topologie, des performances élevées et un débit élevé. Volcano, un projet open source, améliore la prise en charge des charges de travail d'IA ou d'apprentissage automatique sur Kubernetes et offre une gamme de politiques de gestion des tâches et de planification avancées. Volcano intègre des algorithmes, tels que la planification tenant compte de la topologie, l'emballage des bacs et la planification tenant compte des accords de niveau de service (SLA), ce qui se traduit par une amélioration de 20 % des performances globales de l'apprentissage et une réduction significative de la complexité de l'exploitation et de la maintenance pour la plateforme.

L'IA sans serveur est à la pointe du développement du cloud natif.

De nombreuses entreprises et développeurs sont confrontés au défi d'exécuter des applications d'IA de manière efficace et fiable tout en minimisant les coûts d'exploitation. Huawei Cloud a développé une solution à ce problème en identifiant les principales exigences des plateformes d'IA cloud natives et en introduisant un nouveau concept appelé IA sans serveur.

Au cours de son discours, Dennis Gu a expliqué que l'IA sans serveur est conçue pour simplifier les tâches complexes d'entraînement et d'inférence en recommandant intelligemment des politiques parallèles, ce qui facilite l'utilisation par les développeurs. Elle comprend également une fonction d'expansion automatique adaptative GPU/NPU qui ajuste dynamiquement l'allocation des ressources en fonction des changements de charge de travail en temps réel, assurant une exécution efficace des tâches. En outre, l'IA sans serveur dispose d'un cluster GPU/NPU exempt de toute défaillance, ce qui évite aux développeurs de craindre que les défaillances matérielles n'interrompent les services. Plus important encore, l'IA sans serveur est compatible avec les principaux cadres d'IA, ce qui permet aux développeurs d'intégrer facilement leurs outils et modèles d'IA existants.

L'IA sans serveur est également un développement très important pour les fournisseurs de services cloud. L'IA sans serveur offre de nombreux avantages comme une utilisation améliorée du GPU/NPU, des charges de travail hybrides plus efficaces pour l'entraînement, l'inférence et le développement, et l'informatique verte grâce à une meilleure efficacité énergétique, ce qui permet d'économiser de l'argent sur l'électricité. En outre, l'IA sans serveur permet le partage GPU/NPU entre plusieurs locataires dans des espaces différents ou à des moments différents, améliorant ainsi le taux de réutilisation des ressources. L'aspect le plus important de l'IA sans serveur est sa capacité à fournir une qualité de service (QoS) et des SLA garantis pour les tâches d'entraînement et d'inférence, assurant un service stable et de haute qualité.

L'IA sans serveur utilise une couche flexible de planification des ressources qui est construite sur un système d'exploitation virtualisé. Cette couche encapsule les fonctions essentielles des cadres applicatifs dans la couche de médiation des ressources applicatives. Dennis Gu a présenté l'architecture de référence pour l'IA sans serveur. Il pense que cette architecture permet à l'IA sans serveur de piloter automatiquement des ressources d'IA à grande échelle. Cela inclut l'analyse précise des modèles d'utilisation des ressources, le partage des ressources à partir de pools matériels hétérogènes et la garantie de la tolérance aux pannes pendant les tâches d'entraînement de l'IA grâce à la virtualisation GPU/NPU et à la migration de charge en direct. En outre, la planification multidimensionnelle et la mise à l'échelle élastique adaptative améliorent l'utilisation des ressources.

Lors du sous-forum, les experts techniques de Huawei Cloud ont noté que les charges de travail d'IA ou d'apprentissage automatique exécutées sur Kubernetes n'ont cessé d'augmenter. En conséquence, de nombreuses entreprises construisent des plateformes d'IA cloud natives sur plusieurs clusters Kubernetes répartis dans les centres de données et un large éventail de types de GPU. Karmada et Volcano peuvent planifier intelligemment les charges de travail des GPU sur plusieurs clusters, en prenant en charge le transfert des erreurs et en assurant la cohérence et l'efficacité au sein des clusters et entre eux. Ils peuvent également équilibrer l'utilisation des ressources sur l'ensemble du système et la qualité de service des charges de travail avec différentes priorités pour relever les défis de la gestion d'environnements GPU hétérogènes et à grande échelle.

Karmada offre une gestion automatique immédiate et fiable des applications dans des scénarios de cloud multicloud et hybride. Un nombre croissant d'utilisateurs utilisent Karmada pour créer des solutions adaptables et efficaces dans les environnements de production. Karmada a été officiellement mis à niveau vers le projet d'incubation CNCF en 2023, et la communauté attend avec impatience que d'autres partenaires et développeurs se joignent à elle.

Volcano Gang Scheduling est une solution pour l'entraînement distribué de l'IA et les scénarios de big data, qui résout les problèmes d'attente sans fin et de blocage dans les tâches d'entraînement distribuées. Grâce à la topologie des tâches et à l'ordonnancement conscient des E/S, le délai de transmission des tâches d'entraînement distribuées est minimisé, améliorant ainsi les performances d'entraînement de 31 %. De plus, minResources résout les conflits de ressources entre le pilote Spark et l'exécuteur dans les scénarios de concurrence élevée, optimise le degré de parallélisme et améliore les performances de 39,9 %.

Dennis Gu estime que la clé de l'amélioration de la productivité de l'IA réside dans l'agilité des technologies cloud natives et l'innovation des plateformes informatiques d'IA hétérogènes. Huawei Cloud se consacre à l'innovation open source et vise à travailler avec des pairs de l'industrie pour inaugurer une nouvelle ère de l'intelligence.

Photo - https://mma.prnewswire.com/media/2370741/Dennis_Gu_Chief_Architect_Huawei_Cloud.jpg

Ces communiqués peuvent vous intéresser aussi

à 16:45	Shanghai Electric publie son rapport ESG, qui met en évidence ses réalisations en matière de développement durable en 2023
	La consommation de charbon standard est réduite de 3 234 tonnes, avec une réduction des émissions de CO2 de 8 409 tonnes. La consommation d'eau a diminué de 40 %.L'investissement de l'entreprise dans la protection de l'environnement a augmenté à 70...
à 16:16	Entraves majeures au pont Honoré-Mercier le samedi 4 mai 2024
	Le ministère des Transports et de la Mobilité durable informe les usagers de la route que les travaux d'entretien du pont Honoré nécessiteront la mise en place d'entraves majeures le samedi 4 mai 2024. Ces entraves risquent de provoquer une forte...
à 16:06	Shanghai Electric publie un rapport ESG mettant en lumière ses réalisations en matière de développement durable en 2023
	La consommation de charbon standard a été réduite de 3 234 tonnes, et les émissions de CO2 de 8 409 tonnes. La consommation d'eau a diminué de 40 %.L'investissement de la Société dans la protection de l'environnement a augmenté pour passer à 70...
à 16:05	AVIS DE CONVOCATION AUX MÉDIAS - Élections américaines 2024 : La FCCQ reçoit Bruce Heyman, ancien ambassadeur des États-Unis au Canada, et Jean Charest, ancien premier ministre du Québec, pour analyser les prochaines élections et leurs implications pour le Québec et le Canada
	La Fédération des chambres de commerce du Québec (FCCQ) convie les médias à une édition spéciale des RV Internationaux Corex sur le thème des élections américaines. L'événement se tiendra demain, le 30 avril 2024, au Club Saint-James de Montréal....
à 15:00	Cannara Biotech publie ses résultats financiers pour le deuxième trimestre de 2024
	Les revenus nets ont augmenté pour atteindre 19,7 millions de dollars au deuxième trimestre de 2024, contre 13,0 millions de dollars au deuxième trimestre 2023, soit une augmentation de 51,0 %. Le bénéfice brut, avant ajustement de la juste valeur, a...
à 13:47	Fermetures de nuit du pont Pierre-Laporte du 12 au 16 mai 2024
	Le ministère des Transports et de la Mobilité durable informe les usagers de la route que des entraves de nuit seront requises sur le pont Pierre-Laporte du 12 au 16 mai 2024 afin de réaliser différents relevés d'arpentage de la structure. Ces...
	Plus de nouvelles sur Science et technologie...

Communiqué envoyé le 27 mars 2024 à 08:19 et diffusé par :

Huawei Cloud à la KubeCon EU 2024 : libérer l'ère intelligente avec l'innovation open source continue

Ces communiqués peuvent vous intéresser aussi

Le Lézard

Autres sections

Suivez-nous