Le Technology Innovation Institute (TII), centre de recherche mondial et pilier de la recherche appliquée du Conseil de recherche sur les technologies avancées d'Abu Dhabi (ATRC), a annoncé aujourd'hui le lancement de NOOR, le plus grand modèle de traitement du langage naturel (NLP) en langue arabe au monde à ce jour.

L'équipe de chercheurs de haut niveau et de spécialistes de l'intelligence artificielle (IA) au sein du Technology Innovation Institute s'est associée à LightOn, une société technologique dont la mission consiste à libérer le potentiel de l'intelligence artificielle à grande échelle pour les entreprises, afin de révolutionner le modèle NLP arabe. Le modèle NOOR a la capacité d'effectuer des tâches au-delà du domaine de la langue - offrant un pipeline complet de données de haute qualité, y compris l'exploration, le filtrage et la curation à grande échelle. Le modèle facilite la formation et la fourniture de services distribués à grande échelle pour fournir des applications avec une inférence et une spécialisation de modèle efficaces.

Le Dr Ray O. Johnson, PDG de TII et ASPIRE, a déclaré : "Grâce à ce développement, nous sommes sur la bonne voie pour renforcer nos capacités de recherche et nos références, et élever le statut d'Abou Dhabi et des Émirats Arabes Unis en tant qu'écosystème de recherche sérieux. Nos équipes d'experts ont démontré une fois de plus que cette région peut réaliser des résultats révolutionnaires en matière de R&D pour influencer positivement le monde".

Le Dr. Ebtesam Almazrouei, directrice de l'Unité de l'Intelligence artificielle, chez TII, a souligné : "Les grands modèles de langage ont fait fureur au monde du traitement du langage naturel, et nous sommes fiers d'annoncer ce modèle de pointe avec 10 milliards de paramètres, le plus grand modèle NLP arabe au monde. Cet unique ensemble de données arabe unique et volumineux collecté pour former le modèle est le résultat de plusieurs mois de travail acharné comprenant la collecte, la suppression et le filtrage de sources variées. Nous tenons à remercier toute l'équipe qui a travaillé sur ce projet, pour s'assurer que NOOR devienne le modèle d'exploration de référence en arabe pour les universitaires et les entreprises du monde entier".

S'exprimant sur ce lancement, le professeur Mérouane Debbah, chercheur en chef chez Digital Science Research Center et de l'Unité de l'Intelligence artificielle, chez TII, a dit : "Grâce à NOOR, TII a élargi la portée du modèle arabe standard moderne en tirant parti du savoir-faire des grands modèles de langage pour établir une expertise interdisciplinaire de pointe dans cette nouvelle génération de recherche en IA".

Pour constituer les plus grandes bases de données arabes inter domaines de haute qualité au monde, la base de données unique de NOOR composée de plus de 30 milliards mots, et combine des données Web avec des livres, de la poésie, des articles de presse et des informations techniques pour élargir considérablement l'applicabilité du modèle.

Dr Ebtesam Almazrouei a déclaré que le modèle NOOR est basé sur l'architecture populaire de transformateurs. Le décodeur du modèle, dont la structure est similaire au transformateur génératif préformé GPT-3, est programmé pour s'attaquer aux tâches génératives. Cette structure a été mise à jour pour refléter les derniers développements dans le monde de l'apprentissage automatique, y compris des améliorations telles que de meilleures intégrations positionnelles. Pour garantir la qualité à grande échelle dans l'ensemble de données NOOR, l'équipe TII a conçu un pipeline de filtrage automatisé basé sur des techniques d'apprentissage automatique. Ces outils identifient le texte correspondant aux références de qualité et protègent le modèle contre l'exposition au spam.

Formé sur le processeur graphique 128 GPU A100, NOOR s'appuie sur une approche de parallélisme 3D de pointe avec Megatron + DeepSpeed ??pour permettre la distribution des calculs tout en garantissant une utilisation efficace des ressources matérielles disponibles.

La directrice de l'Unité de l'Intelligence artificielle a noté que cet accomplissement n'est que la première étape des efforts de l'unité visant à contribuer à la stratégie plus large des EAU en matière d'intelligence artificielle.

Il convient de noter que le modèle a été appelé "NOOR", qui veut dire « lumière » ou éblouissement en arabe, pour souligner le lien entre le modèle de la langue arabe et l'éclaircissement de l'esprit.

