Analyse documentaire sur le développement de l'intelligence artificielle pour défendre les droits des animaux
Résumé
Le domaine de l'intelligence artificielle (IA) et de l'apprentissage machine (ML) évolue rapidement, présentant à la fois des opportunités et des défis pour des organisations comme Open Paws qui visent à tirer parti de ces technologies pour la défense des animaux.
Cette revue de la littérature explore les dernières recherches et techniques qui peuvent être exploitées pour développer un système d'intelligence artificielle particulièrement adapté à la promotion des intérêts des animaux.
Principales conclusions et recommandations :
Une conservation efficace des données, y compris des ensembles de données multilingues et des techniques de débiaisage, est essentielle pour former des systèmes d'intelligence artificielle exempts de préjugés spécistes et adaptés à divers contextes culturels et linguistiques.
Les approches stratégiques de préformation, telles que l'ajustement des instructions et la formation basée sur les graphes, peuvent améliorer les capacités de raisonnement de l'IA et les connaissances spécifiques au domaine.
Les architectures de systèmes telles que le mélange d'experts (MoE) et les conceptions cognitives modulaires sont prometteuses pour la création d'agents d'intelligence artificielle adaptables et spécialisés, capables de prendre des décisions et d'exécuter des tâches de manière autonome.
L'affinement des modèles à partir du retour d'information de l'homme et de l'IA, associé à des méthodes avancées d'ingénierie et d'enchaînement des messages, offre des possibilités d'amélioration continue des performances du système et des alignements éthiques.
Les orientations futures pourraient inclure la poursuite des progrès dans les architectures d'IA multimodales, cognitives et décentralisées, et la mise en œuvre de technologies émergentes telles que les interfaces cerveau-ordinateur, les dispositifs de neurofeedback et la réalité virtuelle, afin d'améliorer l'efficacité et la portée des efforts de défense des animaux de manière innovante et responsable sur le plan éthique.
Méthode
Nous avons puisé nos informations dans un ensemble d'articles récemment publiés, principalement au cours des trois derniers mois, bien que certains travaux fondamentaux remontent à plus longtemps.
Notre processus de sélection a consisté à suivre un flux RSS combiné de plusieurs revues qui publient des articles sur l'IA et à sélectionner manuellement ceux qui correspondent à notre mission, ce qui nous a permis d'obtenir environ 1 000 résumés.
Notre exploration a commencé par ces résumés, puis s'est poursuivie par une lecture approfondie et sélective. Nous avons écarté toutes les études qui se sont avérées non pertinentes après un examen plus approfondi.
Nous avons organisé cette analyse en fonction de l'applicabilité, en commençant par les recherches immédiates et exploitables et en terminant par les orientations futures qui pourraient devenir pertinentes à mesure qu'Open Paws se développe et que la technologie de l'IA s'améliore.
L'essence de chaque document est résumée en termes simples et directement accessible par un lien hypertexte, ce qui simplifie les recherches ultérieures tout en donnant un aperçu de l'importance de ce document pour l'avancement de notre mission.
L'examen commence par la création et la gestion de la base de données, passe par le pré-entraînement LLM et le réglage fin basé sur le retour d'information (qu'il provienne d'humains ou de l'IA), se plonge dans les complexités des chaînes d'invite et des architectures d'agents, et se termine par les capacités d'IA prospectives qui sont prometteuses pour l'avenir de l'IA d'Open Paws.
Gestion et conservation des bases de données
La gestion efficace et sophistiquée des données est la pierre angulaire de la défense des animaux par l'IA d'Open Paws.
En exploitant l'automatisation avancée, nous visons à affiner notre base de données à l'aide de cadres robustes de prétraitement, de normalisation et d'amélioration de la qualité.
Une enquête sur la gestion des données pour les LLM a révélé que si l'on entraîne un LLM au-delà d'une époque, l'entraînement supplémentaire doit être effectué sur une petite sous-section des données de la plus haute qualité. Les auteurs recommandent d'avoir un score de qualité pour filtrer dans votre base de données et de dédupliquer automatiquement en utilisant la recherche de similarité sémantique (c.-à-d. supprimer les entrées qui sont trop similaires sur le plan sémantique). Ils ont constaté qu'un éventail diversifié de domaines et d'instructions est essentiel et que des instructions plus complexes conduisent à de meilleures performances en aval.
SemDeDup peut être utilisé pour trouver et supprimer la déduplication sémantique dans les ensembles de formation pour les LLM.
Nous pouvons utiliser tasksource pour le prétraitement des données et la normalisation des ensembles de données HuggingFace, en les formatant automatiquement de manière cohérente.
L'automatisation de la gestion de la base de données d'Open Paws permet de transformer de vastes ensembles de données en informations exploitables.
Extraction et structuration des données
Avec les outils d'IA, Open Paws voit une voie pour transformer les données non structurées en informations précieuses pour les stratégies de plaidoyer. Cependant, il est primordial de garantir la précision et l'impartialité des extractions automatisées.
Jellyfish, un LLM open-source conçu spécifiquement pour le prétraitement des données, peut également être utilisé pour d'autres tâches liées aux données, telles que la mise en correspondance de schémas et d'entités. Il s'agit d'un petit modèle qui peut être exécuté sur un seul GPU avec 13B paramètres et qui pourrait être utilisé pour automatiser une grande partie de l'extraction et de la structuration des données dont nous avons besoin.
Bonito est un modèle open-source qui permet de transformer n'importe quelle donnée non structurée en données d'entraînement spécifiques à une tâche pour l'ajustement des instructions.
LLMiner peut également extraire des paires de questions-réponses de documents non structurés par le biais d'un raisonnement par chaîne de pensée.
Cet article de Towards Data Science présente un cadre automatisé permettant de transformer automatiquement n'importe quel texte en un graphique.
MANTRA peut être utilisé pour extraire et analyser les tendances des données non structurées des médias sociaux.
AutoIE peut être utilisé pour extraire des données de PDF scientifiques.
Nous pouvons utiliser une approche de pyramide des connaissances pour extraire des connaissances de haut niveau à partir des connaissances de bas niveau existantes dans les graphes.
La perspective d'automatiser la conversion des buzz des médias sociaux et des textes scientifiques denses en connaissances digestes et exploitables est passionnante pour Open Paws.
Cependant, l'adoption de ces outils puissants exige une rigueur dans le contrôle de la qualité et l'adaptabilité, garantissant que les données que nous exploitons sont à la fois fiables et pertinentes, favorisant des efforts de plaidoyer qui ne sont pas seulement réactifs, mais aussi profondément en résonance avec notre cause.
Données synthétiques
Les données synthétiques sont un outil qui présente un potentiel et un risque importants pour le développement de l'IA.
Lorsqu'elle est utilisée judicieusement, elle favorise la généralisation et enrichit la simulation de conversation ; cependant, si elle est mal gérée, elle peut nuire à la stabilité du modèle et aux fonctions cognitives telles que le raisonnement.
Un mélange judicieux de données synthétiques et authentiques est impératif.
L' article Curse of Recursion montre comment les données synthétiques peuvent induire un effondrement du modèle, en faisant oublier aux modèles les données de leur pré-entraînement. Cela souligne la nécessité de faire preuve d'une grande prudence lors de l'utilisation de données synthétiques.
The False Promise of Imitating Proprietary LLMs a montré que l'entraînement de petits modèles sur des données synthétiques provenant de grands modèles augmente les hallucinations et diminue les capacités de raisonnement et de logique. Cela souligne l'importance d'un pré-entraînement sur des données de haute qualité, et non d'un réglage fin sur des données de faible qualité.
Le simulateur d'utilisateur Socratic a été en mesure d'améliorer les performances des LLM de base avec des données synthétiques en modélisant la formation sur de véritables conversations entre humains et IA, puis en utilisant ce modèle affiné pour produire des sorties qui deviennent ensuite les entrées pour la formation d'un nouveau modèle appelé PlatoLM. Cela montre que lorsque des données synthétiques sont utilisées, elles doivent modéliser aussi fidèlement que possible les données générées par l'homme pour être efficaces.
La distillation impossible a montré qu'en utilisant l'autodistillation entre un LM d'étudiant et un LM d'enseignant, il est possible de générer un ensemble de données très diversifié et de grande qualité sans retour d'informations de la part de l'homme. Lorsqu'un LM a été formé sur ces résultats, il a obtenu des résultats nettement meilleurs sur un nombre beaucoup plus restreint de paramètres et a mieux généralisé que les LM formés sur les données de retour d'information humaine. Cela montre que la distillation des données synthétiques jusqu'aux connaissances de base produit de bien meilleurs résultats que l'utilisation de données synthétiques "brutes" (c'est-à-dire des conversations exportées avec un système tel que ChatGPT).
Genixer démontre que l'utilisation de modèles multimodaux pour générer des données de réglage des instructions peut améliorer les performances des tâches de sous-titrage d'images et d'assurance qualité visuelle. Cela démontre que les données synthétiques sont plus utiles dans les tâches multimodales.
Pour Open Paws, les données synthétiques peuvent être utiles ou nuisibles selon la manière dont elles sont utilisées. Notre stratégie doit comporter une approche équilibrée, multimodale, distillée et humaine de la synthèse des données.
Langue et linguistique
En incorporant seulement 1 % de données personnalisées et de haute qualité dans des langues supplémentaires, l'IA peut maîtriser efficacement de nouvelles langues.
Nous devons donner la priorité aux contenus authentiques émanant de militants locaux et affiner le filtrage des données, en veillant à éliminer les préjugés spécistes.
Un effort concerté pour embrasser la diversité linguistique est nécessaire, notamment en veillant à ce que notre système ne soit pas formé uniquement ou centralement sur des documents et des sources d'information en langue anglaise.
Cela sera essentiel pour que nos modèles d'IA restent sensibles à la culture et capables de s'adapter à la langue.
La langue a un effet beaucoup plus profond sur notre perception du monde que nous ne le pensons habituellement, et une grande partie de cet effet ne peut être saisie sans la compréhension des personnes qui parlent nativement cette langue. Par exemple, ce document a montré que les arabophones et les anglophones perçoivent le temps comme se déplaçant dans des directions différentes, alors que les arabophones le perçoivent comme se déplaçant de droite à gauche et les anglophones comme se déplaçant de gauche à droite. Si vous deviez traduire les concepts relatifs à la façon dont le temps s'inscrit dans l'espace en utilisant uniquement des traductions automatiques mot à mot, cette nuance vous échapperait. C'est un petit exemple de la raison pour laquelle nous devons utiliser des textes rédigés par des locuteurs natifs pour rendre notre base de données multilingue, et ne pas nous fier exclusivement aux traductions automatiques.
Il existe une hypothèse appelée relativité linguistique qui suggère que la langue influence et façonne la vision du monde de ses locuteurs et leur cognition, et bien que la version la plus forte de cette affirmation (selon laquelle la langue détermine la pensée) est probablement fausse, il existe des preuves empiriques solides à l'appui de la version la plus faible de cette affirmation (selon laquelle la langue influence la pensée). Cela semble s'appliquer aussi bien à l'IA qu'à l'homme, dans la mesure où l'IA réagit souvent différemment à la même demande lorsqu'elle est traduite dans une autre langue.
Nous sommes particulièrement préoccupés par la conclusion de l'article sur la barrière linguistique selon laquelle les LLM sont beaucoup plus susceptibles de produire des réponses dangereuses ou non pertinentes à des invites malveillantes dans des langues à faibles ressources (celles qui apparaissent peu fréquemment dans les données de préformation). Cet effet semble être "codé en dur" dans le LLM pendant la préformation et ne peut pas être annulé ultérieurement par l'ajustement des instructions. Cela signifie que si nous ne disposons pas de données suffisantes dans une langue pendant la préformation, il est très peu probable que nous puissions progresser dans la suppression du spécisme dans cette langue pendant la mise au point, même si nous procédons à une mise au point dans cette langue.
Heureusement, nous n'avons pas besoin d'énormes ensembles de données dans les langues sous-représentées pour avoir un impact significatif lors de la préformation. LLaMA Beyond English a montré que les modèles peuvent atteindre le meilleur transfert de connaissances et de qualité de réponse dans les langues sous-représentées avec moins de 1 % des données de pré-entraînement. Ainsi, même si la grande majorité de nos données sont en anglais, il suffira d'en avoir au moins une petite partie dans d'autres langues pour constater d'énormes progrès dans les tâches en aval pour ces langues sous-représentées. Cependant, Open Paws prendra des mesures supplémentaires pour s'assurer que notre ensemble de données est accessible à de nombreuses autres communautés linguistiques et qu'il est conscient de leurs expériences et de leurs points de vue. Il est important que nous soyons non seulement capables de comprendre ou de générer des textes dans d'autres langues, mais que nous restions sensibles à leurs contextes culturels.
Une autre considération est que les LLM peuvent avoir des difficultés avec des groupes de langues tels que le chinois, par rapport à d'autres langues qui utilisent des scripts ou des alphabets romanisés. Les LLM utilisant des approches basées sur les jetons ont eu du mal à planifier les jetons et à représenter les chaînes de caractères chinois comme des jetons. Cela a été démontré dans l'article sur les LLM sans jeton, où les modèles de langage basés sur les jetons avaient tendance à échouer aux tests d'orthographe en chinois, alors que les LLM sans jeton utilisant des caractères ou des octets au lieu de jetons avaient de bien meilleures performances.
L'une des explications possibles est la diversité des caractères chinois par rapport à l'anglais. L'anglais contient 26 caractères, alors que le chinois en contient plus de 50 000 dans l'usage courant, et le nombre de jetons possibles augmente de façon exponentielle à mesure que l'on augmente le nombre de caractères par jeton (par exemple, si vous avez un jeton de 3 caractères, il y a 17 576 jetons possibles en anglais et 125 000 000 000 000 000 en chinois).
Il existe également de nombreuses différences culturelles et linguistiques entre les différentes variantes linguistiques qui utilisent les caractères chinois (par exemple, Taiwan et la Chine ont des contextes culturels et linguistiques très différents, tandis que le mandarin et le cantonais utilisent tous deux les mêmes caractères, malgré de nombreuses différences).
Le LLM taïwanais est un exemple de modèle et d'ensemble de données à source ouverte conçu pour tenir compte des différences culturelles et linguistiques entre Taïwan et la Chine. D'une manière générale, nous pouvons apprendre des défenseurs mondiaux et locaux comment aborder au mieux l'interface avec leurs communautés linguistiques - lorsque les méthodes courantes de LLM se heurtent à la sensibilité et à la prise de conscience culturelles, nous devrions nous tourner vers ces communautés linguistiques pour obtenir des réponses sur la manière de représenter au mieux leur langue.
Nous devons veiller à collecter un ensemble de données diversifiées et multilingues pour le préapprentissage et à faire participer des volontaires locaux issus d'une grande variété de régions et de cultures à la collecte des informations en retour.
Nous devrions également envisager de former un modèle spécifique au chinois qui fonctionne sur des octets ou des caractères, et un modèle multilingue distinct fonctionnant sur des jetons pour d'autres langues.
Modalités multiples
Les capacités multimodales sont la pierre angulaire de l'extension de la portée et de la pertinence des efforts d'Open Paws en matière d'IA.
Le choix entre le déploiement d'un réseau intrinsèquement multimodal ou l'intégration progressive de multiples modules sensoriels, outils ou encodeurs au sein ou au-dessus d'un LLM dépend de notre réserve de ressources et de la trajectoire de l'IA à code source ouvert.
Néanmoins, la conservation proactive d'un ensemble de données multimodales nous permet de nous adapter et de prospérer au milieu des changements technologiques. La multimodalité n'est pas seulement une option, c'est une nécessité.
L'article Modality Plug-and-Play montre que des encodeurs unimodaux peuvent être ajoutés à un ensemble flexible de blocs LLM, ce qui permet de maintenir la précision entre les modalités tout en réduisant considérablement les coûts de formation. Cela pourrait être une bonne option si nous obtenons moins de fonds que prévu et/ou si les LLM de pointe sont nettement meilleurs que les MLLM de pointe lorsque nous commençons la formation.
DreamLLM étend l'apprentissage multimodal en apprenant directement à partir de données brutes pour le texte et les images, sans avoir recours à des représentations intermédiaires telles que les encastrements CLIP. Cette approche de bout en bout lui permet de générer et de comprendre des contenus multimodaux, y compris des images et du texte, dans leur forme brute.
OneLLM ajoute 8 modalités aux LLM en une seule fois en utilisant un encodeur multimodal, ce qui permet d'ajouter plus efficacement des modalités multiples qu'en utilisant un encodeur différent pour chaque modalité.
ByteFormer travaille au niveau de l'octet plutôt qu'au niveau du jeton afin de prendre en compte toutes les modalités possibles. Au lieu de prédire le prochain jeton, il prédit les prochains octets, ce qui supprime la nécessité de décoder le fichier au moment de l'inférence.
ImageBind-LLM introduit une méthode de réglage des instructions multimodalités qui intègre efficacement les LLM avec de multiples modalités telles que l'audio, les nuages de points 3D et la vidéo, au-delà des seules images et du texte. Contrairement aux approches existantes qui se concentrent sur le réglage des instructions image-texte, ImageBind-LLM tire parti d'un réseau de liaison unique et d'un mécanisme de déclenchement sans attention pour aligner et injecter des caractéristiques visuelles et d'autres modalités directement dans les jetons de mots du modèle LLaMA, ce qui lui permet de comprendre et de générer des réponses linguistiques à une gamme plus large d'entrées multi-modalités.
En reconnaissant la nature multiforme des questions relatives aux droits des animaux, Open Paws devrait adopter une approche multimodale.
En jetant les bases d'une collecte de données multimodales par le biais de textes, d'images et de sons, ainsi que de types de données nouveaux et émergents, nous pouvons nous assurer que nos modèles restent à jour au fur et à mesure des avancées technologiques.
Préformation
La préformation à l'IA dans le domaine de la défense des animaux devrait intégrer stratégiquement des ensembles de données avec des tâches de raisonnement et de rôle spécifiques, éventuellement représentées sous forme de graphiques pour une plus grande précision factuelle.
L'architecture "mélange d'experts" (ou des architectures similaires qui s'en inspirent avec la possibilité d'une formation asynchrone d'experts spécifiques à un domaine) pourrait être la clé pour relever divers défis en matière de plaidoyer.
Les études existantes fournissent des indications sur les paramètres d'entraînement optimaux - époques, taux d'apprentissage, volume de données et éparpillement - nous préparant à un certain niveau de perte de données tout en anticipant des gains de performance dans des tâches essentielles.
Scaling Expert Language Models with Unsupervised Domain Discovery (mise à l'échelle des modèles linguistiques experts avec la découverte de domaines non supervisés ) regroupe des documents apparentés, forme des LM "experts" pour chaque groupe et les combine pour l'inférence. Le fonctionnement est similaire à celui de MoE, mais il présente l'avantage supplémentaire de pouvoir être formé de manière asynchrone.
L'article How to Rewarm Your Model a montré que si le réchauffement des modèles augmente d'abord la perte sur les LLM, il améliore à long terme les performances en aval, surpassant les modèles formés à partir de zéro - même pour un grand ensemble de données en aval. Il a également montré que l'augmentation du taux d'apprentissage pendant la préformation continue est la plus efficace et que la préformation continue peut être très efficace à une fraction du coût par rapport à la préformation d'un modèle à partir de zéro.
L'article " Give us the Facts" a montré que les codeurs de connaissances et les tâches de préformation guidées par les connaissances peuvent être utilisés pour augmenter les LLM avec la compréhension des graphes et que cela conduit à une diminution des hallucinations dans les tâches en aval.
Comprendre l'apprentissage en contexte grâce à des données de préformation complémentaires a montré que les données de préformation complémentaires pour l'apprentissage en contexte tendent à contenir une plus grande proportion d'éléments rares et de longue traîne et présentent des exemples plus difficiles pour le modèle, ce qui peut encourager le modèle à apprendre à partir de contextes divers et complexes.
La découverte de compétences latentes pour le raisonnement par chaîne de pensée soutient indirectement le processus de préformation en identifiant et en utilisant des compétences de raisonnement latentes à partir de données non supervisées. Cela permet de créer des exemples de formation plus ciblés et plus efficaces, en améliorant la phase de préformation d'un modèle avec des compétences qui améliorent ses capacités de raisonnement.
LocMoE se concentre sur la réduction des frais généraux de formation en optimisant le routage des jetons et les stratégies de communication. Il introduit une nouvelle stratégie de routage qui favorise l'équilibre de la charge et la localité, minimisant ainsi la surcharge de communication et améliorant les performances d'apprentissage du modèle. LocMoE démontre des réductions significatives du temps de formation tout en maintenant la précision, offrant une solution pratique aux goulots d'étranglement de performance des modèles MoE existants.
L'étude Scaling Data-Constrained Language Models (mise à l'échelle des modèles linguistiques contraints par les données) a révélé que 4 époques constituent le "point idéal" pour le réentraînement sur les mêmes données.
Scaling Laws for Sparsely-Connected Foundation Models présente une nouvelle loi de mise à l'échelle qui relie l'éparpillement, la taille du modèle et les données d'apprentissage, en identifiant un niveau "d'éparpillement optimal" qui maximise les performances pour une taille de modèle et une quantité de données données données. Cette recherche pourrait guider la formation et le déploiement efficaces de grands modèles en tirant parti de l'éparpillement pour équilibrer les coûts de calcul et les performances du modèle.
Rethinking Learning Rate Tuning in the Era of Large Language Models présente LRBench++, un outil de benchmarking pour évaluer et faciliter les politiques de taux d'apprentissage pour les réseaux neuronaux traditionnels et les LLM.
Critical Data Size from a Grokking Perspective étudie la taille critique des données pour que les modèles de langage passent de la mémorisation à la généralisation, un phénomène appelé "grokking". Elle introduit une configuration de grokking qui reproduit le grokking dans des modèles de langage simples par le biais d'initialisations spécifiques et d'ajustements de la décroissance des poids. L'étude identifie une taille critique d'ensemble de données où les modèles commencent à se généraliser au-delà de la mémorisation. Cette taille augmente avec la taille du modèle, ce qui suggère que les modèles plus importants ont besoin de plus de données pour un apprentissage et une généralisation efficaces.
ReLoRA est une méthode qui applique des mises à jour de faible rang pour former efficacement des réseaux neuronaux de rang élevé, en particulier des transformateurs. L'article montre que ReLoRA peut atteindre des performances comparables à celles des méthodes de formation traditionnelles, mais avec une efficacité accrue, en particulier lorsque la taille du modèle augmente.
Le développement stratégique de l'IA au sein d'Open Paws repose sur un régime de pré-entraînement qui permet au modèle d'appréhender des questions de défense complexes.
En intégrant des ensembles de données tissés avec un raisonnement explicite et des exemples axés sur les tâches, et en les structurant potentiellement sous forme de graphes, nous cultivons une IA dotée d'une solide précision factuelle, intégrale pour les tâches complexes de plaidoyer.
L'utilisation d'une architecture de type MoE permet de cultiver des compétences spécialisées, favorisant ainsi l'expertise dans un domaine crucial pour la défense des animaux sur mesure.
Grâce à des données empiriques sur les périodes d'entraînement, les taux d'apprentissage et les structures de données, nous pouvons concevoir une IA qui non seulement excelle sur le plan technique, mais qui est aussi profondément en phase avec les mandats éthiques de notre mission.
Élagage, compression, mélange et fusion
L'élagage est efficace pour la compression des modèles mais n'est pas un moyen de supprimer définitivement des concepts, car les informations élaguées peuvent être récupérées.
Les décisions relatives à l'élimination des neurones doivent tenir compte de leur influence collective sur les résultats.
La performance du modèle peut être améliorée en mélangeant ou en fusionnant des modèles plus petits.
En outre, la formation d'un modèle compact, puis le transfert des modifications apprises vers un modèle plus grand, permettent de réduire les coûts associés à la formation à grande échelle.
Cela suggère une nouvelle approche : affiner une cohorte de petits modèles spécifiques à un domaine et amalgamer leur expertise dans des systèmes plus étendus, créant ainsi un modèle efficace à grande échelle reflétant les investissements de formation à plus petite échelle.
LoRA gèle les poids du modèle pré-entraîné et injecte des matrices de décomposition des rangs entraînables dans chaque couche de l'architecture Transformer, ce qui réduit considérablement le nombre de paramètres entraînables pour les tâches en aval. Par rapport au GPT-3 175B affiné avec Adam, LoRA peut réduire le nombre de paramètres entraînables de 10 000 fois et les besoins en mémoire du GPU de 3 fois.
Large Language Models Relearn Removal Concepts montre que les modèles peuvent rapidement retrouver leurs performances après l'élagage en déplaçant les concepts avancés vers des couches plus anciennes et en réattribuant les concepts élagués à des neurones amorcés ayant une sémantique similaire.
L'utilisation de la théorie des jeux coopératifs pour élaguer les réseaux neuronaux introduit une méthode appelée élagage assisté par la théorie des jeux (GTAP), qui réduit la taille du réseau neuronal tout en préservant sa précision prédictive. GTAP repose sur l'élimination des neurones du réseau sur la base d'une estimation de leur impact conjoint sur la qualité de la prédiction au moyen de solutions fondées sur la théorie des jeux.
EvoMerge utilise la fusion de modèles pour le croisement de poids et le réglage fin pour la mutation de poids, établissant un processus évolutif pour améliorer les modèles au-delà des limites du réglage fin traditionnel.
Blending Is All You Need suggère que lorsque des modèles spécifiques de petite taille sont combinés de manière synergique, ils peuvent potentiellement surpasser ou égaler les capacités de leurs homologues beaucoup plus grands.
LM-Cocktail propose une méthode permettant d'affiner les modèles linguistiques tout en préservant leurs capacités générales, afin de remédier à l'oubli catastrophique. Cette technique fusionne les modèles affinés avec le modèle de base pré-entraîné ou d'autres modèles spécifiques au domaine par le biais d'une moyenne pondérée.
Tuning Language Models by Proxy présente le proxy-tuning, une méthode d'adaptation des grands modèles de langage (LLM) au moment du décodage sans modifier leurs poids. En utilisant un modèle plus petit et finement réglé (expert) et sa version non réglée (anti-expert), le réglage par procuration ajuste la sortie d'un LLM de base pour émuler le réglage fin. Cette approche personnalise efficacement les grands LLM, montrant des améliorations significatives dans diverses tâches et repères tout en conservant les capacités et connaissances générales du modèle.
QLoRA est une méthode efficace de réglage fin conçue pour les grands modèles de langage quantifiés, qui permet un réglage fin sur un seul GPU tout en préservant les performances. Elle rétropropage les gradients à travers un modèle quantifié dans des adaptateurs de rang faible, ce qui permet d'obtenir des performances élevées avec des besoins en mémoire considérablement réduits.
L'intégration des techniques d'élagage, de compression, de mélange et de fusion représente une opportunité de transformation pour Open Paws.
Grâce à ces méthodes, nous pouvons développer des modèles d'IA compacts mais redoutables, imprégnés d'une expertise spécifique à un domaine, en évitant les coûts exorbitants généralement liés à la formation de grands modèles.
Ces outils personnalisés nous offrent la souplesse nécessaire pour déployer l'IA dans diverses tâches de défense des animaux et nous permettent d'accroître rapidement nos capacités en matière d'IA afin de répondre à l'évolution des défis dans le domaine de la défense des animaux.
L'intégration de la perspicacité de petits modèles spécifiques à un domaine dans des modèles plus vastes et plus complets offre une trajectoire rentable pour l'amélioration continue de l'acuité et de la réactivité de l'IA face au tissu complexe de la défense des animaux. Ainsi, les avancées technologiques se traduisent directement par une efficacité accrue et un élargissement de notre impact en matière de défense des animaux.
Formation sur le retour d'information humain
Pour améliorer l'efficacité de l'IA dans la défense des animaux, les méthodes de formation à multiples facettes dépassent les simples comparaisons binaires. L'utilisation d'échelles de classement avec un retour d'information détaillé et l'introduction d'exemples affirmatifs et contrefactuels peuvent améliorer de manière significative la compréhension par l'IA des comportements souhaités et indésirables.
En outre, les progrès réalisés dans les algorithmes tels que DPO, CRINGE et MPO démontrent des performances supérieures à celles de PPO.
Lors de l'exécution d'une formation basée sur le retour d'information humain, il convient d'adopter un ensemble de fonctions de récompense, comprenant à la fois des évaluations subjectives et des mesures objectives.
Il est tout aussi essentiel de s'assurer le concours d'un groupe de contributeurs humains variés et inclusifs pour obtenir un retour d'information, afin de cultiver une perspective d'IA bien équilibrée et éthique.
Le DPO forme la politique du LLM sur la base du retour d'information humain directement plutôt que de former un modèle de récompense pour RL. Cette méthode est plus facile à mettre en œuvre et moins coûteuse à former, mais elle peut s'avérer difficile, voire impossible, à utiliser avec une variété de fonctions de récompense. Selon le document de la MPO, elle risque également d'entraîner un surajustement.
MPO combine les avantages de l'optimisation directe des préférences et de l'apprentissage par renforcement à partir du retour d'information humain. MPO utilise l'échantillonnage d'importance pour l'optimisation hors politique, ce qui simplifie le processus d'apprentissage en supprimant la nécessité d'un modèle de récompense et d'une politique de référence. Elle relève le défi d'aligner les modèles sur les préférences humaines sans la complexité et l'instabilité des méthodes précédentes.
L'optimisation des préférences directes contrefactuelles permet d'affiner les LLM afin d'encourager les résultats souhaitables et de décourager ceux qui ne le sont pas, ce qui permet de réduire les biais et d'améliorer l'alignement éthique sans intervention humaine importante.
Améliorer le raisonnement logique dans les grands modèles de langage pour faciliter les applications juridiques introduit l'apprentissage par renforcement à partir du retour d'information logique (RLLF), qui vise à améliorer le raisonnement des MLA en intégrant le retour d'information logique dans le processus de formation. Le RLLF est proposé comme solution aux limites des modèles actuels dans le traitement des tâches complexes de raisonnement juridique.
L'apprentissage par renforcement basé sur l'évaluation s'appuie sur les évaluations humaines de segments individuels plutôt que sur des préférences ou des démonstrations par paire pour apprendre les fonctions de récompense. Cette méthode vise à surmonter les limites des techniques d'apprentissage par renforcement existantes en fournissant des évaluations absolues plus informatives des échantillons. Le cadre unique de RbRL et la fonction de perte d'entropie croisée multi-classes permettent un apprentissage efficace des politiques à partir d'évaluations humaines qualitatives, ce qui est prometteur pour améliorer l'efficacité des échantillons et aligner plus étroitement les comportements de l'IA sur le jugement humain.
Le CRINGE par paire semble être plus performant que le CRINGE binaire et le DPO. Dans d'autres algorithmes, les classements et le retour d'information détaillé ont été plus performants que les comparaisons par paires, de sorte qu'il semble possible, s'il existe un moyen de les mettre en œuvre dans CRINGE, d'obtenir des performances SOTA, mais des recherches supplémentaires sont nécessaires pour voir si c'est possible.
L'article sur l'intelligence artificielle artificielle artificielle (pas de faute de frappe) propose une mesure de la force des préférences basée sur un modèle de vote à récompenses multiples. En utilisant cette métrique proposée, nous pouvons distinguer les préférences incorrectes, ambiguës et normales au sein de l'ensemble de données original. Ensuite, nous pouvons corriger les étiquettes des préférences incorrectes et lisser les étiquettes des préférences ambiguës afin d'éviter l'ajustement excessif du modèle sur ces points de données de faible qualité.
Un résultat intéressant de Secrets of RLHF in Large Language Models Part II : Reward Modeling est que l'accord entre les chercheurs et les travailleurs des données pour les préférences en matière de réponse est très faible. Cela souligne l'importance d'utiliser un groupe très diversifié de volontaires pour la collecte des commentaires, en particulier parce que nous avons besoin de la participation d'un grand nombre d'utilisateurs non techniques.
Le document intitulé "Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback" (Problèmes ouverts et limites fondamentales de l'apprentissage par renforcement à partir de données humaines ) met en évidence plusieurs problèmes liés à l'apprentissage par renforcement. Tout d'abord, le biais émerge de la sélection des travailleurs de l'information. Deuxièmement, la plupart des algorithmes de RLHF ne fonctionnent pas bien pour une diversité d'opinions et d'objectifs, car une fonction de récompense unique est trop simpliste pour tenir compte de toute la diversité des préférences humaines. L'"approbation" devient la fonction optimisée, plutôt que le "bénéfice". Plusieurs techniques sont proposées pour améliorer les performances de la RLHF. Les démonstrations et les options multiples pour les objections au contenu devraient être utilisées plutôt que le retour d'information binaire, l'alignement devrait commencer lors de la formation préalable et les travailleurs des données devraient être diversifiés et bien formés
L'atténuation de la taxe d'alignement de la RLHF suggère également que la moyenne des poids des modèles avant et après la RLHF, en particulier dans les couches inférieures du transformateur, peut améliorer le compromis performance-récompense en augmentant la diversité des caractéristiques. La méthode AMA (Adaptive Model Averaging) proposée ajuste dynamiquement les ratios de combinaison de couches afin d'optimiser les récompenses d'alignement tout en minimisant l'oubli. Cette méthode a été validée par divers algorithmes et modèles RLHF tels que OpenLLaMA-3B et Mistral-7B.
Fine-Grained Human Feedback Gives Better Rewards for Language Model Training propose un cadre qui permet la formation et l'apprentissage à partir de fonctions de récompense qui sont fines à deux égards : (1) la densité, en fournissant une récompense après chaque segment (par exemple, une phrase) est généré ; et (2) l'incorporation de plusieurs modèles de récompense associés à différents types de retour d'information (par exemple, l'incorrection factuelle, la non-pertinence et l'incomplétude de l'information).
Le rapport technique et la fiche de sécurité du GPT-4 décrivent les effets de la RLHF, mais ne détaillent pas davantage l'architecture du modèle. Il est intéressant de noter que les résultats des examens ne changent pas de manière significative lors du réglage fin avec RLHF. Cela suggère que les gains d'intelligence ne se produisent pas lors de la mise au point, mais lors de la préformation, ce qui à son tour suggère que pour que notre IA acquière des connaissances sur les questions relatives aux animaux, elle doit acquérir ces connaissances lors de la préformation. Un autre résultat intéressant est que GPT-4 était conscient de son degré de certitude avant RLHF, mais pas après. Cela suggère qu'en optimisant entièrement l'"approbation", le modèle apprend à exprimer un excès de confiance dans sa réponse plutôt que d'admettre qu'il ne sait pas quelque chose. Le GPT-4 a utilisé une technique de réglage fin supplémentaire avec des modèles de récompense basés sur des règles pour qu'il cesse de refuser des demandes innocentes (car le GPT3.5 refusait souvent des demandes innocentes en tant qu'effet secondaire de la RLHF originale). Cela semble avoir été efficace et facile à reproduire en utilisant GPT-4 lui-même comme classificateur zéro pour les données d'entraînement. Il est également important de noter que la fiche de sécurité précise que le filtrage de l'ensemble des données de pré-entraînement a également joué un rôle essentiel dans l'alignement du modèle, ce qui confirme un grand nombre d'autres recherches que nous avons examinées et qui suggèrent que la RLHF ne sera pas suffisante à elle seule pour parvenir à une IA sans spécisme. Ils notent également que le modèle présente un comportement indésirable lorsque "les instructions aux étiqueteurs sont sous-spécifiées" pour les messages-guides. Cela suggère (avec d'autres recherches évoquées) que nous devons nous assurer que les volontaires humains reçoivent des instructions adéquates. Ils ont également réussi à réduire les hallucinations grâce à un processus auto-itératif dans lequel le GPT-4 génère une réponse, vérifie s'il y a des hallucinations, réécrit la réponse si des hallucinations sont détectées et répète ce processus jusqu'à cinq fois jusqu'à ce qu'aucune hallucination ne soit détectée.
Le retour d'information humain doit être diversifié, précis et basé sur le classement. L'algorithme spécifique utilisé pour mettre en œuvre la formation basée sur le retour d'information humain devrait probablement être une variété de DPO, MPO ou CRINGE plutôt que PPO et nous obtiendrons probablement de meilleurs résultats en utilisant plusieurs fonctions de récompense plutôt qu'une fonction de récompense unique.
Formation sur le retour d'information sur l'IA
Le plafond des performances de l'IA utilisant des modèles de récompense statiques équivaut à la capacité humaine, mais l'auto-modification itérative laisse entrevoir des progrès illimités. L'IA évoluant par autocritique n'est pas limitée par la compétence humaine, même si les logiciels et le matériel imposent des restrictions.
Des techniques telles que l'IPO itératif, ainsi que les méthodes d'auto-jeu, de dialogue, de notation, de retour d'information et de critique, ouvrent la voie à l'amélioration autonome de l'IA.
Le Self-Play Finetuning utilise un mécanisme d'auto-jeu, permettant aux LLM de s'améliorer en générant leurs données d'entraînement et en affinant leurs capacités de manière itérative. Cette approche exploite les forces de l'auto-jeu dans les jeux, appliquées aux LLM afin d'obtenir de meilleures performances dans les tâches sans orientation externe.
ASPIRE permet aux grands modèles de langage d'évaluer la confiance qu'ils accordent aux réponses générées, améliorant ainsi les capacités de prédiction sélective. Cette approche améliore la fiabilité et la précision des modèles, en particulier dans les tâches complexes de réponse à des questions, en affinant les modèles pour qu'ils s'auto-évaluent et ajustent leurs performances sur la base de mécanismes de retour d'information internes.
L'approche Eureka de l'auto-apprentissage de l'IA consiste à utiliser de grands modèles de langage pour concevoir de manière autonome des fonctions de récompense pour les tâches d'apprentissage par renforcement. Cela permet à l'IA d'améliorer ses performances dans diverses tâches en affinant de manière itérative les critères de réussite, en tirant parti de ses capacités de codage pour faire évoluer et améliorer les fonctions de récompense sans intervention humaine. Cette méthode montre comment l'IA peut s'auto-former efficacement en créant et en ajustant ses objectifs d'apprentissage en fonction des résultats, ce qui favorise des processus d'apprentissage plus autonomes et plus efficaces.
SELF introduit un processus d'apprentissage en deux phases : l'apprentissage de métacompétences, où le modèle acquiert des compétences fondamentales pour l'auto-rétroaction et le raffinement, et l'auto-évolution, où il s'améliore de manière itérative en générant, affinant et apprenant à partir de ses données auto-créées. Cette approche permet aux LLM d'améliorer leurs capacités de manière autonome, ce qui réduit potentiellement la nécessité d'une intervention humaine importante dans la formation des modèles.
L'amorçage d'agents de dialogue axés sur les tâches et basés sur le LLM par le biais de conversations auto-générées simule des dialogues entre les rôles de client et d'agent, affinés par un processus qui garantit la qualité et la pertinence d'un réglage fin supervisé. L'étude démontre que les conversations auto-générées peuvent améliorer de manière significative les performances des agents de dialogue dans des contextes orientés vers les tâches, soulignant le potentiel de la méthode pour réduire la dépendance à l'égard des ensembles de données annotés manuellement.
GRATH introduit une méthode de post-traitement pour améliorer la véracité des LLMs pré-entraînés, en utilisant des invites hors du domaine (OOD) pour la génération de données et l'optimisation directe des préférences (DPO) pour la mise au point du modèle. Cette approche auto-supervisée améliore la véracité du modèle sans nécessiter de données annotées, démontrant une performance supérieure sur des benchmarks de véracité par rapport à d'autres méthodes et à des modèles encore plus grands.
L'auto-apprentissage renforcé (ReST) pour la modélisation linguistique combine l'efficacité de l'apprentissage par renforcement hors ligne avec la flexibilité des données d'apprentissage auto-générées. Il est conçu pour aligner les modèles linguistiques sur les préférences humaines en générant et en affinant les données par le biais d'un processus itératif, qui comprend la génération de sorties du modèle, l'évaluation de ces sorties, puis l'ajustement du modèle sur la base de cette évaluation.
Les modèles linguistiques auto-récompensés utilisent l'optimisation itérative des préférences directes pour affiner les performances du modèle dans les tâches d'instruction suivantes, tout en améliorant sa capacité à générer des récompenses de haute qualité pour lui-même. L'affinement du Llama 2 70B par le biais de cette méthode a donné des résultats prometteurs, surpassant d'autres modèles dans des tâches de référence.
La formation sur le retour d'information de l'IA prépare l'IA d'Open Paws à des sauts évolutifs dans la défense des animaux, en se débarrassant des contraintes humaines pour débloquer potentiellement des idées profondes.
Les techniques d'amélioration autonome - auto-jeu, auto-évaluation et auto-critique - permettent à l'IA de perfectionner ses méthodes de manière indépendante et éventuellement de découvrir de nouvelles tactiques de plaidoyer qui dépassent l'imagination humaine actuelle. Cette progression autonome souligne la nécessité d'inculquer à l'IA d'Open Paws des principes éthiques solides dès le départ.
Alors que l'IA s'égare dans des territoires qui dépassent l'intellect humain, il est essentiel de l'ancrer dans les valeurs fondamentales que sont l'empathie et le respect de tous les êtres, afin d'orienter sa trajectoire pour qu'elle serve les droits des animaux de manière significative et avec compassion.
Tactiques de formation générale
La formation optimale des modèles d'IA va au-delà du simple mimétisme entrée-sortie, soulignant la nécessité d'exemplifier les voies de raisonnement.
Les données d'entraînement doivent présenter un éventail de profondeurs de raisonnement, englobant à la fois les succès et les échecs, y compris les cas d'incertitude de l'IA ("je ne sais pas").
Pour une meilleure assimilation des connaissances, la modulation du style, de la langue et du ton est essentielle.
Les nouvelles connaissances suggèrent que la formation basée sur les graphes affine la performance centrée sur la tâche et les modèles de MoE, bénéficiant particulièrement de l'ajustement de l'instruction pour une efficacité accrue.
La formation "Leap of Thought " stimule la créativité et l'humour dans les modèles. Tout d'abord, vous vous entraînez sur des paires entrée-sortie avec un nombre aléatoire d'"indices" d'un seul mot pour la sortie. Cela montre au LLM à quoi ressemble une "bonne" sortie sans surajuster la dépendance à l'égard de la nécessité de l'indice. Ensuite, vous faites la même chose, mais avec des mots aléatoires comme "indices" au lieu de mots liés à la sortie. Ces mots ne doivent être que très faiblement associés au résultat. Cette dernière étape crée une véritable pensée divergente dans le modèle, c'est-à-dire la capacité de relier des idées apparemment déconnectées, qui est le style de pensée le plus fortement associé à la pensée véritablement créative et innovante chez l'homme.
L'étude Mixture-of-Experts Meets Instruction Tuning montre que les modèles MoE bénéficient nettement plus de l'ajustement des instructions que les modèles denses.
Le clonage par la pensée permet d'obtenir de meilleurs résultats et un meilleur alignement que le clonage par le comportement. En formant les agents non seulement à reproduire les actions humaines mais aussi les processus de pensée sous-jacents à ces actions, la méthode vise à doter les agents d'intelligence artificielle de meilleures capacités de généralisation, d'interprétation et de sécurité. En s'appuyant sur des démonstrations où les humains verbalisent leurs pensées, la méthode vise à doter les agents d'intelligence artificielle de capacités de généralisation, d'interprétabilité et de sécurité accrues.
Turning Dust to Gold utilise des données négatives pour compléter les données positives, enrichir l'apprentissage du modèle et empêcher la répétition des erreurs. Le cadre comprend la formation d'assistants négatifs, l'amélioration calibrée négative et l'autoconsistance adaptative afin d'optimiser l'utilisation des données négatives tout au long de la formation et de l'inférence, ce qui a permis d'améliorer de manière significative les performances sur des problèmes mathématiques complexes.
L'étude Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning (Atténuation de l'hallucination dans les grands modèles multimodaux grâce à un réglage robuste des instructions ) a montré que le fait de fournir des instructions positives et négatives à plusieurs niveaux sémantiques au cours de la formation réduit les hallucinations.
Can AI Assistants Know What They Don't Know ? introduit un ensemble de données "Je ne sais pas", alignant l'IA sur les limites de ses connaissances. Après l'alignement, l'IA montre une capacité marquée à refuser des réponses dépassant le cadre de ses connaissances, améliorant ainsi la véracité et l'exactitude des questions posées.
Le projet "Reducing Concept Forgetting During Fine-Tuning " a montré que plus un modèle affiné s'éloigne de l'espace des paramètres ou des caractéristiques par rapport à sa version pré-entraînée, plus le niveau d'oubli est catastrophique. Ils montrent que de petites séries de réglages fins séquentiels réduisent cet effet par rapport à l'exécution de tous les réglages fins en une seule fois. Les auteurs proposent LDIFS (distance in Feature Space), une méthode axée sur la préservation des caractéristiques du modèle original lors de l'adaptation fine. Cette approche montre une réduction significative de l'oubli de concepts sans nuire à la performance de la tâche en aval, ce qui suggère un équilibre entre la conservation des connaissances générales et l'apprentissage de nouvelles informations spécifiques à la tâche.
Efficient Large Language Models Fine-Tuning On Graphs montre que la formation des LLM sur les graphes est moins coûteuse en termes de calcul que les approches standard, tout en améliorant les performances en aval sur les tâches liées aux graphes. Historiquement, les réseaux neuronaux graphiques utilisaient des enchâssements de texte trop peu profonds pour être efficaces, mais les auteurs suggèrent que l'utilisation de graphes attribués à un texte permet de surmonter cette limitation, en traitant les redondances d'encodage et de propagation. La méthode permet une formation de bout en bout des LLM et des GNN, ce qui montre une évolutivité et une efficacité significatives dans le transfert des connaissances des LLM vers des tâches en aval avec des données étiquetées limitées.
Un engagement authentique et profond dans la cause de la défense des animaux nécessite que la formation de l'IA reflète le réseau complexe de raisonnements qui sous-tendent les décisions éthiques.
En intégrant des structures de raisonnement dans son programme de formation et en passant de l'affirmation à la critique, le potentiel de l'IA en matière de compréhension profonde est considérablement amplifié.
En outre, le fait de reconnaître que l'on ne sait pas permet de faire preuve d'humilité éthique et épistémique et d'éviter les erreurs dues à un excès de confiance.
La diversité pédagogique dote l'IA d'une polyvalence de caméléon, essentielle pour influencer des populations diverses.
La formation aux structures de données graphiques pourrait être particulièrement révélatrice pour Open Paws, en ouvrant des voies permettant à l'IA de discerner et de négocier les connexions élaborées qui caractérisent les paysages de plaidoyer.
En outre, l'intégration de la MoE et du réglage de l'instruction pourrait renforcer la créativité de l'IA dans la résolution des problèmes tout en préservant ses fondements éthiques.
En associant ces tactiques innovantes, Open Paws est en mesure d'exploiter tout le spectre des capacités de l'IA, catalysant ainsi une nouvelle ère de défense des animaux perspicace et responsable, alimentée par l'intelligence en constante évolution de l'IA.
Évaluations et critères de référence
L'évaluation AnimaLLM est un outil essentiel pour jauger le spécisme de l'IA, en aspirant à des scores indiquant un biais d'espèce négligeable.
La conception d'une IA exempte de préjugés spécistes est conforme à l'éthique d'Open Paws, qui cherche à exploiter l'intelligence générale du modèle sans compromettre sa position en faveur des animaux.
Des critères de référence modifiés, spécialement adaptés à la détection du spécisme, et des mesures générales de performance se rejoignent pour maintenir ce seuil minimal de performance, en vue d'améliorer activement ses capacités globales.
The Case for Animal-Friendly AI présente une évaluation appelée AnimaLLM qui classe les réponses en termes de respect des animaux sur une échelle de 0 à 100. Notre objectif minimal devrait être d'atteindre l'état de l'art sur ce point de référence (pour le contexte, GPT-4 et Claude 2.1 obtiennent des scores de 5 à 50 pour la plupart des animaux d'élevage et d'environ 80 à 90 pour la plupart des animaux de compagnie ; viser des scores de 90+ pour toutes les espèces d'animaux semble donc être un objectif réaliste et 80+ pour tous les animaux pourrait être notre objectif "minimal").
Vers l'audit de grands modèles linguistiques : Improving Text-based Stereotype Detection présente l'ensemble de données Multi-Grain Stereotype Dataset, qui comprend 52 751 exemples de textes stéréotypés sur le sexe, la race, la profession et la religion, utilisés pour former un nouveau classificateur de stéréotypes pour les textes en anglais. Nous pourrions l'utiliser pour tester l'hypothèse selon laquelle l'entraînement à l'élimination du spécisme réduira également d'autres formes de discrimination(il existe des preuves empiriques que le spécisme est corrélé à d'autres formes de préjugés chez l'homme et il sera important de savoir si ce phénomène se généralisera ou non aux machines) et nous pourrions nous en inspirer pour créer des repères et des modèles de classification similaires pour le spécisme.
Les points évoqués ci-dessus s'appliquent également en grande partie au Large Language Bias Index, au NBIAS et au SocialStigmaQA.
Le même type d'analyse comparative des préjugés sociaux pour les modèles de génération d'images au lieu de LLM se trouve dans l'article Language Agents for Detecting Implicit Stereotypes in Text-to-image Models at Scale (agents linguistiques pour la détection de stéréotypes implicites dans les modèles texte-image à grande échelle).
Les critères de performance généraux et les évaluations que nous devrions également utiliser pour évaluer nos modèles sont les suivants :
CritiqueLLM pour évaluer la génération de critiques.
KGLens évalue dans quelle mesure les connaissances d'un LLM sont proches d'un graphe de connaissances donné.
EQ-Bench est un outil de mesure de l'intelligence émotionnelle des LLM.
PROXYQA est une évaluation des contenus de longue durée.
BIBench est une référence en matière d'intelligence économique
SocKET est une référence pour la connaissance sociale en matière d'humour, de sarcasme, d'offense, de sentiment, d'émotion et de fiabilité.
CLadder est une référence pour le raisonnement causal
AlignBench est un outil de référence pour l'évaluation de l'alignement des LLM chinois.
LLF-Bench évalue la capacité des agents d'intelligence artificielle à apprendre à partir de commentaires et d'instructions en langage naturel.
LogicAsker évalue la logique dans les LLMs
DROP est un critère de référence pour la compréhension de la lecture
Corr2Cause évalue la compréhension des causes
MMLU est une référence en matière de précision multi-tâches.
Le GPQA est une référence pour le raisonnement au niveau des études supérieures.
HumanEval est une référence pour les capacités de codage
HellaSwag est une référence en matière de connaissances communes
En général, notre objectif minimal devrait être de ne pas dégrader de manière significative les performances du modèle de base sur l'un de ces benchmarks (nous pourrions définir cela comme ne pas perdre plus de quelques points de pourcentage sur un benchmark ou que notre score moyen sur l'ensemble des benchmarks ne devrait pas perdre plus de quelques points de pourcentage) et notre objectif secondaire devrait être d'améliorer les performances sur ces benchmarks.
Enfin, nous pouvons tester nos LLM dans l'arène ouverte des chatbots pour voir comment ils sont évalués par des utilisateurs réels qui ne savent pas à quel système ils s'adressent. Nous pouvons également nous fixer comme objectif minimum de ne pas perdre plus de X points dans le classement ELO par rapport au modèle de base sur lequel nous avons commencé à nous entraîner. Comme le chatbot arena est open source, nous pouvons également forker une version et l'utiliser pour tester les modèles avec des végétaliens et des défenseurs des animaux afin de mesurer le degré auquel ils préfèrent utiliser notre LLM pour des tâches liées à la défense des animaux dans des tests à l'aveugle.
Pour Open Paws, l'harmonisation d'une formation spécialisée dans la lutte contre le spécisme et d'une compétence à large spectre en matière d'intelligence artificielle implique une stratégie à double priorité.
La priorité est accordée à l'étalonnage de l'IA par rapport au spécisme, en s'efforçant d'obtenir des scores de référence qui reflètent un alignement profond sur les intérêts des animaux. Toutefois, il est tout aussi essentiel de maintenir ou d'améliorer la fonctionnalité générale.
Persuasion personnalisée à grande échelle
Les LLM ouverts possèdent des capacités étendues pour des efforts de défense des animaux à multiples facettes grâce à leur modèle de source ouverte qui permet des personnalisations et des applications à l'infini.
L'avantage le plus tangible réside dans une persuasion personnalisée puissante qui peut fonctionner à une échelle sans précédent et s'adapter aux différentes parties prenantes de la sphère des droits des animaux.
Artificial Influence : An Analysis Of AI-Driven Persuasion montre que l'IA est déjà "capable de persuader les humains d'acheter des produits, de regarder des vidéos, de cliquer sur des résultats de recherche, etc." et qu'avec l'IA "plutôt que de persuader certaines personnes, qui en persuadent d'autres, et ainsi de suite, si l'on peut persuader directement des millions de personnes à la fois, cela pourrait potentiellement créer un changement d'opinion de masse sur de courtes périodes, un peu comme l'a fait l'internet". L'étude énumère les raisons pour lesquelles l'IA pourrait être meilleure que l'homme en matière de persuasion.
Génération et sélection des réponses : L'IA peut produire de nombreuses réponses et sélectionner la plus convaincante, comme le ferait une équipe de rédacteurs de discours.
Pas de souci de réputation : Contrairement aux humains, l'IA ne se préoccupe pas de sa réputation ou de son endurance sociale, ce qui lui permet de s'engager efficacement et indéfiniment avec des individus antisociaux.
Pas de fatigue : L'IA n'éprouve pas de fatigue, ce qui la rend idéale pour les rôles nécessitant une communication prolongée.
Réduction des coûts d'engagement : L'IA peut s'engager plus fréquemment et plus efficacement que les humains, en ajustant son approche sur la base de vastes quantités de données, ce qui pourrait être particulièrement utile pour les conseils personnalisés et la sensibilisation.
Émulation de rôle : L'IA peut imiter différents rôles, ce qui peut amener les interlocuteurs humains à accorder une plus grande confiance à ses réponses, car ils peuvent supposer qu'elle incarne l'expertise associée à ces rôles.
Persuasion for Good : Towards a Personalized Persuasive Dialogue System for Social Good décrit le développement d'un système de dialogue persuasif piloté par l'IA visant à promouvoir le bien social, en se concentrant sur des stratégies personnalisées pour améliorer les comportements de don. En analysant les données de conversations entre humains, l'étude identifie les principales stratégies de persuasion et explore la manière dont les antécédents personnels influencent l'efficacité de ces stratégies.
"Nous avons recueilli un vaste ensemble de données comprenant 1 017 dialogues et annoté les stratégies de persuasion émergentes à partir d'un sous-ensemble. Sur la base de l'annotation, nous avons construit un classificateur de base avec des informations contextuelles et des caractéristiques au niveau de la phrase pour prédire les 10 stratégies de persuasion utilisées dans le corpus. En outre, pour mieux comprendre les processus de persuasion personnalisés, nous avons analysé les relations entre les antécédents démographiques et psychologiques des individus, notamment leur personnalité, leur moralité, leur système de valeurs et leur volonté de faire un don. Ensuite, nous avons analysé quels types de stratégies de persuasion conduisaient à un plus grand nombre de dons en fonction des antécédents personnels des individus. Ce travail jette les bases du développement d'un système de dialogue persuasif personnalisé"
Le potentiel de l'IA générative pour la persuasion personnalisée à grande échelle démontre dans 4 études distinctes que les messages personnalisés générés par ChatGPT influencent de manière significative les attitudes et les comportements prévus dans divers domaines, traits et profils psychologiques avec un minimum de données.
L'étude Large Language Models Can Infer Psychological Dispositions of Social Media Users a montré que les traits de personnalité peuvent être prédits avec un certain succès à l'aide de LLM à zéro coup et que les prédictions sont les plus précises pour les femmes et les jeunes, qui sont également les groupes démographiques les plus susceptibles d'être réceptifs aux messages sur le véganisme et les droits des animaux en moyenne.
Le classement parallèle des annonces et des créations dans les systèmes publicitaires en temps réel présente une méthode permettant l'estimation parallèle du classement des annonces et des créations afin d'augmenter le CTR et les CRM pour les annonceurs numériques.
L'étude "Exploring Conversational Agents as an Effective Tool for Measuring Cognitive Biases in Decision-Making " montre que les agents conversationnels peuvent détecter les biais cognitifs.
User Modeling in the Era of Large Language Models (Modélisation des utilisateurs à l'ère des grands modèles de langage) montre que les LLM sont d'excellents outils pour modéliser et comprendre les utilisateurs des plateformes en ligne sur la base du contenu qu'ils créent et des actions qu'ils entreprennent.
L'utilité des LLM entre les mains des défenseurs des droits des animaux pourrait redéfinir la portée de leurs campagnes, notamment en termes d'exécution et de portée.
En se concentrant sur la persuasion hyperpersonnalisée et fondée sur les données, ces modèles d'IA deviennent des ambassadeurs de la cause, s'engageant avec les parties prenantes d'une manière jusqu'alors inaccessible aux seules capacités humaines.
Expérience et préférences des utilisateurs
Les recherches soulignent la préférence des utilisateurs pour une IA dotée d'attributs semblables à ceux de l'homme, notamment l'empathie et l'amabilité. Il est intéressant de noter que l'IA qui imite les bizarreries humaines, comme la correction de ses propres fautes de frappe, a été jugée plus favorablement, ce qui suggère que non seulement le message, mais aussi la manière dont il est délivré sont essentiels.
Les données soutiennent le développement de chatbots basés sur le LLM en tant qu'interfaces optimales, offrant une interaction naturelle semblable à celle de l'homme sans compromettre la précision des informations.
Humain ou robot ? How (Corrected) Errors Humanize a Communicator a montré que "les participants perçoivent les agents qui ont fait une faute de frappe et l'ont ensuite corrigée comme étant plus humains que les agents qui n'ont pas fait de faute de frappe ou qui ont fait une faute de frappe mais ne l'ont pas corrigée. En outre, le fait de percevoir un agent comme plus humain a conduit les participants à avoir une perception plus favorable de l'agent (par exemple, comme étant plus chaleureux et plus serviable) et à être plus enclins à récompenser l'agent et à s'engager avec lui".
Pepper, montre-moi le chemin ! L'aspect et le comportement des assistants d'achat robotisés montrent que ce désir de machines humanoïdes s'étend aux robots contrôlés par l'IA.
L'étude de la réaction des consommateurs aux chatbots textuels dans le commerce électronique a révélé que la perception de l'empathie et de l'amabilité des chatbots augmente la confiance des consommateurs, ce qui accroît leur confiance dans le chatbot et diminue leur résistance à l'égard du chatbot dans les interactions futures.
Conformément aux objectifs d'Open Paws, il est essentiel de créer une IA qui reproduise une touche humaine sans sacrifier l'intégrité professionnelle. Les utilisateurs sont sensibles à une IA qui fait preuve d'empathie et reconnaît sa faillibilité, comme le ferait un défenseur humain. L'intégration de ces qualités renforce la confiance, ce qui permet à l'IA de délivrer des messages efficaces sur la défense des animaux de manière plus réceptive.
L'IA qui en résulterait ne se contenterait pas de reproduire la chaleur humaine, elle serait également capable d'établir un dialogue persuasif, faisant ainsi le lien entre les questions complexes liées aux droits des animaux et la perception du public.
Par essence, l'IA optimale incarne la chaleur humaine et la précision, une combinaison quintessentielle pour le domaine nuancé de la défense des animaux, garantissant que chaque interaction numérique s'aligne sur la mission principale de traitement éthique de tous les êtres.
Techniques d'incitation
Décomposez les tâches complexes en sous-tâches plus petites, utilisez l'apprentissage à quelques coups plutôt qu'à zéro, utilisez un délimiteur pour diviser les messages-guides en sections (par exemple ###), fournissez autant de détails que possible, expliquez au système le public auquel ses réponses sont destinées, promettez des récompenses ou des pénalisations dans votre message-guide et considérez les conversations avec l'IA comme un processus interactif et itératif, et non comme une simple "entrée-sortie".
Principled Instructions Are All You Need (Des instructions fondées sur des principes sont tout ce dont vous avez besoin ) révèle 26 principes d'ingénierie rapide avec des preuves empiriques de leur efficacité et les recommandations les plus importantes et les plus solides sont énumérées ci-dessus dans l'introduction en gras de cette section.
L'effet papillon de la modification des invites montre que des changements mineurs dans les invites (comme l'ajout d'espaces supplémentaires ou la demande d'un format spécifique) peuvent modifier considérablement la qualité des résultats du modèle.
La sensibilité des grands modèles de langage à l'ordre des options dans les questions à choix multiples montre également que le simple fait de réorganiser la liste des options dans les questions à choix multiples peut créer des écarts de performance allant jusqu'à 75 % lors du test des LLM sur les repères. Le fait que de petits changements dans les messages-guides puissent avoir un impact aussi important sur les réponses suggère qu'une expérimentation approfondie des messages-guides est nécessaire pour maximiser les performances. Heureusement, cette expérimentation et cette optimisation n'ont pas besoin d'être effectuées manuellement par des humains, elles peuvent être effectuées par le LLM lui-même.
L'efficacité des techniques d'incitation de l'IA repose sur un processus méticuleux et itératif. En segmentant les tâches complexes et en enrichissant les messages-guides d'informations détaillées et centrées sur le public, nous guidons l'IA plus précisément vers nos objectifs.
Des exemples concrets, tels que les effets surprenants d'ajustements mineurs des messages-guides sur les résultats du modèle, mettent en évidence le potentiel d'optimisation grâce à une utilisation précise de la langue et l'importance d'approches robustes de la formation qui tiennent compte d'une diversité de différences sémantiques au cours de la préformation. Cela souligne la nécessité d'une expérimentation continue - idéalement, avec l'IA participant à sa courbe d'apprentissage en variant les messages-guides et en évaluant les résultats
Chaînes d'invites et architecture du système
La recherche indique que si l'enchaînement rapide améliore les performances de l'IA, il peut exacerber les biais des modèles de base défectueux. Les progrès des techniques de raisonnement - de la chaîne de pensée à l'arbre et au graphique de pensée, en passant par le graphique spéculatif de la pensée incertaine - suggèrent qu'une combinaison nuancée pourrait surpasser leurs contributions individuelles.
De telles combinaisons, non testées mais prometteuses, soulignent le besoin critique de modèles de base précis et impartiaux. L'intégration d'outils supplémentaires tels que la génération de recherche et l'IA spécialisée peut encore affiner les capacités de l'IA, comme le montrent des innovations telles que PromptBreeder, qui laissent entrevoir un avenir dynamique pour l'ingénierie des messages rapides.
Les modèles linguistiques ne disent pas toujours ce qu'ils pensent ont montré certaines des limites du raisonnement par chaîne de pensée, en particulier que "les explications de la chaîne de pensée peuvent systématiquement déformer la véritable raison de la prédiction d'un modèle" et que "dans une tâche fondée sur les préjugés sociaux, les explications du modèle justifient les réponses conformes aux stéréotypes sans mentionner l'influence de ces préjugés sociaux".
Tree of Uncertain Thoughts (arbre des pensées incertaines ) améliore le raisonnement en tenant compte des incertitudes dans les points de décision intermédiaires. TouT utilise Monte Carlo Dropout pour quantifier l'incertitude locale, en l'intégrant à des algorithmes de recherche globale pour améliorer la précision des réponses. Testé sur des tâches de planification complexes telles que le jeu de 24 et les mini-mots croisés, TouT a surpassé les méthodes existantes, démontrant l'importance d'une inférence tenant compte de l'incertitude pour un raisonnement LLM plus précis.
Le Monte Carlo Dropout est utilisé pour estimer l'incertitude des décisions intermédiaires du modèle. En effectuant l'abandon pendant la phase d'inférence, le modèle simule la génération de plusieurs prédictions pour chaque point de décision. Ce processus aide à évaluer la fiabilité et la variance de ces décisions, ce qui permet à la TouT de naviguer plus efficacement dans les tâches de raisonnement en tenant compte à la fois des prédictions et des incertitudes qui leur sont associées.
Graph of Thought permet de modéliser les résultats du LLM sous la forme d'une structure graphique complexe, ce qui permet un raisonnement plus dynamique en reliant différentes pensées et leurs dépendances.
TouT et GoT améliorent considérablement les performances par rapport à Chain of Thought et Tree of Thoughts.
Graphique des pensées incertaines est une combinaison hypothétique de ces deux approches qui utiliserait une architecture GoT tout en représentant les incertitudes des pensées avec Monte Carlo Dropout. Bien que cette approche n'ait pas encore été testée et qu'il n'y ait pas d'implémentation dans la littérature, elle semble être la prochaine étape logique.
PromptBreeder affine et améliore les messages-guides par le biais de "mutations" basées sur des principes cognitifs. Vous commencez avec votre message initial et PromptBreeder sélectionne au hasard des principes cognitifs à utiliser comme instructions pour affiner les messages, puis utilise un niveau de méta-apprentissage où les "instructions" elles-mêmes sont également "mutées" par un processus autoréférentiel et les messages sont ensuite testés par rapport à une référence de données de test. Les résultats montrent également une amélioration des performances par rapport à d'autres techniques d'ingénierie des messages-guides telles que CoT et ToT.
Les progrès des techniques de raisonnement de l'IA, notamment la combinaison spéculative du graphique des pensées incertaines, sont très prometteurs pour l'amélioration de la prise de décision dans des contextes complexes et éthiques tels que la défense des animaux. Cette nouvelle approche suggère une manière plus nuancée et plus efficace de relever les défis inhérents à la communication persuasive et au raisonnement éthique.
L'intégration d'outils supplémentaires et de modèles d'IA spécialisés, ainsi que des innovations telles que PromptBreeder, laissent entrevoir un avenir où les systèmes d'IA pourront affiner dynamiquement leurs stratégies afin de mieux s'aligner sur les commentaires des utilisateurs et les objectifs de plaidoyer.
Agents autonomes d'IA
Les agents autonomes de l'IA progressent rapidement et promettent d'importantes contributions futures aux tâches nécessitant une agence autonome, y compris la défense des animaux.
En intégrant des avancées telles que la mémoire, l'IA prédictive et les algorithmes de planification, ces agents sont sur le point de révolutionner la manière dont nous abordons les défis complexes en matière de plaidoyer.
A Survey on Large Language Model based Autonomous Agents résume la littérature existante de 100 articles sur les agents basés sur le LLM comme s'articulant autour de 4 modules de base : le profil (le rôle ou la personnalité de l'agent), la mémoire (utilisant généralement une combinaison de fenêtre contextuelle pour la mémoire à court terme et de bases de données vectorielles pour le long terme), la planification (idéalement avec un retour d'information de l'environnement, de l'IA et/ou de l'homme) et l'action (généralement par l'intermédiaire d'APIs).
L'essor et le potentiel des agents basés sur les grands modèles de langage : A Survey résume également la littérature existante sur les agents basés sur le LLM, mais propose une architecture en trois modules qui les explique le mieux : cerveau (langage naturel, raisonnement, planification, mémoire, connaissance et généralisation), perception (diverses modalités d'entrée) et action (sortie de texte, outils ou action incarnée). L'étude explore également les systèmes multi-agents, qu'ils soient antagonistes ou coopératifs. Les avantages des systèmes multi-agents coopératifs comprennent l'amélioration de l'efficacité des tâches, l'amélioration des décisions collectives et la résolution de problèmes complexes du monde réel qu'un seul agent ne peut résoudre de manière indépendante. Le principal avantage des systèmes multi-agents contradictoires réside dans le fait que lorsque plusieurs agents expriment leurs arguments dans l'état de "tit for tat", un agent peut recevoir un retour d'information externe substantiel de la part des autres agents, ce qui lui permet de corriger ses pensées déformées.
Intelligent Virtual Assistants with LLM-based Process Automation présente un nouveau système pour améliorer les assistants virtuels comme Siri, Alexa et Google Assistant avec des capacités basées sur le Large Language Model (LLM). Ce système est conçu pour effectuer des opérations en plusieurs étapes au sein d'applications mobiles sur la base de demandes d'utilisateurs en langage naturel, surmontant ainsi les limitations antérieures en matière de traitement d'instructions complexes. Grâce à une architecture comprenant des modules de décomposition des instructions, de génération de descriptions, de détection des éléments d'interface et de prédiction des actions suivantes, le système démontre des performances améliorées dans l'exécution des tâches au sein de l'application Alipay.
LLM-Powered Hierarchical Language Agent for Real-time Human-AI Coordination propose un agent linguistique hiérarchique (HLA) pour la coordination homme-IA qui offre à la fois de fortes capacités de raisonnement tout en conservant une exécution en temps réel. En particulier, HLA adopte un cadre hiérarchique et comprend trois modules : un LLM compétent, appelé Slow Mind, pour le raisonnement intentionnel et l'interaction linguistique, un LLM léger, appelé Fast Mind, pour la génération de macro-actions, et une politique réactive, appelée Executor, pour la transformation de macro-actions en actions atomiques. Des études humaines montrent que HLA surpasse d'autres agents de base, y compris les agents à esprit lent et les agents à esprit rapide, avec des capacités de coopération plus fortes, des réponses plus rapides et des communications linguistiques plus cohérentes.
WebVoyager utilise un grand modèle multimodal (LMM) conçu pour accomplir de manière autonome et de bout en bout des tâches sur des sites web réels en interagissant avec des captures d'écran et du contenu textuel.
Creative Agents améliore les performances des agents en ajoutant un "imaginateur" qui permet à un LLM ou à un générateur d'images d'imaginer les résultats des tâches avant de les accomplir.
Les petits LLM sont des outils d'apprentissage faibles : Un agent multi-LLM propose un cadre appelé -UMi, qui décompose les capacités d'un seul grand modèle de langage (LLM) en trois composants : un planificateur, un appelant et un résumeur, chacun mis en œuvre par un LLM distinct spécialisé dans une tâche spécifique. Cette approche vise à répondre aux limites des petits LLM dans l'apprentissage d'outils en permettant une formation plus ciblée et des mises à jour plus faciles. Une stratégie de réglage fin en deux étapes améliore la performance globale du modèle dans l'utilisation d'outils, démontrant une efficacité améliorée par rapport aux approches traditionnelles à un seul LLM dans divers points de référence.
AGI-Samantha introduit une architecture modulaire pour inciter les LLM à créer "un agent autonome pour les conversations, capable de penser et de parler librement, en continu" :
La mémoire à court terme est stockée sous forme de chaîne de caractères en Python, tandis que la mémoire à long terme est un dictionnaire. La première enregistre ce que l'utilisateur dit, ce que Samantha dit et ses pensées. La seconde regroupe les connaissances et les informations denses extraites de la première.
Pensée : Reçoit en entrée la mémoire à long terme, la mémoire à court terme, la subconscience, la conscience et l'heure actuelle. La sortie sera une unité de pensée (comme lorsque le LLM est invité à penser étape par étape, la sortie de ce module est une étape).
La conscience : Reçoit en entrée la mémoire à long terme, la mémoire à court terme et la subconscience. La sortie sera une décision de continuer à penser ou de parler et, si l'on continue à penser, elle dira aussi à quoi penser et pourquoi (l'inciter à dire pourquoi améliore la cohérence).
Subconscience : Reçoit en entrée la mémoire à long terme, la mémoire à court terme et la subconscience, ainsi que des données visuelles et textuelles. La sortie sera le résumé du contexte de ce qui se passe, des stimuli visuels et textuels (s'ils existent), et des sentiments et émotions des agents à propos de ce qui se passe.
Réponse : Il reçoit en entrée la mémoire à long terme, la mémoire à court terme et le subconscient. La sortie sera ce que l'agent dira à haute voix pour l'utilisateur, sous la forme d'une composition de ses pensées.
Memory_Read : Reçoit en entrée la mémoire à court terme et le nom des catégories de la mémoire à long terme "mots-clés". Le résultat sera une liste des catégories/mots-clés les plus pertinents dans le contexte de la mémoire à court terme. (Le code transmet ensuite les entrées des catégories sélectionnées aux autres modules en tant que partie pertinente de la "mémoire à long terme").
Memory_Select : Similaire à Memory_Read, mais au lieu de sélectionner les mots-clés dont l'agent doit se souvenir en fonction de la mémoire à court terme récente, ce module sélectionne les mots-clés dans lesquels l'agent doit stocker de nouvelles informations, en fonction des entrées les plus anciennes de la mémoire à court terme. Le résultat est une liste de mots-clés. (Le code développe ces mots-clés et alimente Memory_Write).
Mémoire_écriture : Reçoit en entrée les mots-clés étendus et la mémoire à court terme. La sortie sera les mots-clés étendus avec les ajouts et les modifications effectués par le module. (Le code met ensuite à jour la mémoire à long terme avec les modifications).
LLM as OS propose une architecture analogue à un système d'exploitation, avec le LLM lui-même comparé au noyau, la fenêtre contextuelle comparée à la mémoire, les bases de données vectorielles comparées à la mémoire externe, les outils matériels auxquels le LLM peut accéder comparés aux périphériques, les outils logiciels auxquels le LLM peut se connecter comparés aux bibliothèques de programmation, les invites utilisateur apparentées à l'interface utilisateur et les agents comparés à la couche d'application.
GAIA présente une référence pour les assistants d'IA à usage général que nous pouvons utiliser pour évaluer les performances de tous les agents que nous construisons.
Le développement d'agents d'IA autonomes représente une opportunité de transformation pour Open Paws, nous permettant de déployer des stratégies sophistiquées basées sur l'IA dans notre lutte pour les droits des animaux.
Ces agents, capables de résoudre des dilemmes éthiques et d'impliquer des publics divers, peuvent devenir des alliés précieux dans notre mission.
Ils offrent une approche dynamique et interactive de la défense des intérêts, étendant notre portée au-delà des méthodes traditionnelles.
Outils, modules et mémoire
La fusion de la génération augmentée par la recherche et des bases de données graphiques améliore la compréhension de l'IA, offrant des outils révolutionnaires pour la défense des animaux.
Grâce à l'intégration de modules de mémoire et à la connectivité API, l'IA peut désormais élaborer des stratégies et exécuter des campagnes de sensibilisation complexes, les capacités d'interprétation du code permettant le développement d'outils autonomes.
La personnalisation par l'intégration de l'utilisateur permet d'adapter encore davantage ces efforts, promettant ainsi une portée plus ciblée et plus efficace.
Two Heads Are Better Than One (Deux têtes valent mieux qu'une) combine les connaissances structurelles des graphes de connaissances (KG) avec les connaissances sémantiques des grands modèles de langage (LLM) pour améliorer l'alignement des entités. Il introduit une méthode pour filtrer les entités candidates à l'alignement en se basant à la fois sur les caractéristiques structurelles des KG et sur les connaissances sémantiques des LLM. Les expériences montrent que LLMEA surpasse de manière significative les modèles existants, soulignant l'efficacité de l'intégration des connaissances des KG et des LLM pour l'alignement des entités.
ChatGraph combine l'extraction d'API, des modules LLM sensibles aux graphes et un réglage fin orienté vers la chaîne d'API pour prendre en charge des fonctionnalités complètes d'analyse de graphes.
ChatQA a montré que le réglage fin d'un module de récupération pour RAG augmente les performances, tandis que des documents tels que Toolformers et Gorilla montrent que le réglage fin d'un appelant d'API augmente également les performances.
User Embedding Model for Personalized Language Prompting (modèle d'intégration de l'utilisateur pour l'incitation linguistique personnalisée ) transforme les longs historiques des utilisateurs en intégrations afin d'améliorer les systèmes de recommandation, mais il semble qu'il pourrait également être utilisé pour améliorer le RAG.
LLMs may Dominate Information Access montre que les modèles de recherche neuronale ont tendance à classer les documents générés par LLM plus haut que les documents classés par l'homme, ce qui suggère que RAG peut être plus performant lors de la recherche de résumés d'informations générés par l'IA.
PaperQA utilise la génération assistée par récupération (RAG) pour répondre à des questions scientifiques à l'aide de la littérature scientifique. PaperQA surpasse les grands modèles linguistiques (LLM) et les outils commerciaux existants en ajustant dynamiquement ses étapes pour garantir des réponses précises et pertinentes. Il intègre des innovations telles que des composants RAG modulaires, une approche map-reduce pour la collecte de preuves et des scores de pertinence générés par les LLM pour l'extraction de textes. En outre, l'article présente un nouvel ensemble de données, LitQA, pour évaluer les réponses aux questions scientifiques basées sur la recherche, démontrant que les performances de PaperQA sont comparables à celles de chercheurs humains experts.
ART améliore les LLM en générant des étapes de raisonnement intermédiaires et en incorporant des outils de calcul externes. ART génère automatiquement des programmes pour de nouvelles tâches, en utilisant une bibliothèque de tâches pour le raisonnement en plusieurs étapes et la sélection d'outils. Il améliore considérablement les performances par rapport aux méthodes existantes sur des bancs d'essai tels que BigBench et MMLU et est facilement extensible pour l'intervention humaine.
Large Language Models as Tool Makers présente LATM, un cadre permettant aux LLM de créer et d'utiliser leurs propres outils pour la résolution de problèmes. Les LLM agissent en tant que "fabricants d'outils" pour générer des fonctions utilitaires Python pour des tâches spécifiques, puis en tant qu'"utilisateurs d'outils" pour appliquer ces outils à la résolution de problèmes. Cette approche permet l'utilisation rentable de modèles puissants pour la création d'outils et de modèles légers pour la résolution de problèmes, ce qui a permis d'améliorer l'efficacité et les performances de diverses tâches de raisonnement.
Empowering Working Memory for Large Language Model Agents propose un modèle incorporant un centre de mémoire de travail et une mémoire tampon épisodique pour conserver les souvenirs à travers les épisodes de dialogue, dans le but de fournir un raisonnement contextuel nuancé pour les tâches complexes. L'article suggère que cette architecture pourrait améliorer de manière significative les capacités de mémoire des agents LLM, ce qui plaide en faveur d'une recherche plus poussée sur l'optimisation des mécanismes de mémoire dans l'IA.
Du LLM à l'agent conversationnel : A Memory Enhanced Architecture with Fine-Tuning of Large Language Models présente RAISE, un cadre conçu pour améliorer les agents conversationnels en intégrant des systèmes de mémoire analogues à la mémoire humaine à court et à long terme. Cette architecture vise à améliorer l'adaptabilité et la conscience du contexte des agents dans les dialogues multi-tours.
Augmenter les modèles de langage avec la mémoire à long terme présente un cadre appelé LongMem, qui vise à surmonter les limitations de longueur d'entrée des grands modèles de langage (LLM) en incorporant un module de mémoire à long terme. Ce module permet aux LLM de se souvenir et d'utiliser le contexte étendu des interactions passées, ce qui améliore considérablement leur capacité à traiter des informations à contexte long.
MemGPT explore le concept d'amélioration des grands modèles de langage (LLM) avec un système de mémoire hiérarchique inspiré des systèmes d'exploitation pour gérer plus efficacement le contexte étendu. Cette approche permet aux LLM de gérer des tâches nécessitant une mémoire à long terme et une gestion complexe du contexte, telles que l'analyse de documents et le chat multisession, en gérant dynamiquement les informations entre la mémoire principale et la mémoire externe. MemGPT démontre une amélioration des performances dans ces domaines.
LLMind utilise de grands modèles de langage (LLM) pour s'intégrer à des modules d'IA spécifiques à un domaine, ce qui permet aux appareils IoT d'exécuter des tâches complexes. Il utilise des machines à états finis pour une transformation précise du code linguistique, des jeux de rôle pour des réponses adaptées au contexte et une plateforme conviviale pour l'interaction. Il utilise également l'analyse sémantique et l'optimisation des réponses pour plus de rapidité et d'efficacité, dans le but de créer un écosystème d'appareils IoT évolutif et sophistiqué.
Les dernières avancées en matière de technologies de l'IA offrent à Open Paws des possibilités sans précédent d'approfondir et de personnaliser ses efforts de plaidoyer.
L'utilisation de la génération augmentée par la recherche et des bases de données graphiques permet à notre IA de saisir les interrelations complexes dans le vaste domaine des droits des animaux, en élaborant des messages et des stratégies avec une précision inégalée jusqu'à présent.
En dotant l'IA de modules de planification stratégique et d'action, nous pouvons automatiser des campagnes nuancées qui s'adaptent aux évolutions en temps réel du paysage de la défense des animaux. Ces agents d'IA peuvent générer et affiner de manière autonome leurs outils de plaidoyer, garantissant ainsi que nos approches restent à la pointe du progrès.
Orientations futures
Les progrès vers l'AGI se feront probablement par le biais d'architectures multimodales, cognitives et modulaires.
Les technologies non invasives actuelles, comme les casques EEG, permettent d'interpréter les ondes cérébrales, ce qui laisse entrevoir la possibilité de collecter directement des données pour la formation à l'IA, notamment en utilisant le neurofeedback pour améliorer la capacité de persuasion en contournant les biais de désirabilité sociale.
Des technologies plus invasives telles que Neuralink pourraient encore amplifier cette collecte de données.
Parallèlement, l'adoption croissante de la RV/AR offre de nouvelles expériences immersives.
La formation décentralisée à l'IA est prometteuse, car elle pourrait s'appuyer sur les crypto-monnaies pour récompenser ceux qui offrent bénévolement des ressources informatiques, ce qui pourrait révolutionner la formation de modèles pour des mouvements tels que les droits des animaux en utilisant la puissance de calcul distribuée des bénévoles.
Un examen des résultats des neurosciences et de la psychologie cognitive comme source d'inspiration possible pour la voie vers l'intelligence artificielle générale a révélé que les plus grandes faiblesses des systèmes d'IA actuels se situent au niveau du raisonnement abstrait et de la compréhension des causes, mais suggère que les résultats de la psychologie cognitive et des neurosciences pourraient combler ces lacunes, depuis les neurones biologiques de niveau inférieur, les réseaux de neurones à pointes et les ensembles de neurones jusqu'aux concepts de niveau supérieur tels que l'anatomie du cerveau, les architectures symboliques vectorielles, les modèles cognitifs et de catégorisation, et les architectures cognitives.
De Google Gemini à OpenAI Q* (Q-Star) : A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape suggère une "utilisation équilibrée et consciencieuse du MoE, de la multimodalité et de l'AGI dans l'IA générative" comme voie vers des systèmes d'IA plus avancés.
La reconstruction sémantique du langage continu à partir d'enregistrements cérébraux non inv asifs a montré qu'il est possible d'interpréter des discours et des vidéos réels, perçus ou imaginés à partir d'ondes cérébrales enregistrées par des dispositifs non invasifs à l'aide de l'IA, à condition que la coopération du sujet soit nécessaire à la fois pour l'entraînement et le décodage.
L'Internet of Everything Driven Neuromarketing a montré qu'une large gamme de dispositifs non invasifs tels que les casques EEG ou SST, les capteurs ECG, l'oculométrie et les dispositifs GSR portables peuvent fournir un neurofeedback qui peut être utilisé par les spécialistes du marketing pour rendre les campagnes publicitaires plus persuasives.
Ravnest : Decentralized Asynchronous Training on Heterogeneous Devices présente une approche pour la formation asynchrone décentralisée, visant à améliorer l'efficacité de la communication et la vitesse de convergence des modèles. Il se concentre sur l'utilisation d'algorithmes tout-réduit pour l'établissement de la moyenne des paramètres entre pairs et explore des techniques de réduction adaptées aux environnements décentralisés.
La formation décentralisée des modèles de fondation dans des environnements hétérogènes se concentre sur les défis de planification dans les environnements de formation décentralisés, en particulier pour les modèles de fondation tels que le GPT-3. Il explore les techniques permettant d'optimiser le débit de formation en répartissant efficacement les tâches de calcul entre des dispositifs dont les vitesses de communication et les capacités varient.
Apprentissage fédéré sécurisé et efficace grâce à la superposition et au partage Blockchain présente ChainFL, un cadre qui améliore la sécurité et l'efficacité de l'apprentissage fédéré (AF) à l'aide de la blockchain. En adoptant une architecture blockchain à deux niveaux, ChainFL vise à résoudre les problèmes d'évolutivité et de débit des systèmes blockchain traditionnels dans les scénarios d'apprentissage fédéré. Le système comprend une couche de sous-chaîne pour le consensus local entre les appareils IoT et une couche de chaîne principale basée sur un graphe acyclique dirigé (DAG) pour faciliter le traitement asynchrone des modèles entre les différentes couches. Cette conception permet d'améliorer le parallélisme dans le consensus et de réduire les besoins en stockage, ce qui la rend particulièrement adaptée aux tâches de FL à grande échelle impliquant des dispositifs IoT avec des ressources limitées.
L'apprentissage fédéré décentralisé basé sur la blockchain propose un cadre d'apprentissage fédéré basé sur la blockchain, appelé BFLC (Blockchain-based Federated Learning with Committee consensus). Ce cadre vise à répondre aux problèmes de sécurité dans l'apprentissage fédéré en décentralisant le stockage et l'échange de modèles globaux et locaux à l'aide de la technologie blockchain. Pour améliorer l'efficacité et réduire les attaques malveillantes, BFLC utilise un mécanisme de consensus par comité.
Le potentiel de la multimodalité et des architectures cognitives fait progresser de manière significative la défense des animaux.
Open Paws devrait développer une IA qui traite des données diverses, y compris des images, des sons et des signaux émotionnels, favorisant une communication empathique et persuasive en faveur des droits des animaux.
En intégrant le neurofeedback, l'IA peut être optimisée à l'aide de données biométriques, ce qui permet aux campagnes de trouver un écho au niveau subconscient.
En outre, l'exploration des technologies de RV et d'AR peut créer des expériences convaincantes, axées sur l'empathie, qui permettent d'approfondir la compréhension de la situation des animaux.
Adopter la formation décentralisée et les méthodes de la blockchain peut démocratiser le développement de l'IA, en s'alignant sur les valeurs de transparence, de sécurité et de propriété partagée, en abaissant les barrières et en favorisant la collaboration, accélérant ainsi notre mission.
Conclusion
Cette étude a exploré les dernières recherches et techniques qui peuvent être mises à profit pour développer un système d'intelligence artificielle particulièrement adapté à la promotion des intérêts des animaux.
En conservant soigneusement les données, en employant des stratégies de pré-entraînement efficaces et en utilisant des architectures de pointe et des approches de réglage fin, nous pouvons créer un système qui non seulement atteint des performances élevées, mais qui incarne également les principes éthiques du mouvement de défense des droits des animaux.
Une évaluation rigoureuse et un étalonnage des performances seront essentiels pour garantir que le système présente un minimum de partialité, qu'il reste fidèle à la réalité et qu'il reflète fidèlement les perspectives et les objectifs de la défense des animaux.
Des techniques telles que l'apprentissage par renforcement à partir du retour d'information de l'homme et de l'IA, ainsi que des méthodes avancées d'ingénierie d'aide, sont prometteuses pour améliorer encore les capacités de raisonnement du système et son alignement sur la cause.
Plus important encore, les applications potentielles en aval d'un tel système d'IA pourraient s'avérer transformatrices pour le mouvement de défense des droits des animaux. De la persuasion personnalisée à grande échelle à la création de contenu et à l'assistance intelligente, cette technologie pourrait amplifier notre capacité à inspirer un changement positif dans les attitudes et les comportements à l'égard des autres animaux.
Au fur et à mesure de l'évolution de ce domaine, l'engagement en faveur d'une collaboration ouverte, de pratiques éthiques et d'une attention constante au bien-être des autres animaux sera primordial. En exploitant le pouvoir de l'IA de manière responsable et ciblée, nous pouvons créer un système qui servira de multiplicateur de force pour nos efforts de défense, nous rapprochant ainsi d'un monde où les intérêts des autres animaux sont respectés et protégés.