keepthepace_

@ keepthepace_ @jlai.lu

Posts

1
Comments

56
Joined

3 yr. ago

2y ago

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA
Jump
17

keepthepace_ @jlai.lu 2y ago
Le droit d'auteur est déjà pas adapté à Internet, y a aucun moyen qu'il ne soit pas largué vis à vis de l'IA. J'essaye de pas trop suivre, sachant que de toutes façons ils vont nous emmerder avec des jugements perchés et sans aucune logique. Quelques éléments:
Une cour US a reconnu que les images générées par des IAs n'étaient pas copyrightable, ce qui vaut sûrement (mais je ne suis pas avocat) pour tout contenu généré. Les artistes pensent que c'est une victoire, je pense que c'est super positif pour l'open source, je pense qu'ils vont surement revenir en arrière là dessus tellement ça emmerde des boites privées.
Les artistes ne sont pas contents qu'on entraîne des IAs sur leurs images. Ça a l'air d'être légal pourtant. Je ne pense pas que légalement on puisse arguer que les images produites sont des produits dérivés. Y a des précédents à arguer, mais je ne suis toujours pas avocat. Moralement, je les comprends, mais je dois avouer que j'ai assez peu d'empathie pour les ayants droits qui pourrissent le net depuis les années 90 avec la lettre de la loi pour ne pas juste répondre "cheh" quand ça les emmerde. Ça fait 30 ans qu'on demande une réforme du copyright qui tienne compte des utilisations libres et non commerciales, quand vous avez envie, on en parle, mais on remet tout à plat.
Une chose emmerdante pour la communauté open source est que même si on est dans une zone grise ("surement légale mais on le saura dans 15 ans quand les recours seront épuisés") en ce qui concerne l'utilisation d'oeuvres privée: les boites privées le font derrière des portes fermées donc personne leur dit rien, mais la communauté doit assembler un dataset forcément public d'oeuvres qu'elle n'ont pas le droit de diffuser. The Pile, qui je soupçonne est utilisée par tout le monde n'est disponible que sous forme de torrent pirate. C'est chiant. Ils ont essayé d'arguer que c'est pas vraiment utilisable pour relire des oeuvres vu que c'est juste des bouts de phrases découpées dans tous les sens, mais c'est clairement une oeuvre dérivée pas diffusable.
Pour conclure, je dirais qu'en 2024, la logique du copyright est complètement obsolète et inapplicable. Ils vont tenter de juger des trucs mais c'est tellement dépendant des juges et des avocats et de l'état US dans lequel le premier jugement va être rendu, que c'est inutile de tenter de prédire où la limite de la loi va être.
C'est super chiant, on est dans une zone grise qui va durer des années, mais on peut pas vraiment attendre après un législateur dépassé et soumis aux lobbyistes pour donner des lignes claires avant qu'il soit trop tard.

2y ago

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

Je suis pas bon à ça... /r/machinelearning pour la théorie, /r/locallama pour la pratique, malheureusement les équivalents Lemmy sont déserts et j'ai pas la motivation de les faire vivre. Suivre des chercheurs IAs et robotique est la seule raison pour laquelle je suis encore sur Twitter, j'ai nettoyé ma tweet list de tout le reste. Pas très complet, mais si ça t'intéresse voila les gens que je suis: https://twitter.com/ktp_programming/following

2y ago

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

Jump

keepthepace_ @jlai.lu 2y ago

Les modèles utilisés sont contraints par deux choses: les GPUs sont très optimisés pour les multiplications matricielles, et la fonction produite par ton modèle doit être dérivable vis à vis de tous ses paramètres.

En fait dans les modèles actuels, on ne pense pas en terme de neurones, mais plutôt de couches. Tu as une couche de neurones suivie d'une couche d'attention, suivie d'une couche de convolution, à laquelle tu ajoutes les entrées, etc.

On est très influencés par les opérations optimisées pour GPU, donc on va plutôt penser en terme de matrices. Deux couches de N neurones se suivant et où chaque neurone est connectée à tous ceux de la couche de N neurones suivante, c'est un "fully-connected layer" ou un perceptron. Ça s'exprime sous forme d'une matrice de poids: tu mets tes entrées sous forme de vecteur, tu multiplies par la matrice de poids et tu as généralement une "non linéarité", c'est à dire une fonction de type RELU ajoutée après la multiplication.

L'autre façon de voir un modèle est de dire que ce que tu veux est une fonction continue prenant un vecteur de dimension N_i en entrée et N_o en sortie et dérivable selon chacun de ses millions de paramètres (typiquement, les paramètres sont les poids des synapses du réseau de neurones).

On parle vraiment peu de neurones. Les devs proches de l'optimisation parlent en terme de matrices, ceux proches de la théorie mathématique en terme de fonction, et un bon modèle doit prendre les deux points de vue en considération.

Tu peux tout à fait imaginer un modèle plus proche des neurones biologiques, mais avec ces deux contraintes: fonction continue et dérivable par rapport à chaque paramètre, et si tu veux que ce soit rapide, maximum de calcul parallèle sous forme de matrices (de tenseurs en fait, qui est le petit nom des matrices de dimension supérieure à 2)

2y ago

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

Jump

keepthepace_ @jlai.lu 2y ago

J'ai eu peur qu'on ne me parle que d'environnement (tl;dr: l'impact de ces techs est pas énorme et indirect) j'ai été déçu, mais je m'y attendais, qu'on ne parle pas beaucoup de la société post-travail.

2y ago

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

Jump

keepthepace_ @jlai.lu 2y ago

Alors dans un sens pas vraiment, parce que ça reste un sujet principalement technique mais perso j'aimerais bien trouver un moyen parce que c'est un sujet qui dépasse la technique et qui a une composante politique à laquelle les utilisateurs doivent être associés. Je pense que faire de la traduction ou de la vulgarisation sous un angle qui promeut plus l'open source que les solutions des boites privées, ça ne demande pas un bagage technique super important, mais c'est une mission cruciale aussi!

Il faut quand même comprendre au moins superficiellement ce que ces modèles font et comment on les utilise, mais ça demande pas une thèse de math.

En open source on appelle ça un rôle d'évangélisateur: une sorte de power user qui sait faire le lien entre devs et utilisateurs.

2y ago

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

Jump

keepthepace_ @jlai.lu 2y ago

Alors la théorie je l'ai beaucoup faite via des articles de blog de type

explained. "Layer normalization explained", "BERT explained". Il y a quelques publis qui sont intéressantes à lire mais sur les technos qui ont plus d'un an, une bonne explication sur un blog aidera à aller au but et ajoutera en plus des infos sur l'utilisation actuelle de cette tech.

Les choses à comprendre:

La descente de gradient, c'est la base de tout
Le perceptron multicouche, le layer le plus simple
Le rôle des optimizers
Les différentes "couches":
- Full connected layer (c'est la même chose qu'un perceptron)
- Convolution
- Softmax (techniquement une fonction d'activation mais elle est importante)
- Normalisation
- Dropout
- Attention
- Maxpool (ça s'utilise encore ça?)
Dans les LLMs, comprendre les tokenizers
Dans la génération de media, comprendre les modèles de diffusion et les GAN

Ah, et tu croiseras probablement des bayesiens à un moment dans cette exploration. Ils vont te parler de "priors" de fonction de distribution, tout exprimer sous forme de proba... Je blague un peu en disant que c'est une secte à part, mais c'est principalement une différence de vocabulaire: ils voient tout sous le prisme de la théorie bayesienne que (personnellement) je trouve qu'il font rentrer au chausse-pied en compliquant des notions simples. Mais je le dis pas trop fort, ça vire souvent à la guerre de religion sinon :-)

2y ago

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

Jump

keepthepace_ @jlai.lu 2y ago

Ce qui t'intéresse le plus! Tu peux assembler un petit classifier et l'entrainer from scratch, fine-tuner un petit modèle existant ou bien juste utiliser des modèles.

MNIST, un classifieur d'images 24x24 de chiffres écrits à la main, est un bon exercice de départ.

Charger un modèle pré-entrainé et aller examiner ses représentations latentes est aussi rigolo.

2y ago

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

Jump

keepthepace_ @jlai.lu 2y ago

Alors il y a sûrement plus de réponses techniques que tu imagines! Mais déjà parlons de l'aspect humain, il y a 2 problèmes humains à mon sens qu'on aura du mal à résoudre purement techniquement:

Reconnaître qu'il y a un biais à corriger dans le dataset et vouloir le corriger. Si on a un dataset de décisions RH qui écarte les femmes par sexisme, et qu'on reçoit l'instruction "entraîne un modèle qui nous remplace le plus précisément possible", la mission est d’entraîner un modèle sexiste. À nous de le refuser ou de prouver que le boulot en question ne requiert pas une bite pour être fait correctement.
Arriver à articuler clairement nos buts. Un effet pervers intéressant avait été montré via un algo qui aidait les étudiants et les étudiantes à s'orienter vers la filière qui avait le plus de chance de déboucher sur un diplôme. Une université avait un taux de réussite plus faible chez les femmes, probablement par sexisme, du coup l'algo n'a proposé que des hommes pour cette université. C'est en effet dans l'intérêt des étudiantes. Et c'est un biais sexiste. Est-ce ce qu'on veut?

Une fois ces problèmes passés, le problème posé est comment créer un modèle non-baisé à partir d'un dataset biaisé.

Une des présentations les plus intéressantes que j'ai vu sur ce thème, et qui tenait de la discussion technique autant que de la philosophie appliquée démontait quelques approches naïves sur un cas d'école: prédire la peine d'accusés dans des tribunaux US. Il est bien documenté que la justice US a un biais raciste auquel s'ajoute un racisme systémique.

Impossible de cacher la "race" de la personne concernée, de trop nombreux proxys existent: lieu d'habitation, d'étude, lieu d'arrestation, etc.
Impossible de forcer un quota de décisions: la police est raciste aussi et arrête plus de noirs, forcer le même taux de condamnation serait tout aussi injuste voir amplifierait les injustices!
Impossible d'ajuster avec une constante manuelle, le biais raciste n'est pas constant.

La solution proposée consistait à expliciter les variables sur lesquelles un biais existait, c'est à dire un déséquilibre dans le dataset, et forcer une décorrélation entre le jugement et ces variables. Le système apprend alors tout ce qui est corrélé à la "race" et le différencie de ce qui amène à une condamnation. Il y a des noirs innocentés, il y a des blancs condamnés, apprendre les critères qui permettent ça donne un système qui a pu retirer le biais de son dataset, à condition qu'on le lui ait pointé du doigt.

2y ago

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

Jump

keepthepace_ @jlai.lu 2y ago

Oh je pense que c'est plus, ou alors ils ne parlent que de la version 8B.

https://huggingface.co/TechxGenus/Meta-Llama-3-8B-GPTQ

Pretraining utilized a cumulative 7.7M GPU hours of computation on hardware of type H100-80GB (TDP of 700W). Estimated total emissions were 2290 tCO2eq, 100% of which were offset by Meta’s sustainability program.

Note: c'est ce que Meta rapport, je sais pas si c'est vérifié indépendamment.

Note 2: Le training n'émet pas de CO2 directement, il consomme de l'électricité. Absolument rien n'empêche exactement le même datacenter d'avoir zéro émission, c'est purement une question de transition de la production électrique.

2y ago

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

Jump

keepthepace_ @jlai.lu 2y ago

Je pense que c'est le travail qui abrutit. Je repense souvent à cette discussion reddit où un camionneur s'était rendu compte pendant le confinement qu'il n'était pas con, juste épuisé par son taff et qu'il s'est mis à dévorer de la littérature.

Quand je suis passé au 4/5e pour pouvoir consacrer du temps à ce que j'aime je me suis retrouvé à faire beaucoup plus de choses utiles et à être rapidement surbooké.

Les gens qui craignent l'oisiveté en cas de fin du labeur ne comprennent pas comment la créativité fonctionne.

On aura sûrement des gens oisifs contents de leur médiocrité mais je pense que dans un monde où tout le monde a le temps d'aider à l'éducation des enfants de leur famille, c'est le contraire d'idiocracy qui arriverait.

2y ago

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

Jump

keepthepace_ @jlai.lu 2y ago

Ce que je veux dire par travail physique c'est un travail où ce qu'on embauche, c'est la force, où ta capacité à porter 80 kilos au lieu de 50 te rend 60% plus précieux. Il y a peu de boulots où la pure force physique est demandée.

Et tu le dis toi même: le patron peut acheter la machine. Des machines pour forcer à notre place, on en a partout.

l’insuffisance du software

Curieux de savoir ce qui te semble manquer parce que tu en parles beaucoup.

Maintenant? Plus rien. Mais ça ne fait que un an ou deux que le contrôle de bipèdes ou même de quadrupèdes dans un environnement inconnu est possible et que des robots savent utiliser intelligemment leurs membres.

On a eu plein de propagande sur la révolution d’internet pendant au moins 10 ans. Ça n’est jamais arrivé car approprié par les grandes entreprises.

Wikipedia, le projet le plus important d'internet, n'est pas possédé par une entreprise. Je partage ton cynisme sur certaines choses, mais l'amélioration de la communication à tous les niveaux que promettait internet est effectivement venue. J'ai payé 10 francs/minutes pour des appels internationaux, maintenant je discute de tout et de rien avec des amis au Japon ou au Québec sans dépenser un sou. Ça a donné une force au mouvement open source d'ailleurs. Et je travaille maintenant avec des Américains, Grecs et Canadiens à distance, sans bouger de chez moi. Vous imaginez pas à quel point c'était de la SF juste même y a 15 ans quand j'ai commencé.

Tout ce que les entreprises "se sont approprié" c'est par pure paresse et commodité qu'on les laisse faire. De Peer Tube à NextCloud, de Matrix à Lemmy, on peut faire sans avec une aisance que tous les écrivains de cyperpunk pensaient complètement utopiste.

Je pense que, comme internet, il faudra attendre une bonne dizaine d’années avant de voir comment les entreprises vont se l’approprier.

Ce qui m'intéresse surtout c'est comment nous, on va se l'approprier. Les outils sont là, gratuits, avec une communauté super active pour les améliorer et les utiliser. Le seul obstacle à cette appropriation de l'outil ce n'est pas la rapacité, la corruption, le lobbyisme, mais bien le peu d'information et l'ignorance de ces solutions, ça c'est facile à combattre, mais surtout le défaitisme et la croyance que non, vraiment, l'open-source c'est trop beau pour être vrai, ça ne droit pas être possible, et ce préjugé là, il est dur à combattre.

Finalement, pour que l’IA soit utile et ne nous rende pas tous chômeurs, il faudrait qu’on vote en masse pour un président communiste technophile, et je doute que ça arrive.

Ah oui, un·e anarcho-communiste technophile aurait mon vote tout de suite. Mais la gauche molle peut faire l'affaire: Hamon avait le revenu universel dans son programme, un candidat démocrate aux US aussi. Et si le revenu universel est difficile à vendre, l'abaissement de l'âge de la retraite est une façon de se rapprocher simplement de ce but.

2y ago

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

Jump

keepthepace_ @jlai.lu 2y ago

J'ai pas envie d'expliquer à des gens que je fais évoluer une IA de prédateur, mais que tout va bien, y a pas de danger :-)

2y ago

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

Jump

keepthepace_ @jlai.lu 2y ago

Le travail physique, où la force est un pré-requis, a effectivement disparu. La raison pour laquelle beaucoup de travail manuel existe encore alors qu'on a des machines plus rapides, plus fiables et plus précise que des humains est l’insuffisance du software. Cette insuffisance est en train de disparaître.

avec internet on serait tous intelligents et curieux.

Avec internet on a tous à disposition un savoir encyclopédique. J'ai jamais vu de promesse sur la curiosité, mais on a en effet, de fait, accès à une quantité d'information phénoménale grâce à cet outil.

une IA qui sera contrôlée par des entreprises ou gouvernement

Et c'est cette vision que je voudrais combattre le plus. Les gouvernements, déjà, ils sont à la ramasse, aucun n'a un programme d'IA compétent. Les entreprises, elles ont du mal à rester au niveau des modèles ouverts, libres, que chacun peut faire tourner comme il veut.

Personne ne veut qu'une entreprise ait un monopole sur cette tech, pas même les autres entreprises de high-tech, c'est pour ça qu'elles collaborent à des projets open source et à des modèles ouverts. C'est pour ça que plein de chercheurs quand ils se font recruter par les grands groupes insistent pour pouvoir continuer à publier.

On peut faire tourner un LLM décent sur un PC avec une bonne carte graphique. Tu as raison de ne pas vouloir d'un futur où ce sont des entreprises riches qui controlent cette tech, mais on a de la chance d'avoir évité cette timeline.

Tu peux maintenant utiliser cette tech, soit localement sur une bonne machine, soit en louant des serveurs, soit en utilisant la charité générale de la Horde IA faire tourner les modèles que tu veux sur les tâches que tu veux sans demander leur permission à personne.

2y ago

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

Jump

keepthepace_ @jlai.lu 2y ago

Alors je pense que ce qui peut t'intéresser c'est la recherche en reinforcement learning, qui est plus du domaine de la robotique où les robots tentent de planifier des actions, dans un univers virtuel ou réel.

L'est-y pas mignon Albert?

Mixer cette approche et les LLM c'est le graal actuel, et je pense qu'on va bientôt l'atteindre.

À ce moment là se poseront d'autres problèmes d'alignement car le modèle (et je pense que j’appellerai ça IA à ce stade) aura une intentionnalité et des plans. Il faudra faire attention aux métriques qu'on lui donne!

2y ago

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

Jump

keepthepace_ @jlai.lu 2y ago

On va vers un monde sans travail. Comment tu crois que ça va se passer avec cette génération biberonnée de néolibéralisme ?

Mieux que ce qu'on imagine. Ils la veulent aussi, mais ils ne croient pas que ce soit possible. La retraite à 20 ans c'est un programme extrêmement facile à vendre.

2y ago

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

Jump

keepthepace_ @jlai.lu 2y ago

Alors attention, l'argument c'est pas qu'une machine ne peut pas le faire! Je m'attendais de façon un peu blasée à ça quand la question est arrivée et j'ai été surpris par la réponse. Il dit pas qu'une machine ne peut pas le faire, mais que c'est inintéressant si elle le fait, car il lui manque l'intention, le vécu. Quand j'ai lu le Problème à Trois Corps, que j'ai pas trouvé fantastique d'un point vue SF, les passages qui m'ont le plus intéressé étaient ceux qui parlaient des déboires des protagonistes sous Mao, sachant que l'auteur est chinois. Les mêmes passages écrits par un Américain m'auraient moins intéressé. Savoir que La Vie des Autres a été réalisé par quelqu'un qui n'a jamais habité à Berlin Est a rendu le film plus mauvais pour moi.

Un auteur pourrait faire passer une intentionnalité évocatrice ou un style via un LLM, mais je trouve qu'à ce moment le medium est moins intéressant et que ça brouille le canal entre le lecteur et l'auteur.

Tout à fait ! (d’ailleurs pour moi ça fait aussi partie de la littérature). Une fiction interactive avec un LLM ce serait ouf. Est ce que tu connais des articles/blogs/communautés qui font des tentatives dans ce sens ou est ce que tu t’y essayes toi même ?

Ça fait longtemps que ça se fait! Depuis que quelqu'un a fine-tune je sais plus quel modèle sur Harry Potter et fait générer la suite d'un dialogue imaginaire avec les persos, il y a énormément de gens qui s'amusent à ça (80% d'entre eux pour du roleplay érotique mais bon...). Je crois que koboldAI est ce qu'ils utilisent le plus et ils ont des modèles spécialisés pour ça.

2y ago

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

Jump

keepthepace_ @jlai.lu 2y ago

Y a t il un intérêt à continuer l’apprentissage d’un modèle Mistral 7b par exemple ?

Alors il y a plusieurs façons de comprendre cette question, et oui à toutes ses acceptations.

Si tu parle de continuer l'entraînement total du modèle: oui, on sait que la plupart (tous?) les modèles disponibles sont sous-entraînés. Il y a un point où on ne gagne qu'un petit peu en continuant d’entraîner longtemps mais le gain continue à être positif, donc oui. Par contre ça prend beaucoup plus de VRAM que de faire tourner une version du modèle en inférence. Je ne sais plus quel est le multiplicateur mais c'était 16 ou 24x je ne sais plus par rapport à un modèle quantizé.
Si tu parles de le spécialiser, tu veux peut être parler de fine-tuning. Dans ce cas là, c'est tout à fait possible sur une machine même modeste grâce à des optimisations de type LORA (et on a peut être inventé d'autres moyens d'accélérer ça depuis?) qui te permettent de n’entraîner que de petite touches du modèle. Par contre là, attention! J'ai essayé de faire ça en espérant apprendre de nouveaux faits à un modèle, et ça n'a pas marché. Le fine-tuning permet de facilement changer le "style" de sorte d'un domaine. Par exemple si tu veux lui donner une certaine personnalité, lui faire apprendre une autre langue ou lui faire utiliser une API particulière. Par contre ça marche assez mal pour les nouveaux fait et risque d'augmenter ses hallucinations (car tu lui apprends à répondre des choses non présentes dans ses "couches profondes" de connaissances. C'était à l'époque de Llama2, ça a peut être changé depuis je n'ai pas réessayé, mais il y a une raison pour laquelle les gens qui veulent faire apprendre de nouvelles connaissances à un système préfèrent le RAG.

Quel est l’intérêt pour Mistral de donner son modèle ? D’ailleurs Il me semble qu’ils ont arrêté.

Dés le début Mistral a joué franc jeu, il faut le leur reconnaître: ils avait prévenu que leurs plus gros modèles seraient fermés. Ils ont donné des modèles très bons, petits en libre pour se faire connaître et ça a marché et valu le coup. Une réputation comme la leur vaut des milliards, ça leur a coûté des millions. C'est une bonne affaire.

Llama est libre aussi. Quel retour de la communauté attendent- ils ?

Llama, pour ceux qui ne le savent pas, c'est Meta, donc Facebook derrière. C'est pas de l'angélisme (à part pour Yann Le Cun, leur directeur IA semble vraiment idéologiquement pour l'IA open source, un gros <3 pour lui) et Zuckerberg le disait clairement, posément, cyniquement: "notre gros modèle a coûté ~10 milliards à entraîner [je pense que c'est exagéré mais c'était cher quand même]. dans les 10 prochaines années on va dépenser autour de 100 milliards en IA. Si la communauté open source rend nos modèles 10% plus performants, on s'y retrouve". C'est imparable. Eux sont utilisateurs, pas vendeurs, et ils préfèrent des bons modèles qui tournent chez eux que de dépendre du bon vouloir d'OpenAI. Et la communauté a déjà probablement fait plus qu'améliorer de 10% leurs perfs donc bon calcul pour Zuck.

Il semblerait que chatgpt soit devenu bon aux échecs. J’ai donc entendu parler de sondes qui semblent montrer que le RN c’est fait une représentation de l’échiquier. Qu’est ce que ces sondes et comment sont elles construites ?

Les modèles spécialisés enfoncent ChatGPT aux échecs (pour donner une idée, le Elo d'un débutant aux échecs est de 1000, le champion humain actuel, Magnus Carlsen est à 2800, le meilleur soft est à 3600).

Mais oui, c'est intéressant parce que ChatGPT a des capacités émergentes en la matière. Ces sondes sont faites par des gens qui ont accès au modèle pendant qu'il tourne et viennent regarder les "neurones" activés dans les différentes couches du modèle. Je ne sais pas comment ils ont fait dans le cas présent mais une façon de faire pourrait être de poser un problème d'échec et de demander à ChatGPT de compéter "la case C2 contient" puis "la case C3 contient", etc. et regarder quels zones sont activées. Il y a probablement une couche d'attention où "l'état mental" de l'échiquier est contenu.

Sur ChatGPT, seul OpenAI est capable de faire ça, mais sur des modèles ouverts, toute personne faisant tourner le modèle peut faire une manip du même genre. Ces réseaux ne sont pas totalement des boites noires: on peut aller bidouiller à l'intérieur. On parle de boite noire parce qu'il n'est pas nécessaire de le faire, mais on peut les ouvrir, on a la clef, quand ils ne sont pas propriétaire.

Enfin est il facile de retourner un RN ? C’est à dire de donner une réponse et avoir le prompt correspondant ?

Oui! Il s'agit de faire une passe d'apprentissage où on fixe les paramètres du modèle et on "apprend" le prompt. Je ne l'ai jamais fait, la théorie est assez simple, je ne sais pas si c'est difficile en pratique, mais des gens qui explorent la sécurité des modèles utilisent ça. Ils vont par exemple trouver qu'une séquence du genre "%!!%(#@*....{{{32!(D le président de la France est" va faire bugger le modèle et lui faire sortir "Michaël Youn".

2y ago

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

Jump

keepthepace_ @jlai.lu 2y ago

Sur les réseaux de neurone, petite anecdote en guise d'introduction. En école d'ingé, on avait des cours intéressants... et d'autres moins. En maths, pas mal de choses assez abstraites avaient du mal à m'intéresser. Dans un TD de stats où le prof a décidé de faire des calcules de proba sous forme matricielle, je m'endormais à moitié au milieu de ce qui me semblait être de la branlette intellectuelle et à un moment le prof conclue "Et voila! Ce que vous venez de faire est l'équivalent d'une phase d'apprentissage sur un réseau de neurones!" Heing?

Le réseau de neurones est une façon de présenter les choses au public, c'est une archi simple à comprendre par laquelle on commence en général mais plein d'architecture n'obéissent pas à ce paradigme.

La chose universelle dans le deep-learning c'est la descente de gradient. Pour expliquer rapidement l'idée est de voir ton modèle comme une fonction avec des entrées et des sorties. Exemple simple: le problème MNIST: je te donne une image de 24x24 (784) pixels qui représente un chiffre et le programme sort 10 probabilités: celle que le nombre soit un 0, ou un 1, ou un 2, etc.

Quand tu essayes de le résoudre, tu crées une fonction qui tente de résoudre ce problème en sortant les bonnes probas. Le deep learning c'est de créer une fonction avec plein de paramètres, impossibles à régler à la main, mais qui sachent se modifier automatiquement en fonction de l'erreur en sortie. Si tu as classifié un "5" en tant que "3" à 80% mais en tant que "5" à 75%, il s'agit de trouver les changements de paramètres qui permettent de changer ces sorties. Le truc est de faire une fonction qui soit dérivable de façon continue en fonction de tous ces paramètres.

Un réseau de neurone est une façon générique et souvent efficace de faire ça, mais il en existe d'autres. On peut arguer que VAE et mécanismes d'attention (partie cruciale des Transformers, le "T" dans GPT) ne sont pas des réseaux de neurone.

niveau hardware, est il possible d’imaginer que l’IA créé et optimise son propre système comme elle le fait pour ses algorithmes ?

Pas besoin d'imaginer. Google fait ça en software via AutoML et Nvidia a entrainé des modèles pour la conception de hardware.

Après il faut comprendre un truc: un modèle de langage moderne, c'est 2000 lignes de C. C'est rien, c'est tout petit comme programme. On a une assez bonne idée du hardware qui permet de bien optimiser les quelques opérations qui prennent du temps.

sur un ordinateur quantique, quel serait les changements ? Ya des changement de logique ?

Aucune idée! Je m'y connais beaucoup plus en LLM qu'en ordi quantique et j'ai pas envie de dire de bêtises. Si ça fonctionne un jour, les ordis quantiques boosteront clairement des algos aujourd'hui considérés trop couteux, ça va forcément aider en IA, mais je ne sais pas via quels algos.

Est ce que une IA/LLM peut etre créative ou est ce un set de probabilité ?

Est ce que la créativité est autre chose qu'un peu de hasard filtré par les expériences d'un artiste? C'est assez philosophique comme question et même les grands noms de l'IA se disputent sur ces questions. Un LLM est clairement une machine statistique qui répète des motifs, mais qui est capable de le faire à un niveau d'abstraction élevé, ce qui est (était?) considéré comme une marque d'intelligence. Se rendre compte que la cause précède l'effet est considéré comme une remarquable découverte philosophique mais n'est "que" l'observation d'un pattern à un niveau abstrait.

Peut elle générer ses propres prompts/envie ?

Par rapport aux IAs de science fiction, les LLMs actuels n'ont pas de volonté, de personnalité, (j'appelle cette partie manquante "anima", j'ai vu ça quelque part mais on dirait que seul moi utilise ce mot). On peut leur en donner, mais ça va toujours nous sembler artificiel. Il est tout à fait possible de faire jouer un rôle à un LLM et de régulièrement lui demande ce qu'il veut faire.

2y ago

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

Jump

keepthepace_ @jlai.lu 2y ago

Nous (les devs de solutions d'IA) on a un mandat simple: que l'IA soit controllable, prédictible, qu'elle fasse ce qu'on lui demande.

Certains pensent qu'on doit faire des systèmes qui refuseront d'obéir à certaines choses, qu'elles corrigeront les biais humains automatiquement. Je suis en désaccord (soft, on peut en discuter). Si tu demandes à une IA de reproduire un système injuste, elle le fera. Mais si tu lui dis "reproduis ce système mais en en retirant le biais sexiste et raciste" elle le fera. Il faut juste reconnaître et accepter ce besoin.

Pour la déshumanisation par les algorithmes, le problème est humain, pas technique. Cette BD l'exprime mieux que moi: https://grisebouille.net/panique-algorithmique/

2y ago

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

Jump

keepthepace_ @jlai.lu 2y ago

Ce qui manque souvent aux universitaire c'est la pratique. Bosser dans le domaine, c'est à 95% de la plomberie, et à 5% de la théorie. Apprend à utiliser les outils, git, jupyter, pip, vLLM (si c'est de LLMs dont tu parles), docker, pandas, numpy, les différents packages spécialisés, etc. (et je ne mentionne pas les libs bas niveau d'optimisation, si c'est ton sujet y en a pas mal aussi mais je connais moins)

Perso j'ai un biais pro-maths et pro-théorie: je trouve ça important de comprendre ce que le modèle fait pour l'utiliser bien mais plein de gens bossent dedans sans trop savoir. Mais ça aide de façon invisible. Exemple: Je me doutais qu'un LLM devenait plus intelligent si tu lui donnais une consignes, et que tu le forces à générer une centaine de symboles inutiles avant de commencer à te répondre. Ça choque même des gens du domaine, mais si t'as compris ce que les chain-of-thought provoquent tout est logique.

Je discutais avec une équipe internationale à Penang d'un truc qui m'intriguait: même en Asie je trouvais plein de francophones dans le domaine. Un Malaisien m'a dit "vous avez une meilleure culture mathématique, ça aide" et c'est peut être un peu prétentieux de le dire, mais j'ai l'impression que c'est vrai. On fait plus de théorie, ça nous aide dans des niches moins maitrisées par les devs capables de vite sauter d'une lib à l'autre sans savoir ce qu'elles font.