Nous sommes à l’aube d’une nouvelle ère passionnante de l’intelligence artificielle, avec des avancées impressionnantes dans la capacité de l’IA 🤖 à générer du texte et des images. Cependant, l’IA générative actuelle soulève des préoccupations majeures liées à l’équité et à l’utilisation non autorisée du contenu des créateurs de contenus . Si à titre personnel, je trouve cela absolument formidable de pouvoir créer tous types de contenus, textes, codes, images, en quelques instructions, cela relève pourtant d’un vide juridique qu’il va falloir combler rapidement.
Comment les données sont acquis et traitées par l’IA
Le machine learning et le deep learning sont deux types d’intelligence artificielle (IA), c’est-à-dire des technologies qui permettent aux machines d’apprendre et de prendre des décisions intelligentes. Mais quelle est la différence entre ces deux concepts ?
Le machine learning
Le machine learning est une méthode qui consiste à entraîner un algorithme à partir de données, souvent structurées et étiquetées, pour qu’il puisse reconnaître des motifs (pattern), faire des prédictions ou effectuer des actions.
Par exemple, un algorithme de machine learning peut apprendre à identifier des animaux sur des photos en se basant sur des exemples fournis par des humains. Le machine learning peut être supervisé, c’est-à-dire que l’algorithme reçoit des feedbacks sur ses performances, ou non supervisé, c’est-à-dire qu’il découvre lui-même les structures cachées dans les données.
Le deep learning
Le deep learning est une forme avancée de machine learning qui utilise des réseaux de neurones artificiels pour imiter le fonctionnement du cerveau humain. Un réseau de neurones est composé de plusieurs couches de nœuds qui reçoivent, transforment et transmettent des informations. Le deep learning peut traiter des données complexes et non structurées, comme des images, des sons ou des textes, et apprendre par lui-même sans intervention humaine.
Par exemple, un algorithme de deep learning peut apprendre à générer des visages réalistes en se basant sur des millions d’images existantes.
Le cas GPT
Par exemple, GPT est un modèle de langage qui peut générer du texte dans différents domaines et styles. Il a été entraîné sur un corpus de plus de 40 Go de textes provenant d’Internet, comme Wikipedia, Reddit ou des articles de presse. Ces données permettent au modèle d’apprendre les règles et les nuances du langage naturel, ainsi que les connaissances générales sur le monde.
Bloquons les bots des IA ou demandons à être payés ?
Les bases sont posées. L’IA aspire notre contenu sans notre consentement et le retranscrit en l’en associant à d’autres sources de contenus. Tony Stubbleline, CEO chez Medium et Geek par excellence a proposé un concept assez intéressant mais qui n’aura clairement aucune possibilité d’être appliqué aux blogs indépendants, mais qui pourra être mis en place dans des structures plus importantes et blindées juridiquement.
La règle des 3C : Consentement, Compensation et Crédit
Leur objectif est d’obtenir des concessions concrètes dans trois domaines essentiels : consentement, crédit et compensation :
- Consentement : Ils cherchent à établir des protocoles de consentement normalisés qui mettent le contrôle entre les mains des créateurs individuels. Un système au niveau de la page semble être la meilleure voie à suivre pour garantir que les écrivains autorisent ou refusent spécifiquement la formation de l’IA sur leurs histoires.
- Compensation: Dans le sens d’une rémunération négociée avec les entreprises d’IA serait une possibilité, mais sa mise en œuvre est complexe en raison de la difficulté à évaluer la valeur de chaque contenu ou extrait de contenu. Cependant, cette option reste sur la table, car certaines entreprises sont prêtes à payer pour accéder au contenu.
- Crédit : Idéalement, lorsque l’IA génère du texte basé sur vos histoires, elle devrait vous créditer en créant un lien vers votre travail. Cette approche, basée sur le crédit droit, encourage et récompense les contributions à la création collaborative d’œuvres créatives. C’est déjà le cas en partie, lorsque vous utilisez le moteur conversationnel de Bing.
En attendant que faire ?
Vous pouvez toujours bloquer les robots des IA en ajoutant un Disallow dans votre fichier robots.txt. Cependant il faut garder à l’esprit que l’efficacité de cette contre-mesure est toute relative. Les experts SEO savent très bien que Google lui–même ne crawle pas votre site uniquement avec GoogleBot. Sinon le le cloaking serait bien trop simple 🤓.
# OpenAI
User-agent: GPTBot
Disallow: /
# Google
User-agent: LaMDA
Disallow: /
# Google
User-agent: Bard
Disallow: /
# Google
User-agent: RoBoCop
Disallow: /
# Amazon
User-agent: Alexa
Disallow: /
# Microsoft
User-agent: Cortana
Disallow: /
