
A start-up francesa, que desenvolveu o chatbot conversacional Le Chat, alegadamente utilizou conteúdo protegido por direitos de autor para treinar o seu modelo de linguagem, de acordo com uma investigação da Mediapart.
A Mistral AI, como outras empresas do setor de inteligência artificial (IA), ignorou os direitos autorais: esta é a conclusão de uma investigação da mídia investigativa Mediapartpublicado nesta segunda-feira, 23 de fevereiro: segundo nossos colegas, Mistral AI, o campeão francês da IA generativa, utilizou livros, músicas e artigos de imprensa para treinar seu modelo de linguagem, sem autorização.
Durante meses, a start-up de IA, que desenvolveu o chatbot de IA Le Chat, relutou em ser transparente sobre seus dados de treinamento. A empresa francesa, como quase todas as empresas de IA, está esperando até o último momento para cumprir suas novas obrigações vinculadas à Lei de IA, informou EURACTIV em janeiro passado. Este último deve abrir a porta aos seus dados de formação, dados essenciais para os titulares de direitos e criadores, que os aguardam.
Leia também: Forçados a abrir o capô sobre seus dados de treinamento, OpenAI, Google e Mistral estão se arrastando
Esta é, de facto, a única forma de estes últimos verificarem se os seus livros, artigos ou peças musicais foram utilizados para treinar as ferramentas de IA, apesar da ausência de autorização: neste caso, estes últimos poderão reclamar uma indemnização.
Modelo de IA da Mistral AI capaz de reproduzir partes inteiras de Harry Potter e o Pequeno Príncipe
De acordo com Mediapartnão só Mistral teria usado “ obras protegidas por direitos autorais » para fins de treinamento de sua ferramenta de IA. Mas a empresa utiliza dados de diversos sites de mídia, sem respeitar seus “ excluir » (ver quadro abaixo). A Mistral AI também forneceria acesso direto a conteúdo protegido, detalha o site de investigação.
Para chegar a essa conclusão, a mídia online realizou testes técnicos” entender como funcionam o Mistral Large 3-2512 (o modelo Mistral AI mais recente) e o Le Chat », o agente conversador da start-up francesa, indicam os nossos colegas. Le Chat conseguiu reproduzir partes inteiras de obras protegidas por direitos autorais, como Harry Potter e a Pedra FilosofalO Pequeno Príncipe de Antoine de Saint-Exupéry, o hobbit por JRR Tolkien.
Leia também: O mundo do cinema denuncia uma “saque regular” da IA “aqui e agora”
Para três pesquisadores entrevistados por nossos colegas, isso é “ de um indicador forte » que a ferramenta de IA foi treinada no trabalho original, e não em trechos que estariam espalhados pela web. Ao lado dos livros, também estão em causa canções e artigos de imprensa.
Quando questionado, Mistral AI simplesmente respondeu que os bots usados pela start-up “ enriquecer as respostas fornecidas aos (seus) usuários e não se destinam a constituir conjuntos de dados para treinar (seus) modelos “.
No final de janeiro, a Mistral AI também foi acusada por uma editora francesa, Nouveau Monde Editions, de ter pirateado parte do seu catálogo, sem autorização: alegação fortemente contestada pelo principal interessado.
Em França e na Europa, os artistas, os detentores de direitos e os criadores de conteúdos podem, em teoria, opor-se à introdução das suas obras em sistemas de IA, usando o “ excluir ». Isto é previsto pela Diretiva de Direitos Autorais de 2019, quando as ferramentas de IA coletam dados para treinamento por meio de rastreadores da web.
Se o autor se opuser expressamente (se ele “optar pela exclusão”), o “ mineração de texto e dados » (o direito de pesquisa, uma exceção aos direitos de autor prevista pela diretiva europeia) não é possível. Mas, na prática, este mecanismo é difícil de implementar.
Os autores podem, de facto, escrever expressamente num determinado website: “Não quero que o meu trabalho seja utilizado”, ou utilizar programas de computador que bloqueiem pedidos de ferramentas de IA ou robôs. Mas essas oposições são eficazes?
A pesquisa Mediapart inclina-se para não. Até agora, existe um opacidade nos dados de formação das ferramentas de IA e na tomada em consideração das oposições dos autores/criadores.
- Por um lado, os desenvolvedores de IA como OpenAI, Google ou Mistral AI não comunicaram a lista de dados usados para treinar sua ferramenta.
- Por outro lado, sem esta informação, os autores não podem ou dificilmente podem saber se os seus trabalhos foram utilizados para treinar IA.
Do lado europeu, os legisladores europeus acrescentaram à Lei de IA um “ princípio da transparência das fontes “. Exige que desenvolvedores de IA como OpenAI e Mistral AI publiquem um “resumo suficientemente detalhado” dos dados usados para treinar sua ferramenta.
Esta transparência ainda não é controlada a nível europeu. Será feito pela Comissão Europeia a partir do próximo mês de agostopara modelos colocados no mercado após 2 de agosto de 2025.
Do lado francês, um projeto de lei senatorial, apresentado em dezembro passado, visa facilitar a vida dos autores. Isso inverteria o ônus da prova. Em vez de ter criadores lutando para se opor ao uso de suas obras, ou lutando para provar tal uso, o sistema dependeria de empresas de IA. São eles que devem provar que não utilizaram esse trabalho para treinar a sua ferramenta de IA: uma inversão que suscitou protestos por parte das start-ups francesas… incluindo a Mistral AI.
👉🏻 Acompanhe notícias de tecnologia em tempo real: adicione 01net às suas fontes no Google e assine nosso canal no WhatsApp.