Mistral AI, o campeão francês da IA generativa, acusado de ter saqueado obras para sua IA

A start-up francesa, que desenvolveu o chatbot conversacional Le Chat, alegadamente utilizou conteúdo protegido por direitos de autor para treinar o seu modelo de linguagem, de acordo com uma investigação da Mediapart.

A Mistral AI, como outras empresas do setor de inteligência artificial (IA), ignorou os direitos autorais: esta é a conclusão de uma investigação da mídia investigativa Mediapartpublicado nesta segunda-feira, 23 de fevereiro: segundo nossos colegas, Mistral AI, o campeão francês da IA generativa, utilizou livros, músicas e artigos de imprensa para treinar seu modelo de linguagem, sem autorização.

Durante meses, a start-up de IA, que desenvolveu o chatbot de IA Le Chat, relutou em ser transparente sobre seus dados de treinamento. A empresa francesa, como quase todas as empresas de IA, está esperando até o último momento para cumprir suas novas obrigações vinculadas à Lei de IA, informou EURACTIV em janeiro passado. Este último deve abrir a porta aos seus dados de formação, dados essenciais para os titulares de direitos e criadores, que os aguardam.

Leia também: Forçados a abrir o capô sobre seus dados de treinamento, OpenAI, Google e Mistral estão se arrastando

Esta é, de facto, a única forma de estes últimos verificarem se os seus livros, artigos ou peças musicais foram utilizados para treinar as ferramentas de IA, apesar da ausência de autorização: neste caso, estes últimos poderão reclamar uma indemnização.

Modelo de IA da Mistral AI capaz de reproduzir partes inteiras de Harry Potter e o Pequeno Príncipe

De acordo com Mediapartnão só Mistral teria usado “ obras protegidas por direitos autorais » para fins de treinamento de sua ferramenta de IA. Mas a empresa utiliza dados de diversos sites de mídia, sem respeitar seus “ excluir » (ver quadro abaixo). A Mistral AI também forneceria acesso direto a conteúdo protegido, detalha o site de investigação.

Para chegar a essa conclusão, a mídia online realizou testes técnicos” entender como funcionam o Mistral Large 3-2512 (o modelo Mistral AI mais recente) e o Le Chat », o agente conversador da start-up francesa, indicam os nossos colegas. Le Chat conseguiu reproduzir partes inteiras de obras protegidas por direitos autorais, como Harry Potter e a Pedra FilosofalO Pequeno Príncipe de Antoine de Saint-Exupéry, o hobbit por JRR Tolkien.

Leia também: O mundo do cinema denuncia uma “saque regular” da IA “aqui e agora”

Para três pesquisadores entrevistados por nossos colegas, isso é “ de um indicador forte » que a ferramenta de IA foi treinada no trabalho original, e não em trechos que estariam espalhados pela web. Ao lado dos livros, também estão em causa canções e artigos de imprensa.

Quando questionado, Mistral AI simplesmente respondeu que os bots usados pela start-up “ enriquecer as respostas fornecidas aos (seus) usuários e não se destinam a constituir conjuntos de dados para treinar (seus) modelos “.

No final de janeiro, a Mistral AI também foi acusada por uma editora francesa, Nouveau Monde Editions, de ter pirateado parte do seu catálogo, sem autorização: alegação fortemente contestada pelo principal interessado.

Em França e na Europa, os artistas, os detentores de direitos e os criadores de conteúdos podem, em teoria, opor-se à introdução das suas obras em sistemas de IA, usando o “ excluir ». Isto é previsto pela Diretiva de Direitos Autorais de 2019, quando as ferramentas de IA coletam dados para treinamento por meio de rastreadores da web.

Se o autor se opuser expressamente (se ele “optar pela exclusão”), o “ mineração de texto e dados » (o direito de pesquisa, uma exceção aos direitos de autor prevista pela diretiva europeia) não é possível. Mas, na prática, este mecanismo é difícil de implementar.

Os autores podem, de facto, escrever expressamente num determinado website: “Não quero que o meu trabalho seja utilizado”, ou utilizar programas de computador que bloqueiem pedidos de ferramentas de IA ou robôs. Mas essas oposições são eficazes?

A pesquisa Mediapart inclina-se para não. Até agora, existe um opacidade nos dados de formação das ferramentas de IA e na tomada em consideração das oposições dos autores/criadores.

Por um lado, os desenvolvedores de IA como OpenAI, Google ou Mistral AI não comunicaram a lista de dados usados para treinar sua ferramenta.
Por outro lado, sem esta informação, os autores não podem ou dificilmente podem saber se os seus trabalhos foram utilizados para treinar IA.

Do lado europeu, os legisladores europeus acrescentaram à Lei de IA um “ princípio da transparência das fontes “. Exige que desenvolvedores de IA como OpenAI e Mistral AI publiquem um “resumo suficientemente detalhado” dos dados usados para treinar sua ferramenta.

Esta transparência ainda não é controlada a nível europeu. Será feito pela Comissão Europeia a partir do próximo mês de agostopara modelos colocados no mercado após 2 de agosto de 2025.

Do lado francês, um projeto de lei senatorial, apresentado em dezembro passado, visa facilitar a vida dos autores. Isso inverteria o ônus da prova. Em vez de ter criadores lutando para se opor ao uso de suas obras, ou lutando para provar tal uso, o sistema dependeria de empresas de IA. São eles que devem provar que não utilizaram esse trabalho para treinar a sua ferramenta de IA: uma inversão que suscitou protestos por parte das start-ups francesas… incluindo a Mistral AI.

👉🏻 Acompanhe notícias de tecnologia em tempo real: adicione 01net às suas fontes no Google e assine nosso canal no WhatsApp.

Fonte

Mistral AI, o campeão francês da IA generativa, acusado de ter saqueado obras para sua IA

Byirabrins771@gmail.com

Modelo de IA da Mistral AI capaz de reproduzir partes inteiras de Harry Potter e o Pequeno Príncipe

By irabrins771@gmail.com

Related Post

gangues de hackers invadem servidores

Emmanuel Macron chama Donald Trump

Nvidia está se preparando para sacudir o mercado de laptops

Deixe um comentário Cancelar resposta

You missed

O amanhã é nosso no TF1: chateado por causa de Brice, Martin tem uma revelação – Série de Notícias na TV

gangues de hackers invadem servidores

um presidente vitivinícola confrontado com os desafios do mundo rural

Estrela da WNBA Kara Braxton morre aos 43 anos