Forçados a abrir o capô sobre seus dados de treinamento, OpenAI, Google e Mistral estão se arrastando

Já se espera que diversas grandes empresas de IA forneçam um resumo dos dados usados para treinar seus modelos, devido à Lei de IA. Mas nenhum desses gigantes ainda jogou o jogo e “abriu o capô”. E por uma boa razão: fornecer acesso a esses dados pode levar a pagamentos e compensações repetidos, uma situação que os gigantes da IA procuram evitar a todo custo.

Não é nenhuma surpresa. Tal como acontece com outras regulamentações digitais europeias, as grandes empresas especializadas em inteligência artificial, nomeadamente OpenAI, Mistral e Google, estão à espera até ao último momento para cumprir. A Lei da IA, o primeiro quadro jurídico europeu dedicado à inteligência artificial, não foge à regra. Desta vez, a questão diz respeito à transparência nos dados de formação dos modelos de IA e ao respeito pelos direitos de autor.

Entrando em vigor em agosto de 2024, a Lei AI impõe obrigações de transparência sem precedentes aos fornecedores de sistemas de inteligência artificial como ChatGPT, Le Chat ou Gemini. Entre elas está a publicação de um resumo dos dados utilizados para treinar seus modelos, dados que antes eram mantidos em sigilo por essas empresas. No entanto, actualmente, nenhum dos principais intervenientes no sector, embora obrigados a respeitar esta obrigação, transmitiu estes dados, relata EURACTIV19 de janeiro de 2026. A situação questiona a capacidade da União Europeia (UE) de impor esta regra a estas grandes empresas.

Uma obrigação imediatamente aplicável, mas controlada apenas a partir deste verão

A Lei AI é um regulamento europeu que entrou em vigor em 1º de agosto de 2024, com implementação gradual de obrigações até 2026-2027. Entre as obrigações previstas neste texto está o dever de transparência, em particular sobre os dados utilizados para formação de modelos de IA. No entanto, a entrada em vigor desta obrigação depende do momento em que um modelo linguístico é colocado no mercado.

Se o modelo de IA for colocado no mercado europeu antes de 2 de agosto de 2025, as empresas têm até agosto de 2027 para mostrar as suas credenciais. Mas se a comercialização ocorreu depois de 2 de agosto de 2025, as empresas deverão cumprir… imediatamente. Contudo, na verdade, a Comissão Europeia só irá monitorizar estas regras a partir do próximo mês de agosto. Uma nuance que as empresas de IA parecem ter compreendido bem.

Nenhuma empresa, com exceção da Hugging Face no dia 28 de julho, cumpriu a regra, detalha a mídia europeia. Por que tanta relutância? Para além das habituais tensões geradas pelas leis digitais europeias, esta obrigação de transparência está a irritar ao máximo algumas empresas. Na verdade, afeta seu modelo econômico.

Obrigação de transparência, o que isso significa?

Esta obrigação exige que publiquem um resumo dos dados utilizados para treinar os seus sistemas de IA. Para facilitar isto, a Comissão Europeia apresentou um modelo sob a forma de formulário preenchível destinado a fornecer uma “linha de base comum”. Esta informação é essencial para autores, criadores e detentores de direitos. Sem esses dados, eles não podem saber se seus trabalhos foram usados para treinar uma ferramenta de IA.

Com esta obrigação, a Comissão Europeia procurou dar-lhes os meios para verificar se os seus trabalhos foram utilizados para treinar um modelo de IA – mesmo que esta não seja uma lista exaustiva, mas um simples resumo. Em tese, o autor (artista, escritor, etc.) poderia contar com essas informações para tomar medidas legais, se utilizadas, com possíveis danos.

Leia também: Direitos autorais: a partir de 2 de agosto, as IAs terão que revelar suas fontes na Europa

Regulamentos já vinculativos, mas ainda não aplicados

No entanto, de acordo com informações divulgadas por EURACTIV, nenhum dos principais grupos de IA divulgou, nesta fase, as informações de transparência exigidas pela Lei de IA. No entanto, a OpenAI, a Google e a empresa francesa Mistral colocaram um modelo no mercado após agosto de 2025. Devem, portanto, aplicar imediatamente esta obrigação de transparência.

Problema: até agora apenas indicaram, nos seus documentos técnicos, que utilizaram vários dados para treinar os seus modelos, sem nomear precisamente os conjuntos de dados ou websites em causa.

Uma posição que não surpreende porque já em novembro de 2022, a OpenAI se recusou a comunicar os seus dados de treino, escolha que foi então amplamente adotada por outros players do setor. A empresa foi também a primeira a ignorar os direitos de autor, ao recolher massivamente dados da Web, incluindo dados protegidos: uma escolha posteriormente seguida pelos seus concorrentes.

No entanto, o fornecimento destes resumos de dados poderia expô-los a exigências de compensação e pagamento de pesadas taxas de direitos de autor… O suficiente para ameaçar o seu modelo económico, especialmente porque muitos deles não são beneficiários. Oficialmente, as empresas justificam a opacidade dos dados de treinamento pela complexidade técnica dos sistemas. Eles também explicam que não conseguem rastrear com precisão as fontes utilizadas.

Perguntado por EURACTIVo Google garante que está atualmente avaliando a forma correta de cumprir os requisitos do regulamento. A OpenAI indica que continua as suas discussões com o gabinete europeu de IA. A Mistral, por sua vez, não respondeu aos pedidos dos nossos colegas.

Quais são as penalidades pelo descumprimento?

A verdade é que, a partir do próximo mês de Agosto, a Comissão Europeia poderá chegar ao ponto de sancionar as empresas que continuem a ignorar estas obrigações de transparência.

No papel, o não cumprimento destas regras custa caro. As partes recalcitrantes enfrentam multas que podem ir até 15 milhões de euros ou 3% do volume de negócios global anual, para as maiores delas. Será a ameaça suficientemente dissuasora e transformar-se-á numa sanção para aqueles que fazem ouvidos moucos?

👉🏻 Acompanhe notícias de tecnologia em tempo real: adicione 01net às suas fontes no Google e assine nosso canal no WhatsApp.

Fonte :

EURACTIV

Fonte

Forçados a abrir o capô sobre seus dados de treinamento, OpenAI, Google e Mistral estão se arrastando

Byirabrins771@gmail.com

Uma obrigação imediatamente aplicável, mas controlada apenas a partir deste verão

Obrigação de transparência, o que isso significa?

Regulamentos já vinculativos, mas ainda não aplicados

Quais são as penalidades pelo descumprimento?

By irabrins771@gmail.com

Related Post

Tudo o que você precisa saber sobre Kimi K2.5, o novo concorrente de código aberto e gratuito que enfrenta Claude 4.5 e GPT-5.2

aqui não são três, mas sim quatro jogos oferecidos aos assinantes do serviço! — Frandroid

descubra sua configuração definitiva e seu preço — Frandroid

Deixe um comentário Cancelar resposta

You missed

Falamos sobre IA em todos os lugares… mas aqui está o que ela realmente consome

Senado rejeita lei sobre morte assistida, devolvida à Assembleia

Carlos III preocupa-se com “retrocesso” na luta contra as alterações climáticas

Tudo o que você precisa saber sobre Kimi K2.5, o novo concorrente de código aberto e gratuito que enfrenta Claude 4.5 e GPT-5.2