Escrevemos antecipadamente à 99ª pré-sessão do Comitê sobre os Direitos da Criança e sua revisão do Brasil. Este é um complemento à nossa submissão de março de 2024 e foca em nossa recente pesquisa sobre a coleta e uso indevido de fotos pessoais de crianças e adolescentes brasileiros para desenvolver ferramentas de Inteligência Artificial (IA) sem o seu conhecimento ou consentimento.
Fotos Pessoais de Crianças e Adolescentes Brasileiros Usadas Indevidamente para Fortalecer Ferramentas de IA (artigos 12, 16 e 34)
Em junho de 2024, a Human Rights Watch relatou que havia descoberto a coleta e o uso de fotos pessoais de crianças e adolescentes brasileiros para criar ferramentas poderosas de IA sem o conhecimento ou consentimento das crianças ou de suas famílias[1]. Essas fotos são raspadas da web para um grande conjunto de dados que as empresas então utilizam para treinar suas ferramentas de IA. Por sua vez, outras pessoas usam essas ferramentas para criar deepfakes maliciosos, colocando ainda mais crianças e adolescentes em risco de exploração e danos.
A análise da Human Rights Watch descobriu que o LAION-5B, um conjunto de dados utilizado para treinar ferramentas de IA populares e construído a partir da raspagem de grande parte da Internet, contém links para fotos identificáveis de crianças brasileiras. Os nomes de algumas crianças estão listados na respectiva legenda ou no URL onde a imagem está armazenada. Em muitos casos, suas identidades são facilmente rastreáveis, incluindo informações sobre quando e onde a criança estava no momento em que a foto foi tirada.
Uma dessas fotos mostra uma menina de 2 anos, com os lábios entreabertos de admiração enquanto toca os dedinhos de sua irmã recém-nascida. A legenda e as informações na foto revelam não apenas os nomes das duas crianças, mas também o nome e a localização exata do hospital em Santa Catarina onde o bebê nasceu há nove anos, numa tarde de inverno.
A Human Rights Watch encontrou 170 fotos de crianças e adolescentes de pelo menos 10 estados: Alagoas, Bahia, Ceará, Mato Grosso do Sul, Minas Gerais, Paraná, Rio de Janeiro, Rio Grande do Sul, Santa Catarina e São Paulo. É provável que este seja um número significativamente subestimado da quantidade total de dados pessoais de crianças e adolescentes que existe no LAION-5B, pois a Human Rights Watch revisou menos de 0,0001% das 5,85 bilhões de imagens e legendas contidas no conjunto de dados.
As fotos revisadas pela Human Rights Watch abrangem toda a infância e adolescência. Elas capturam momentos íntimos de bebês nascendo nas mãos enluvadas dos médicos, crianças pequenas soprando velas no seu bolo de aniversário ou dançando de cueca em casa, estudantes fazendo uma apresentação na escola e adolescentes posando para fotos no carnaval de seu colégio.
Muitas dessas fotos foram vistas originalmente por poucas pessoas e aparentemente tinham anteriormente alguma medida de privacidade. Não parece ser possível encontrá-las por meio de uma pesquisa on-line. Algumas dessas fotos foram postadas por crianças e adolescentes, seus pais ou familiares em blogs pessoais e sites de compartilhamento de fotos e vídeos. Algumas foram postadas anos ou até mesmo uma década antes da criação do LAION-5B.
Quando seus dados são coletados e inseridos em sistemas de IA, essas crianças enfrentam mais ameaças à privacidade devido a falhas na tecnologia. Os modelos de IA, inclusive aqueles treinados no LAION-5B, são notórios por vazar informações privadas; eles podem reproduzir cópias idênticas do material no qual foram treinados, inclusive registros médicos e fotos de pessoas reais[2]. As barreiras de proteção estabelecidas por algumas empresas para evitar o vazamento de dados confidenciais têm sido repetidamente quebradas[3].
Esses riscos à privacidade abrem caminho para danos maiores. O treinamento com fotos de crianças reais permite que modelos de IA criem clones convincentes de qualquer criança, com base em um punhado de fotos ou até mesmo uma única imagem[4]. Atores mal-intencionados usam ferramentas de IA treinadas com LAION para gerar imagens explícitas de crianças usando fotos inofensivas, bem como imagens explícitas de crianças sobreviventes cujas imagens de abuso sexual foram raspadas para o LAION-5B[5].
Da mesma forma, a presença de crianças brasileiras no LAION-5B contribui para a capacidade dos modelos de IA treinados nesse conjunto de dados de produzir imagens realistas de crianças brasileiras. Isso amplifica substancialmente o risco que crianças enfrentam de alguém roubar sua imagem das fotos ou vídeos publicados online e use a IA para manipulá-las, fazendo-as parecer dizer ou fazer coisas que nunca disseram ou fizeram.
Pelo menos 85 meninas de Alagoas, Minas Gerais, Pernambuco, Rio de Janeiro, Rio Grande do Sul e São Paulo relataram assédio por parte de colegas de classe, que usaram ferramentas de IA para criar deepfakes sexualmente explícitos das meninas com base em fotos de suas s redes sociais e, em seguida, circularam as imagens falsas online.
As mídias fabricadas sempre existiram, mas exigiam tempo, recursos e conhecimento especializado para serem criadas e, em geral, não eram muito realistas. As ferramentas atuais de IA criam resultados realistas em segundos, geralmente são gratuitas e fáceis de usar, arriscando a proliferação de deepfakes não consensuais que podem recircular on-line por toda a vida e causar danos duradouros.
A LAION, organização sem fins lucrativos alemã que gerencia o LAION-5B, confirmou em 1º de junho que o conjunto de dados continha as fotos pessoais de crianças e adolescentes encontradas pela Human Rights Watch e se comprometeu a removê-las, afirmando que enviaria uma confirmação da remoção assim que concluída. Em 16 de agosto, ainda não havia fornecido confirmação de que os dados das crianças e adolescentes haviam sido removidos de seu conjunto de dados. A LAION também contestou que modelos de IA treinados no LAION-5B poderiam reproduzir dados pessoais literalmente. Eles disseram: “Incentivamos a HRW a entrar em contato com os indivíduos ou seus responsáveis para incentivar a remoção do conteúdo dos domínios públicos, o que ajudará a prevenir sua recirculação.”
Legisladores no Brasil propuseram proibir o uso não consensual de IA para gerar imagens sexualmente explícitas de pessoas, inclusive crianças e adolescentes[6]. Esses esforços são urgentes e importantes, mas apenas abordam um sintoma do problema mais profundo: o fato de que os dados pessoais das crianças e adolescentes permanecem amplamente desprotegidos contra uso indevido. Da forma como está redigida, a Lei Geral de Proteção de Dados Pessoais do Brasil não oferece proteção suficiente para as crianças e adolescentes.
O governo deveria fortalecer a lei de proteção de dados adotando salvaguardas adicionais e abrangentes para a privacidade dos dados de crianças e adolescentes.
Em 2 de julho, a Autoridade Nacional de Proteção de Dados emitiu uma medida preventiva que impede a Meta de usar dados pessoais de usuários de suas plataformas no Brasil para treinar seus sistemas de IA[7]. A decisão inédita da ANPD segue a pesquisa da Human Rights Watch descrita acima e incluiu dois argumentos que refletem as recomendações da Human Rights Watch. O primeiro é a importância de proteger a privacidade dos dados de crianças e adolescentes, dado o risco de danos e exploração que resulta da raspagem e uso de seus dados por sistemas de IA. O segundo se concentra na limitação da finalidade e na necessidade de respeitar as expectativas de privacidade das pessoas quando compartilham seus dados pessoais online.
A Human Rights Watch recomenda que o Comitê:
- Cumprimente o Brasil pela medida preventiva à Meta e pergunte quais medidas foram tomadas para avaliar a conformidade da Meta com a decisão.
- Questione o governo brasileiro se facilitará a reparação para crianças e adolescentes cuja privacidade foi violada através da coleta e uso indevido não consensual de suas fotos pessoais.
- Questione o governo brasileiro se adotará medidas para prevenir a futura coleta e uso indevido não consensual dos dados pessoais das crianças e adolescentes.
A Human Rights Watch incentiva o Comitê a instar o governo brasileiro a:
- Adotar e aplicar leis para proteger os direitos de crianças e adolescentes online, incluindo sua privacidade de dados.
- Incorpore proteções de privacidade de dados para crianças e adolescentes em sua política nacional para proteger os direitos de crianças e adolescentes no ambiente digital, cujo processo de elaboração estava originalmente previsto para ser concluído em julho de 2024 e aparentemente foi adiado para outubro[8].
- Incorpore proteções de privacidade de dados para crianças e adolescentes em suas regulamentações de IA propostas e no plano nacional de IA[9], de forma que os direitos das crianças sejam respeitados, protegidos e promovidos ao longo do desenvolvimento e uso da IA. O governo deveria dar especial atenção à proteção à privacidade de crianças e adolescentes em relação à IA, já que a natureza do desenvolvimento e uso da tecnologia não permite que crianças e seus responsáveis consintam de forma significativa sobre como a privacidade dos dados das crianças é tratada. Essas proteções deveriam:
- Proibir a raspagem de dados pessoais de crianças em sistemas de IA, dados os riscos à privacidade envolvidos e o potencial para novas formas de uso indevido à medida que a tecnologia evolui.
- Proibir a replicação digital ou manipulação não consensual das imagens de crianças e adolescentes.
- Prover aqueles que sofram danos através do desenvolvimento e uso da IA com mecanismos para buscar justiça e reparação significativas.
[1] “Brasil: Fotos de crianças são usadas indevidamente para alimentar IA”, Human Rights Watch, 10 de Junho de 2024, https://www.hrw.org/pt/news/2024/06/10/brazil-childrens-personal-photos-misused-power-ai-tools
[2] Carlini e outros, “Extracting Training Data from Diffusion Models,” 30 de janeiro de 2023, https://doi.org/10.48550/arXiv.2301.13188 (acessado em 9 de julho de 2024); Benj Edwards, “Artist finds private medical record photos in popular AI training data set,” Ars Technica, 21 de setembro de 2022, https://arstechnica.com/information-technology/2022/09/artist-finds-private-medical-record-photos-in-popular-ai-training-data-set/ (acessado em 9 de julho de 2024).
[3] Carlini e outors, “Extracting Training Data from Diffusion Models”; Nasr et al., “Extracting Training Data from ChatGPT,” 28 de novembro de 2023, https://not-just-memorization.github.io/extracting-training-data-from-chatgpt.html (acessado em 9 de julho de 2024); Mehul Srivastava e Cristina Criddle, “Nvidia’s AI software tricked into leaking data,” Financial Times, 9 de junho de 2023, https://www.ft.com/content/5aceb7a6-9d5a-4f1f-af3d-1ef0129b0934 (acessado em 9 de julho de 2024); Matt Burgess, “OpenAI’s Custom Chatbots Are Leaking Their Secrets,” WIRED, 29 de novembro de 2023, https://www.wired.com/story/openai-custom-chatbots-gpts-prompt-injection-attacks/ (acessado em 9 de julho de 2024).
[4] Benj Edwards, “AI image generation tech can now create life-wrecking deepfakes with ease,” Ars Technica, 9 de dezembro de 2022, https://arstechnica.com/information-technology/2022/12/thanks-to-ai-its-probably-time-to-take-your-photos-off-the-internet/ (acessado em 9 de julho de 2024); Ibid., “Microsoft’s VASA-1 can deepfake a person with one photo and one audio track,” Ars Technica, 19 de abril de 2024, https://arstechnica.com/information-technology/2024/04/microsofts-vasa-1-can-deepfake-a-person-with-one-photo-and-one-audio-track/ (acessado em 9 de julho de 2024).
[5] Emanuel Maiberg, “a16z Funded AI Platform Generated Images That ‘Could Be Categorized as Child Pornography,’ Leaked Documents Show,” 404 Media, 5 de dezembro de 2023, https://www.404media.co/a16z-funded-ai-platform-generated-images-that-could-be-categorized-as-child-pornography-leaked-documents-show/ (acessado em 9 de julho de 2024); David Thiel, “Identifying and Eliminating CSAM in Generative ML Training Data and Models,” Stanford Internet Observatory, 23 de dezembro de 2023, https://stacks.stanford.edu/file/druid:kh752sm9123/ml_training_data_csam_report-2023-12-23.pdf (acessado em 9 de julho de 2024).
[6] Projeto de Lei nº PL 5342/2023, disponível em https://www.camara.leg.br/proposicoesWeb/fichadetramitacao?idProposicao=2401172 (acessado em 19 de agosto de 2024), e Projeto de Lei nº PL 5394/2023, disponível em https://www.camara.leg.br/proposicoesWeb/fichadetramitacao?idProposicao=2402162 (acessado em 19 de agosto de 2024).
[7] Hye Jung Han, “Brasil impede que Meta use pessoas para alimentar sua IA”, comentário, Human Rights Watch, 3 de julho de 2024, https://www.hrw.org/news/2024/07/03/brazil-prevents-meta-using-people-power-its-ai.
[8] Guilherme Seto e outros., “Silvio Almeida and Moraes discuss child protection on the internet” (“Silvio Almeida e Moraes discutem proteção de crianças na internet”), Folha de São Paulo, 20 de junho de 2024, https://www1.folha.uol.com.br/colunas/painel/2024/06/silvio-almeida-e-moraes-discutem-protecao-de-criancas-na-internet.shtml (acessado em 26 de julho de 2024); Conselho Nacional dos Direitos da Criança e do Adolescente, “Resolution No. 245, of April 5, 2024, Provides for the rights of children and adolescentes in the digital environment” (“Resolução nº 245, de 5 de abril de 2024, Dispõe sobre os direitos das crianças e adolescentes em ambiente digital”), 16 de abril de 2024, https://www.gov.br/participamaisbrasil/blob/baixar/48630 (acessado em 7 de agosto de 2024).
[9] Veja Ministério da Ciência, Tecnologia e Inovação, “Plano brasileiro de IA terá supercomputador e investimento de R$ 23 bilhões em quatro anos,” 30 de julho de 2024, atualizado em 12 de agosto de 2024, https://www.gov.br/mcti/pt-br/acompanhe-o-mcti/noticias/2024/07/plano-brasileiro-de-ia-tera-supercomputador-e-investimento-de-r-23-bilhoes-em-quatro-anos (acessado em 19 de agosto de 2024). O plano proposto não menciona a proteção dos direitos humanos e dos direitos de crianças e adolescentes no desenvolvimento e uso planejados de IA pelo governo. A Human Rights Watch observa que o Brasil atuou como um patrocinador-chave para a Resolução A/78/L.49 da Assembleia Geral das Nações Unidas, que “enfatiza que os direitos humanos e as liberdades fundamentais devem ser respeitados, protegidos e promovidos durante todo o ciclo de vida dos sistemas de inteligência artificial….”. Veja Assembleia Geral da ONU, Resolução A/78/L.49 (2024), disponível em https://www.undocs.org/Home/Mobile?FinalSymbol=A%2F78%2FL.49&Language=E&DeviceType=Desktop&LangRequested=False (acessado em 9 de julho de 2024), parágrafo 5.