Legislação sobre raspagem de dados

ClesioDaGama · Dezembro 5, 2019, 8:41pm

Sou estudante de Filosofia (UFMG), com interesse na área de inteligência artificial. Recentemente me surgiram algumas questões, para as quais peço ajuda, neste fórum. São elas:

(1) Uma empresa pode raspar dados do governo e publicá-los, como pesquisa, por exemplo, referindo evidentemente a fonte? (2) Quais são os fundamentos legais que autorizariam esse tipo de atividade, ou que a restringem? (3) Há algum caso jurídico no Brasil em que essa questão já tenha sido levantada? (4) Qual a melhor maneira de proceder uma “raspagem de dados” e sua publicação?

adriano · Dezembro 6, 2019, 4:10am

Oi Clesio, seja bem vindo ao Fórum. Não sou especialista em Direito, mas vou tentar dar uma visão sobre alguns de seus questionamentos.

1- O princípio da publicidade da informação governamental está na Constituição. No artigo 5, por exemplo, vemos que “todos têm direito a receber dos órgãos públicos informações de seu interesse particular, ou de interesse coletivo ou geral, que serão prestadas no prazo da lei, sob pena de responsabilidade, ressalvadas aquelas cujo sigilo seja imprescindível à segurança da sociedade e do Estado”.

A Lei de Acesso à Informação também diz que “é dever do Estado garantir o direito de acesso à informação, que será franqueada, mediante procedimentos objetivos e ágeis, de forma transparente, clara e em linguagem de fácil compreensão”. Esta legislação inclusive é explícita a respeito de raspagens de dados automatizadas quando afirma que a administração pública deve “possibilitar o acesso automatizado por sistemas externos em formatos abertos, estruturados e legíveis por máquina”.

E a Política de Dados Abertos do Governo Federal define “dados abertos” como “dados acessíveis ao público, representados em meio digital, estruturados em formato aberto, processáveis por máquina, referenciados na internet e disponibilizados sob licença aberta que permita sua livre utilização, consumo ou cruzamento, limitando-se a creditar a autoria ou a fonte”. Nesta wiki da Política de Dados Abertos do Poder Executivo Federal, você encontra outras referências legais sobre o tema.

Assim como também define os princípios do software livre, a definição mais comum de dados abertos e a legislação brasileira não fazem restrição para usos comerciais. Portanto, empresas podem sim fazer uso de dados governamentais, desde que citando a fonte.

2- Eu mencionei alguns acima, mas certamente há outros e mais detalhes que podem ser ressaltados nestes dispositivos legais.

3- De cabeça agora, não me ocorre nenhum, mas talvez alguma pessoa do fórum tenha conhecimento de algum caso no Brasil. Internacionalmente, houve este caso recente de grande repercussão.

4- Há um artigo interessante que aborda a questão ética da raspagem no jornalismo de dados. Fiz um resumo/tradução dele em português, mas ainda não está publicado abertamente.

ClesioDaGama · Dezembro 6, 2019, 5:08am

Olá, Adriano!

Obrigado pelas suas respostas, que me serão bastante úteis.

reichaves · Dezembro 6, 2019, 2:21pm

Vejo que outros colegas mais experientes usam essas boas práticas ou abordagem:
1 - Informações de interesse público e em sites de órgãos públicos são abertas
2 - Se está disponível na internet, sem nenhum tipo de autenticação, então é público
3 - Limitar o número de requests por segundo para não causar o erro 429 Too Many Requests - porque isso pode fazer os sites caírem
4 - Sempre ser transparente com métodos usados e fontes das informações
5 - Não infringir direitos autorais com o conteúdo raspado

O livro “Raspagem de Dados Web com Python” tem uma boa discussão sobre isso

Mas é um tema controverso:
1 - Tem gente que defende que o robots.txt é o limite. O robots.txt é um arquivo deve ser salvo na pasta raiz do seu site, e indica para os robôs de busca do Google, Bing etc., quais as páginas de seu site você não deseja que sejam acessadas por estes mecanismos de pesquisa
2 - Ou o que está escrito nos termos de uso do site é o limite

O Jota teve um bom artigo de opinião sobre isso com dois advogados, mas também apontam a falta de um consenso jurídico e que cada caso é diferente: “Independentemente do princípio jurídico subjacente que declara o scraping ilegal, a responsabilidade é imputada com base em cada caso dependendo do tipo de acesso obtido pelo scraper, da quantidade de informações acessadas e copiadas, do grau em que o acesso afeta adversamente o sistema do proprietário do website e dos tipos e forma de proibições em tal conduta.”

ClesioDaGama · Dezembro 6, 2019, 11:17am

Muito esclarecedoras as suas colocações. Obrigado.

Bruno · Dezembro 6, 2019, 12:55pm

Olá, Clesio! Tudo bem?

Vou tentar lhe auxiliar um pouco na parte jurídica:

Sobre a raspagem de dados: não há nenhuma legislação que vede expressamente que qualquer pessoa, física ou jurídica, faça raspagem de dados públicos que não estejam armazenados em sistemas de acesso restrito. Em princípio, sequer é necessário indicar a fonte (embora seja razoável). Porém, é importante que tome cuidado para não derrubar ou perturbar excessivamente o tráfego do site público com as requisições que pretendes fazer.
Sobre os fundamentos legais: não há uma legislação direta sobre “raspagem de dados” com essa denominação, mas há dispositivos legais que impõem à administração pública o dever de disponibilizar informações e dados em formato legível por máquina. Seguem elas:

2.1) Em nível nacional:

Lei Federal 12.527/11 (a LAI), art. 8, §3º, III: “Os sítios de que trata o § 2º deverão, na forma de regulamento, atender, entre outros, aos seguintes requisitos: […] III - possibilitar o acesso automatizado por sistemas externos em formatos abertos, estruturados e legíveis por máquina;”
Lei Federal 12.965/14 (o MCI), art. 24, VI: "Art. 24. Constituem diretrizes para a atuação da União, dos Estados, do Distrito Federal e dos Municípios no desenvolvimento da internet no Brasil: […] VI - publicidade e disseminação de dados e informações públicos, de forma aberta e estruturada; " e art. 25, III: "Art. 25. As aplicações de internet de entes do poder público devem buscar: […] III - compatibilidade tanto com a leitura humana quanto com o tratamento automatizado das informações; "

2.2) Em nível federal:

Decreto Federal 8.636/16, art. 4º, III e IV: “Art. 4º O planejamento e a execução de programas, projetos e processos relativos à governança digital pelos órgãos e pelas entidades da administração pública federal direta, autárquica e fundacional deverão observar as seguintes diretrizes:[…] III - os dados serão disponibilizados em formato aberto, amplamente acessível e utilizável por pessoas e máquinas, assegurados os direitos à segurança e à privacidade; IV - será promovido o reuso de dados pelos diferentes setores da sociedade, com o objetivo de estimular a transparência ativa de informações, prevista no art. 3º e no art. 8º da Lei nº 12.527, de 18 de novembro de 2011 ;”
Decreto Federal 8.777/16, art. 3º, II e IV: " Art. 3º A Política de Dados Abertos do Poder Executivo federal será regida pelos seguintes princípios e diretrizes:[…] II - garantia de acesso irrestrito às bases de dados, as quais devem ser legíveis por máquina e estar disponíveis em formato aberto; […] IV - permissão irrestrita de reuso das bases de dados publicadas em formato aberto; " e art. 4º, caput e §1º: “Art. 4º Os dados disponibilizados pelo Poder Executivo federal e as informações de transparência ativa são de livre utilização pelos Poderes Públicos e pela sociedade.§ 1º Fica autorizada a utilização gratuita das bases de dados e das informações disponibilizadas nos termos do disposto no inciso XIII do caput do art. 7º da Lei nº 9.610, de 19 de fevereiro de 1998, e cujo detentor de direitos autorais patrimoniais seja a União, nos termos do disposto no art. 29 da referida Lei.”

No caso dos estados e municípios, aplicam-se as normas nacionais (LAI e MCI) e as normas locais.

Por “caso jurídico” tu queres dizer um processo judicial? Se sim, não ouvi falar de casos judiciais sobre o assunto.

ClesioDaGama · Dezembro 6, 2019, 2:02pm

Obrigado. As informações jurídicas estão claras. Lerei todas as referências.

ClesioDaGama · Dezembro 9, 2019, 12:57pm

Sobre essa questão, soube do seguinte caso envolvendo a Serenata de amor vs. SERPRO.

O SERPRO quis cobrar por dados de forma ilegal. Dados que deveriam estar de acordo com a legislação citada acima, disponíveis publicamente. No link abaixo, um dos envolvidos no processo descreve, em primeira pessoa, essa experiência.

Segue o texto: https://medium.com/serenata/o-dia-que-a-receita-nos-mandou-pagar-r-500-mil-para-ter-dados-públicos-8e18438f3076

Bruno · Dezembro 13, 2019, 2:14pm

Sim, estive envolvido nessa questão junto com o pessoal da Operação Serenata de Amor. Se tiveres curiosidade, recomendo ler os pareceres do processo administrativo de acesso à informação onde tudo aconteceu.

http://www.consultaesic.cgu.gov.br/busca/dados/Lists/Pedido/Item/displayifs.aspx?ID=672055

rodolfoviana · Dezembro 15, 2019, 2:10pm

Para registro: no Brasil houve um caso interessante, mas não envolvendo órgãos públicos, e sim empresas privadas. Foi o caso Gelre vs. Catho.

Em 2003, Gelre Informática S/C Ltda. ajuizou ação de indenização contra Catho On Line S/C Ltda alegando que a Catho acessou de forma anormal o sítio eletrônico da Gelre com o objetivo de capturar dados que não estariam disponíveis da mesma forma se o acesso tivesse ocorrido como um cliente-usuário.

Nesse contexto, a Catho foi condenada a pagar R$ 13,6 milhões à concorrente Gelre por ter se apropriado de quase 300 mil currículos entre 2001 e 2002 com o objetivo de oferecer os seus serviços a quem procurava emprego.

De acordo com a sentença do então juiz de Direito, e atual desembargador, Luís Mario Galbetti, na época da 33ª Vara Cível de São Paulo, as principais provas contra a Catho foram encontradas em computadores da própria empresa apreendidos após determinação da Justiça. Segundo o juiz, funcionários da Catho se cadastraram no site da Gelre e passaram a usar programas para capturar currículos da concorrente.

O esquema começou a ser descoberto quando a Gelre identificou uma movimentação atípica em seus bancos de dados. Um rastreamento dos acessos aos currículos levou os peritos a computadores em escritórios da Catho, que foram apreendidos sob determinação judicial.

A perícia realizada neste processo indicou que, na comparação dos bancos de dados da Catho e da Gelre foram encontrados 272.479 currículos exatamente iguais, razão pela qual a Catho foi condenada ao pagamento de indenização no valor de R$ 13,6 milhões. Observando que no confronto dos 3,8 milhões de endereços da Catho com os 499 mil da Gelre foram encontrados 272.479 endereços eletrônicos coincidentes, o Juiz arbitrou como valor indenizatório devido á Gelre o montante de R$ 13.623.950,00. Para encontrar este valor este magistrado levou em conta o valor cobrado pela Catho de R$ 50,00 por mês por currículo inserido.

Fonte: https://www.ldsoft.com.br/blogs/riscos-envolvendo-a-pratica-de-scraping-a-luz-do-ordenamento-juridico-nacional/

Por coincidência, há duas semanas, alunos meus questionaram a legalidade de raspagem de dados – estávamos raspando lojas de e-commerce para testar o WebScraper (webscraper.io). Foi então que busquei aprender um pouco sobre o assunto, e percebi que, no Brasil ou fora, os processos são apoiados em legislações de direitos autorais. Ao que tudo indica, há duas regras para evitar processos:

Não republicar o material coletado ipsis litteris (para não cair com direitos autorais);
Não coletar dados pessoais (para não cair com a futura LGPD).

Mas creio que isso não se aplica a sites de órgãos públicos, considerando que todo o conteúdo ali é público, como mencionaram @adriano e @reichaves.