Dados públicos x dados estruturados

Colegas,
queria compartilhar uma dificuldade e emendar uma pergunta. Estou trabalhando em um levantamento sobre a densidade de candidatos/vaga na UFRGS. A universidade publica todos os anos essas tabelas no hotsite https://www.ufrgs.br/vestibular/cv2020/densidade/ (muda apenas o ano na URL até 2017, antes era outro link, mas na mesma lógica). Obviamente há dados estruturados por trás dessas tabelas publicadas no site. Pedi acesso aos dados brutos para obter a série histórica, via assessoria, e me disseram que “infelizmente não seria possível enviar”. Respondi pedindo qual a justificativa, pois não seria necessário produzir a base, ela já existe. Ainda não recebi retorno. Conversei com um programador aqui no jornal e ele me disse que não tem jeito de fazer a extração dos dados desses hotsites de forma automatizada, de modo que estou fazendo, manualmente, a extração e criando minha própria planilha com a série histórica. Aí vem a pergunta: se o dado estruturado existe, pode o órgão público negar acesso? Seria uma alternativa pedir acesso aos dados estruturados via LAI?

3 Curtidas

Em termos legais eles têm sim obrigação de fornecer acesso a essa base bruta, com base no artigo 7 da LAI.
Uma boa forma de pressionar é questionar se eles descartaram os dados brutos, pois isso também, segundo a lei, precisa ficar registrado oficialmente. Vale mencionar também que a cartilha de dados abertos prevê documentos em formato aberto e que, da forma como os dados foram disponibilizados, não dá pra trabalhar. Como a ufgrs é federal, é quase certo que, caso vc nao consiga com eles o dado, a CGU, em segunda instância, vai te dar razão. Mas a ufrgs tem um prazo de resposta péssimo historicamente, oq pode te enrolar bastante.

3 Curtidas

Olá!
É basicamente o que o Luiz disse. Entre sim com um pedido via LAI (nesses casos de dados abertos, aliás, no Executivo federal sempre vá pela LAI - assessorias tendem a desconhecer o conceito e/ou a obrigatoriedade de fornecer), mencionando o Art. 7º da LAI e o Decreto 8.777/2016 como bases.

3 Curtidas

Sim, eu até já extraí manualmente alguns dados básicos, pq até responderem a pauta perde o sentido, só que o risco de erro com isso aumenta muito. De toda forma, tuas informações foram ouro para pressionar, pelo menos, os jornalistas da assessoria. Vamos ver se surte efeito. Obrigada mesmo!

1 Curtida

Olá @tseibt. Sem entrar nas questões da LAI que o pessoal já explicou brilhantemente, mas este site me pareceu bem possível de ser raspado, olhando o HTML. E como ele é formado por várias table o ImportHTML já seria suficiente, nem precisaria usar R ou Python se você não quiser. O curso recente do Knight Center falou do ImportHTML - https://journalismcourses.org

2 Curtidas

Conseguiu, Taís? Eu raspei usando o importHTML + macro (pq são muitas tabelas) direto no sheets --> https://docs.google.com/spreadsheets/d/1mqiWj5EDT4XjE5Cj8sjT3-_Dbq-lRbvHa2V1XTOQtFA/edit?usp=sharing

Precisa limpar agora, sugiro que use o Refine pra isso. bjs

4 Curtidas

oi @tseibt, conversando com a @ncortezrj sobre o seu caso e depois de testar algumas coisas, eu consegui raspar os dados dessa página usando o importXML, que é uma fórmula do Google Sheets bem poderosa e acho que serve direitinho pra esse caso.

O importXML consegue raspar qualquer elemento ou grupos de elementos nas páginas da web, desde que você saiba usar o XPath, que é um padrão para identificar elementos num arquivo do tipo XML, que inclui páginas HTML.

Resumindo a história, você pode digitar isso aqui na célula A1 de uma planilha em branco no Google Sheets:

=importXML("https://www.ufrgs.br/vestibular/cv2020/densidade/", "//tr")

O que o comando está fazendo é raspar todas as linhas (tr = table row) que aparecem nessa página. Ela gera uma tabela completa, mas que vai precisar de alguns ajustes, tipo criar uma coluna nova para cursos, aplicar um fill down, etc.

4 Curtidas

Gente, mas vocês são muito demais!
Depois da pressão com os argumentos da LAI, a UFRGS ficou de me mandar os dados abertos amanhã, mas se não rolar, vou seguir as dicas (que já valem ouro também para futuras situações similares). Obrigada pela colaboração de todos. Boa noite!

2 Curtidas