Raspagem de dados no site da enap

Senhores,
Preciso raspar dados utilizando o Web Scraper no site: https://suap.enap.gov.br/portaldoaluno/?areas_interesse
É uma relação de cursos oferecidos pela ENAP. Ocorre que os números das páginas não aparecem na URL.
Sou aluno do curso Dados 360 da Escola de Dados e aprendia a raspar somente utilizando número de páginas.

1 Curtida

Oi @Saulo, bem vindo ao Fórum!

Daria para usar o WebScraper, que vimos no curso, neste caso também, mas é até mais simples de resolver. Vou mandar o passo a passo de como fiz aqui.

  1. Abri o Inspetor Web > Aba Network.
  2. Pode selecionar só a opção XHR para facilitar a visualização. Alterei a paginação e observei esta aba, nenhum arquivo foi carregado.
  3. Se não foi baixado nenhum dado, nem saímos da página (a URL não mudou), então, todos os dados já estavam carregados desde o início e só o “frontend” que está limitando a visualização.
  4. Atualizei a página para recarregar tudo e descobri a requisição para este arquivo:

https://suap.enap.gov.br/portaldoaluno/get_lista_completa_cursos/

É um arquivo JSON que tem a lista completa. Você pode utilizar várias ferramentas para converter para CSV. Há inclusive como fazer direto do navegador com sites como: https://json-csv.com/

Basta colar esta URL lá e baixar a tabela.

Na aula sobre tecnologias web desta semana, tem um conteúdo relacionado a esse processo também.

3 Curtidas