Senhores,
Preciso raspar dados utilizando o Web Scraper no site: https://suap.enap.gov.br/portaldoaluno/?areas_interesse
É uma relação de cursos oferecidos pela ENAP. Ocorre que os números das páginas não aparecem na URL.
Sou aluno do curso Dados 360 da Escola de Dados e aprendia a raspar somente utilizando número de páginas.
1 Curtida
Oi @Saulo, bem vindo ao Fórum!
Daria para usar o WebScraper, que vimos no curso, neste caso também, mas é até mais simples de resolver. Vou mandar o passo a passo de como fiz aqui.
- Abri o Inspetor Web > Aba Network.
- Pode selecionar só a opção XHR para facilitar a visualização. Alterei a paginação e observei esta aba, nenhum arquivo foi carregado.
- Se não foi baixado nenhum dado, nem saímos da página (a URL não mudou), então, todos os dados já estavam carregados desde o início e só o “frontend” que está limitando a visualização.
- Atualizei a página para recarregar tudo e descobri a requisição para este arquivo:
https://suap.enap.gov.br/portaldoaluno/get_lista_completa_cursos/
É um arquivo JSON que tem a lista completa. Você pode utilizar várias ferramentas para converter para CSV. Há inclusive como fazer direto do navegador com sites como: https://json-csv.com/
Basta colar esta URL lá e baixar a tabela.
Na aula sobre tecnologias web desta semana, tem um conteúdo relacionado a esse processo também.
3 Curtidas