Como usar o Web Scraper para raspagem de dados do Glassdoor?

avaliações glassdoor

A partir do curso Dados 360, aprendi a usar a ótima ferramenta Web Scraper. Iniciei um trabalho de verificação das avaliações de empresas no Glassdoor. Entretanto tive dificuldades em extrair as avaliações por item, conforme o site apresenta (imagem em anexo). Quando seleciono o elemento e extraio, ele raspa todas as avaliações com 5 “estrelas”, apresentando todos os itens, independente de não estarem preenchidos. Alguma dica do que fazer? Grande abraço!

1 Curtida

Oi Armando, eu não sei qual link vocẽ está vendo, nem tenho conta nesta plataforma, então, fica difícil entender o que está acontecendo. Mas de modo geral dá para dizer que você tem que olhar o código HTML da página por meio do Inspetor Web para entender qual padrão permitirá você identificar o preenchimento das estrelas e então utilizar o seletor adequado.

2 Curtidas

Oi Adriano, muito obrigado pela resposta.

O site é https://www.glassdoor.com.br/Visão-geral/Trabalhar-na-IBM-EI_IE354.13,16.htm

Conforme a imagem que coloquei agora, a minha intenção é raspar as avaliações das diferentes categorias de algumas empresas. Eu no código identifico que a nota do item “Qualidade de Vida” da avaliação selecionada é 3.0. Eu consigo extrair o nome do item, mas não a pontuação “3,0” que está no código em spangdBars gdRatings med " title=“3.0”

1 Curtida

Olá Armando,

Podes conseguir com um seletor do tipo Element attribute. Primeiro identificas um elemento pai (ul com a classe undecorated), depois uma característica em comum entre os filhos (span com o atributo title).

Em Attribute name informa title e marca a caixa multiple.

Segue o sitemap: {"_id":"glassdor","startUrl":["https://www.glassdoor.com.br/Vis%C3%A3o-geral/Trabalhar-na-IBM-EI_IE354.13,16.htm"],"selectors":[{"id":"nota","type":"SelectorElementAttribute","parentSelectors":["_root"],"selector":".undecorated span[title]","multiple":true,"extractAttribute":"title","delay":0}]}

3 Curtidas

Muito obrigado, @vinicius_ferreira!