Duvida Beautiful Soup

Comecei a usar o Beautiful Soup para raspar dados com python mas estou com duas duvidas que estão me tirando o sono haha

1- Tem como raspar dados de mais de uma url ao mesmo tempo? (assumindo que as páginas seguintes a primeira seguirão o mesmo código de raspagem)

2- Há como passar o nome de uma class ou id como uma espécie de coringa?
(O site que estou treinando a raspagem tem um modelo diferente dos demais de postagem. No layout é tudo padronizado, porém os atributos que quero raspar estão dentro de uma class; para cada class o site usa nomes quase iguai difere em algumas letras, mesmo que o modelo siga igual)

1 Curtida

Opa Gabriel.
1-quando vc diz ao mesmo tempo, seriam várias URLs no script, correto? Caso seja essa a sua pergunta, sim. é possível obter quantas URLs vc quiser.
2-Também é possível. Você pode trazar qualquer combinação utilizando o script no python.
Envie o código via gist ou por outro método para que a gente possa te ajudar mais concretamente.

1 Curtida

Olá

Você pode usar uma iteração para acessar um conjunto de URLs. Em muitos casos uma URL sobre um assunto/tema/conjunto de dados é formada por um conjunto de várias URLs bem semelhantes, só mudam o final do endereço com algum código, nome ou data de referência. O comando muito usado para fazer iterações, os loops, em Python é o for, que você pode usar para vários requests diferentes e depois criar a sopa para cada página. Aqui tem alguns exemplos

É possível procurar todas as id ou class de um site, com find_all. Mas o melhor muitas vezes no começo é ir raspando em partes e cada parte selecionada você busca dentro depois. Como disse o josir acima você pode criar um gist do seu problema no Github, o gist é um esboço rápido de código, mais simples do que criar um repositório. Ou pode apenas colocar o seu código aqui para algum colegas olharem. O texto de código aqui você pode selecionar e pressionar Ctrl+Shift+C para deixar formatado

Olá

Agradeço demais a ajuda de vocês!! Realmente tenho que criar um gist para meus projetos, por enquanto estou treinando com coisas básicas e a cada projeto surge uma nova dúvida. Essa semana ainda posto os códigos aqui para eu dar uma olhada. Já consegui solucionar alguns problemas e foi muito útil a ajuda e o material de apoio que enviaram. Obrigado

Chaves não estou conseguindo acessar seus códigos no github. A página do código não carrega

O Github em geral tem esse problema, em horários de pico. Às vezes demora para estabilizar. O que você pode fazer é o clone/download do repositório, mas tem que ir um nível antes para fazer isso.