Raspagens de dados de portais de notícias

Olá, pessoal. Estou iniciando os meus estudos em análise de dados e preciso coletar notícias de jornal sobre manifestações. Gostaria de orientações de como pode fazer a raspagem desses dados em portais de notícias e jornais.

1 Curtida

Olá @GF92,

Se você está começando com a raspagem de portais de notícias, tem duas maneiras principais de obter essas informações.

A primeira é por meio de APIs liberadas pelos portais. Veja se o portal que quer tem algum tipo de API liberada para que você possa usar para construir sua base de analises.

A segunda é por meio de Crawlers. Crawlers são códigos que irão consumir os dados por meio de protocolos HTTP/HTTPS. Em resumo é como se, pelo códigol, você navegasse pela internet no seu portal de notícias e gravasse o código de todas essa páginas.
Depois você irá explorar esse dado para selecionar quais campos serão retirados e rotulados.

Segue um bom vídeo explicando o processo dos Crawlers:

Abaixo vou colocar alguns links que você pode usar para entender um pouco mais sobre como fazer isso em python:

Tutoriais:

Algumas bibliotecas de Python para criação de Crawlers:

2 Curtidas

a grande maioria dos portais de notícia oferece um arquivo RSS com links e informações de metadados (às vezes tb incluem parte ou o todo da notícia) que, dependendo do seu objetivo específico podem ser raspados com python usando o pacote BeautifulSoup e mais alguns arranjos. Um exemplo q eu encontrei mostrando bem o tutorial para isso está aqui. Note que no RSS também aparece o link da notícia. Com isso você pode facilmente selecionar - filtrando termos a partir de um dicionário, por exemplo - as notícias que realmente te interessam dentro do universo publicado em um portal para uma raspagem mais específica (de texto, imagem, vídeo, etc, de acordo com sua necessidade) usando as dicas que os colegas deram nas respostas anteriores

1 Curtida