Olá, bom dia
Estou tentando fazer uma raspagem no site da Amazon com o Webscraper e está quase dando certo.
O problema é quando abro o arquivo .CSV, ao invés de ter 60 linhas (estou raspando uma página com 60 itens), o arquivo tem 240. Pelo que percebi, para cada item são geradas 4 linhas, uma para cada um dos 4 seletores que eu criei. Bati um printscreen da tabela pra ilustrar:
O sitemap da minha raspagem é este:
{"_id":“amazon3”,“startUrl”:[“Amazon.com.br : jornalismo .rush-component .rush-component img, .celwidget > div.s-include-content-margin img, .celwidget > div > div.s-include-content-margin img”,“multiple”:true,“delay”:0},{“id”:“titulo”,“type”:“SelectorText”,“parentSelectors”:["_root"],“selector”:".s-expand-height .rush-component span.a-size-base-plus, .celwidget > div.s-include-content-margin span.a-size-base-plus, .celwidget > div > div.s-include-content-margin span.a-size-base-plus",“multiple”:true,“regex”:"",“delay”:0},{“id”:“autor”,“type”:“SelectorText”,“parentSelectors”:["_root"],“selector”:".s-expand-height .rush-component .a-spacing-top-small div.a-color-secondary, .celwidget > div.s-include-content-margin .a-spacing-top-small div.a-color-secondary:nth-of-type(1), .celwidget > div > div.s-include-content-margin .a-spacing-top-small div.a-color-secondary",“multiple”:true,“regex”:"",“delay”:0},{“id”:“preco”,“type”:“SelectorText”,“parentSelectors”:["_root"],“selector”:".s-expand-height .rush-component div.a-color-base:nth-of-type(2), .celwidget > div.s-include-content-margin div.a-color-base:nth-of-type(2), .celwidget > div > div.s-include-content-margin div.a-color-base:nth-of-type(2)",“multiple”:true,“regex”:"",“delay”:0}]}
Agradeço pela atenção. Um abraço