Top
Raspagem de dados para histórias – ..::| NEY BARBOSA – PUBLICITÁRIO EM FORMAÇÃO |::..
fade
1851
post-template-default,single,single-post,postid-1851,single-format-standard,wp-custom-logo,eltd-core-1.2.1,flow-ver-1.6.1,,eltd-smooth-page-transitions,ajax,eltd-blog-installed,page-template-blog-standard,eltd-header-standard,eltd-sticky-header-on-scroll-down-up,eltd-default-mobile-header,eltd-sticky-up-mobile-header,eltd-dropdown-default,e-lazyload,wpb-js-composer js-comp-ver-7.3,vc_responsive,elementor-default,elementor-kit-4

Raspagem de dados para histórias

Raspagem de dados para histórias

Todos nós já estivemos lá. Pesquisando, pesquisando e pesquisando sem proveito para esse conjunto de dados que você deseja investigar. Nessas situações, o jornalista de dados perspicaz pode ter que resolver o assunto com suas próprias mãos e ser raspado.

Para aqueles que são novos na área, a raspagem de dados é um processo que permite extrair conteúdo de uma página da Web usando uma ferramenta especializada ou escrevendo um pedaço de código. Embora possa ser ótimo se você encontrou os dados que deseja online, a raspagem não é isenta de desafios. Sites HTML mal formatados, com pouca ou nenhuma informação estrutural, sistemas de autenticação que impedem o acesso automatizado e alterações na marcação de um site, apresentam apenas algumas limitações ao que pode ser raspado.

Mas isso não significa que não vale a pena tentar! Esta edição do Conversations with Data reúne dicas dos veteranos Paul Bradshaw, Peter Aldhous, Mikołaj Mierzejewski, Maggie Lee, Gianna-Carina Grün e Erika Panuccio, para mostrar como é feito.

Verifique seu código para não perder nenhum dado

Peter Aldhous – repórter de ciência, BuzzFeed News

“Raspei regularmente os dados necessários, usando scripts bastante simples para percorrer as páginas de um site e pegar os elementos necessários.

Alguns anos atrás, usei Python Requests e Beautiful Soup , por exemplo, para estas histórias:

Atualmente, de acordo com o restante do meu fluxo de trabalho de análise de dados, que faz uso extensivo do R tidyverse , eu uso o pacote rvest R, por exemplo, para estas histórias:

Acho rvest mais direto e intuitivo do que as alternativas Python. Existem vários tutoriais, por exemplo aqui , aqui e aqui .

Conselho: Você precisa prestar muita atenção para verificar se está obtendo todos os dados. Variações sutis ou falhas na maneira como os sites são codificados podem causar problemas e podem significar que algumas lacunas precisam ser preenchidas manualmente. Use o inspetor da web do navegador e estude cuidadosamente o código fonte das páginas para descobrir como o raspador precisa ser escrito. O Selectagadget é uma extensão útil do navegador Chrome que pode destacar os seletores de CSS necessários para obter certos elementos de uma página “.

A raspagem de boa qualidade leva tempo, então comunique-se com eficiência e procure APIs existentes

Mikołaj Mierzejewski – jornalista de dados no Gazeta Wyborcza , o maior jornal da Polônia

“Eu acho que há três situações diferentes que todos encontram na coleta de dados de sites:

  1. O primeiro é o mais fácil – os dados estão em HTML simples e você pode usar ferramentas do navegador como o Portia para raspá-lo.
  2. Segundo – os dados são mais difíceis de obter porque precisam de cookies / sessão de preservação ou dados são carregados, mas exigem ajustes nas ferramentas do desenvolvedor no navegador para serem baixadas.
  3. O terceiro é onde você basicamente precisa de um programador a bordo – é quando os dados são carregados dinamicamente à medida que você interage com o site. Ele desenvolverá um pequeno aplicativo que atuará como um navegador para baixar os dados. A maioria dos sites permitirá o download de dados a 0,75 segundos por velocidade de solicitação, mas se você deseja baixar muitos dados, precisará novamente de um programador que desenvolva um raspador mais eficaz.

Uma das partes mais difíceis da raspagem é a comunicação do seu trabalho com colegas não técnicos , especialmente com gerentes não técnicos. Eles precisam saber que os dados raspados de boa qualidade precisam de tempo porque, ao desenvolver raspadores, você aprende o funcionamento interno do serviço da web de alguém e acredita em mim que pode ser uma bagunça por dentro.

Se você está curioso sobre como usamos recentemente a raspagem de dados, há links para artigos mostrando dados raspados do Instagram – pegamos postagens com a hashtag ‘#wakacje’ (‘#vacation’ em polonês) e colocamos suas geolocalizações em um mapa para ver onde os poloneses passam suas férias. Os artigos são em polonês, mas as imagens são fascinantes:

  • Férias em diferentes continentes aqui .
  • Férias domésticas na Polônia aqui .

Eu também acrescentaria mais uma coisa sobre a raspagem de dados – sempre procure APIs primeiro, antes de sujar as mãos com a raspagem . As APIs podem ter limites de solicitação, mas usá-los economizará muito tempo, especialmente se você estiver em uma fase de prototipagem. Postman e Insomnia são boas ferramentas para brincar com APIs “.

9 coisas para lembrar sobre raspagem

Paul Bradshaw – Diretor do Curso de Mestrado em Jornalismo de Dados da Birmingham City University e autor de Scraping for Journalists

“Algumas reflexões sobre as histórias em que trabalhei envolviam raspagem …

  1. Não precisa envolver codificação: meu colega da BBC Dan Wainwright fez um raspador usando as planilhas do Google para esta história sobre reclamações de ruído. Ele escreveu um tutorial aqui .
  2. Pense nos T&Cs: queríamos dados de um site de propriedades, mas os T&Cs proibiam a raspagem – nós os abordamos para os mesmos dados e, no final, eles concordaram em permitir que nós próprios os raspássemos . Desnecessário dizer que haverá momentos em que um argumento de interesse público também supera os T&Cs; portanto, consulte o lado jurídico da sua organização se você se deparar com ele.
  3. Use o scraping como uma segunda fonte: para esta investigação sobre a escala de cortes de bibliotecas, usamos solicitações FOI para obter informações – mas também usamos o scraping para passar por mais de 150 relatórios em PDF para coletar dados complementares. Isso significava que poderíamos comparar as solicitações de FOI com dados semelhantes fornecidos a um auditor.
  4. Se ele tem um padrão ou estrutura, é provavelmente desprezível: como parte de uma série de histórias de estupro do Bureau of Investigative Journalism, elaboramos relatórios para todas as forças policiais. Cada relatório usava o mesmo formato e, portanto, era possível usar um raspador para extrair números-chave de cada um.
  5. Verifique se os dados não estão disponíveis sem ter que raspar: o site de petições usado para esta história , por exemplo, fornece dados como um download JSON e, em outros casos, você pode identificar os dados que estão sendo carregados de outro lugar usando Inspetor do Chrome ( como explicado aqui , por exemplo).
  6. Faça uma verificação aleatória da qualidade: escolha uma amostra aleatória dos dados coletados pelo raspador e verifique-os com as fontes para garantir que estejam funcionando corretamente.
  7. Use as tabelas de classificação e dinâmica para exibir resultados incomuns: quando os raspadores cometem erros, eles o fazem sistematicamente, para que você possa encontrar os erros classificando cada coluna dos dados resultantes para encontrar discrepâncias. Uma tabela dinâmica também mostrará um resumo que pode ajudá-lo a fazer o mesmo.
  8. Raspe o máximo possível primeiro, depois filtre e limpe mais tarde: a raspagem e a limpeza são dois processos separados e geralmente é mais fácil ter acesso aos dados completos e “sujos” do seu raspador e depois limpá-los em um segundo estágio, em vez de limpar ‘na fonte’ enquanto você raspa e potencialmente limpa as informações que podem ter sido úteis. O que outras pessoas estão dizendo
  9. Raspe mais de uma vez – e identifique as informações que estão sendo removidas ou adicionadas: esta investigação sobre portadores de tochas olímpicas começou com um rascunho de mais de 5.000 histórias – mas, assim que as primeiras histórias foram publicadas, notamos nomes sendo removidos do site, o que levou a mais histórias sobre tentativas de encobrir detalhes que relatamos. Mais interessante, notei detalhes que foram adicionados por um dia e depois removidos. Procurar mais detalhes sobre os nomes envolvidos gerou pistas que eu não teria descoberto de outra maneira. “

Use raspadores como uma ferramenta de monitoramento

Maggie Lee – repórter freelancer do estado e do governo local em Atlanta

“Eu não tenho uma história ‘grande’, mas eu endossaria os raspadores como monitores, como uma coisa para economizar o tempo dos repórteres.

Por exemplo, escrevi um raspador para um jornal que verifica sua página de reserva de prisão a cada meia hora. Esse raspador envia um e-mail para a redação quando há uma nova reserva para um grande crime como assassinato. Ou os repórteres podem configurá-lo para procurar nomes específicos. Se “Maggie Lee” é um suspeito em fuga, eles podem dizer ao monitor para enviar um email se “Maggie Lee” estiver reservado. Isso economiza o tempo de verificar o local da prisão dia e noite. A redação o utiliza todos os dias nos relatórios de batidas.

Por outro exemplo, tenho um raspador que verifica as auditorias da cidade de Atlanta publicadas online. Ele me envia um e-mail quando há uma nova auditoria. Nem toda auditoria vale uma história, mas como repórter da prefeitura, preciso ler todas as auditorias de qualquer maneira. Portanto, com este raspador, não preciso me lembrar de verificar o site do auditor da cidade toda semana “.

Verifique se o seu raspador é resiliente e sempre tem um plano de backup

Gianna-Carina Grün – chefe de jornalismo de dados da DW

“Essas duas histórias nossas dependiam da raspagem:

Siga o dinheiro: Quais são as prioridades da política de migração da UE?

Aqui, raspamos as páginas dos países do Fundo Fiduciário da UE para a África para obter informações sobre projetos nesses países.

Se você tem um raspador em execução regularmente, é necessário projetá-lo de uma maneira que pequenas alterações feitas pelos provedores de dados no texto da página ou nos próprios dados não quebrem seu código. Ao escrever seu raspador, tente torná-lo o mais resiliente possível.

O código do raspador pode ser encontrado aqui .

Copa do Mundo de 2018: a França venceu, mas como foi a Ligue 1?

Aqui criamos várias fontes:

  1. obter nomes de jogadores e associações de clubes dos PDFs fornecidos pela FIFA
  2. para obter informações sobre em que liga um clube jogou
  3. para obter informações sobre qual jogador jogou durante a Copa do Mundo
  4. para obter informações sobre como cada time marcou durante a Copa do Mundo

Quando fizemos o teste com os dados do WorldCup 2014, a FIFA forneceu informações sobre 1, 3 e 4 – e esperávamos obter os dados nos mesmos formatos. Outras equipes de dados tentaram descobrir com a FIFA como seria o formato dos dados de 2018 (o que é uma coisa útil para tentar). Planejamos para o pior caso – que a FIFA não fornecesse os dados no formato necessário e confiasse em nosso ‘plano de backup’ de outras fontes de dados das quais poderíamos obter as mesmas informações.

O código para todos os raspadores pode ser encontrado aqui “.

Não se esqueça de salvar dados raspados

Erika Panuccio – assistente de comunicação na ALTIS

“Enfrentei questões relacionadas à coleta de dados quando estava trabalhando na minha tese de mestrado. Tive que coletar dados sobre usuários pró-ISIS no Twitter e acabei com um banco de dados de cerca de 30.000 tweets de cerca de 100 usuários. Escolhi as contas Queria analisar e, em seguida, usei uma plataforma automatizada de IFTTT para salvar os tweets sempre que eles foram publicados, armazenando-os em formato de planilha. Dessa maneira, eu poderia manter os dados mesmo se a conta fosse suspensa (o que acontecia com muita frequência devido à política do Twitter propaganda terrorista) ou se o proprietário excluiu os tweets “.