Raspagem na Web: Um Guia para Jornalistas

Você se lembra quando o Twitter perdeu US $ 8 bilhões em apenas algumas horas no início deste ano? Foi por causa de um raspador da Web, uma ferramenta usada pelas empresas – assim como muitos repórteres de dados.

Um raspador de Web é simplesmente um programa de computador que lê o código HTML de páginas da Web e o analisa. Com esse programa, ou “bot”, é possível extrair dados e informações de sites.

Vamos voltar no tempo. Em abril passado, o Twitter deveria anunciar seus resultados financeiros trimestrais assim que as bolsas de valores fecharem. Como os resultados foram um pouco decepcionantes, o Twitter queria evitar uma perda brutal de confiança dos traders. Infelizmente, por um erro, os resultados foram publicados on-line por 45 segundos, quando as bolsas de valores ainda estavam abertas.

Esses 45 segundos permitiram que um bot programado para raspar na web encontrasse os resultados, formate-os e os publique automaticamente no próprio Twitter. (Hoje em dia, até os robôs têm conchas de vez em quando!)

#BREAKING : a receita do US $ TWTR no primeiro trimestre perde estimativas, US $ 436 milhões vs. US $ 456,52 milhões esperados

– Selerity (@Selerity) 28 de abril de 2015

Depois que o tweet foi publicado, os comerciantes enlouqueceram. Foi um desastre para o Twitter. A empresa do bot, Selerity , é especializada em análise em tempo real e tornou-se alvo de muitos críticos. A empresa explicou a situação alguns minutos depois.

A liberação de ganhos de $ TWTR de hoje foi obtida no site de Relações com investidores do Twitter https://t.co/QD6138euja . Sem vazamento. Sem hack.

– Selerity (@Selerity) 28 de abril de 2015

Para um bot, 45 segundos é uma eternidade. Segundo a empresa, levou apenas três segundos para seu bot publicar os resultados financeiros .

Raspagem na Web e Jornalismo

À medida que mais e mais instituições públicas publicam dados em sites, a raspagem da Web se tornou uma ferramenta cada vez mais útil para repórteres que sabem codificar.

Por exemplo: para uma matéria do Journal Métro , usei um raspador da Web para comparar o preço de 12.000 produtos da Société des álcoois du Québec com o preço de 10.000 produtos da LCBO em Ontário.

Outra vez, quando estava em Sudbury, decidi investigar inspeções de alimentos em restaurantes. Todos os resultados dessas investigações são publicados no site da unidade de saúde de Sudbury . No entanto, é impossível baixar todos os resultados; você só pode verificar os restaurantes um por um.

Eu pedi o banco de dados inteiro onde os resultados estão armazenados. Após uma primeira recusa, apresentei uma solicitação de liberdade de informação – após a qual a Unidade de Saúde solicitou uma taxa de US $ 2.000 para processar minha solicitação.

Em vez de pagar, decidi codificar meu próprio bot, que extrairia todos os resultados diretamente do site. Aqui está o resultado:

https://youtu.be/stxLKV_1LEg

Codificado em Python, meu bot assume o controle do Google Chrome com a biblioteca Selenium . Ele clica em cada resultado das 1600 instalações inspecionadas pela Unidade de Saúde, extrai os dados e envia as informações para um arquivo do Excel.

Fazer tudo isso sozinho levaria semanas. Para o meu bot, foi uma noite de trabalho.

Mas enquanto meu bot extraia incansavelmente milhares de linhas de código, um pensamento continuava me incomodando: quais são as regras éticas da criação de sites?

Temos o direito de extrair qualquer informação encontrada na web? Onde está a linha entre raspagem e hackers? E como você pode garantir que o processo seja transparente para as instituições visadas e para o público que está lendo a história?

Como repórteres, temos que respeitar os mais altos padrões éticos. Caso contrário, como os leitores podem confiar nos fatos que relatamos a eles?

Infelizmente, o código de conduta da Fédération professionnelle des journalistes du Québec , adotado em 1996 e alterado em 2010, está envelhecendo e não traz respostas claras para todas as minhas perguntas.

As diretrizes de ética da Associação Canadense de Jornalistas, embora mais recentes, também não esclarecem muita coisa.

Como Jean-Hugues Roy, professor de jornalismo da Universidade de Quebec em Montreal, diz: “Estes são novos territórios. Existem novas ferramentas que nos levam a repensar o que é ética, e a ética precisa evoluir com eles. ”

Então, decidi encontrar as respostas sozinho, entrando em contato com vários repórteres de dados do país.

Esta postagem apareceu originalmente no J-Source.CA e é reimpressa com permissão.

Traduzido pelo Google
Link Original: https://gijn.org/2015/08/11/web-scraping-a-journalists-guide
Por Nael Shiab | 11 de agosto de 2015
Acessado em 19/10/2019, 22:03

Raspagem na Web: Um Guia para Jornalistas

Traduzido pelo Google
Link Original: https://gijn.org/2015/08/11/web-scraping-a-journalists-guide
Por Nael Shiab | 11 de agosto de 2015
Acessado em 19/10/2019, 22:03

Published by NeyBarbosa

Deixe um comentário

Traduzido pelo Google Link Original: https://gijn.org/2015/08/11/web-scraping-a-journalists-guide Por Nael Shiab | 11 de agosto de 2015 Acessado em 19/10/2019, 22:03

Published by NeyBarbosa

You might also like

Deixe um comentário

Traduzido pelo Google
Link Original: https://gijn.org/2015/08/11/web-scraping-a-journalists-guide
Por Nael Shiab | 11 de agosto de 2015
Acessado em 19/10/2019, 22:03