A raspagem na Web é uma maneira de extrair informações apresentadas em sites. Como expliquei na primeira parte deste artigo , a raspagem da Web é usada por muitas empresas.
Também é uma ótima ferramenta para repórteres que sabem codificar, já que mais e mais instituições públicas publicam seus dados em seus sites.
Com os raspadores da web, também chamados de “bots”, é possível coletar grandes quantidades de dados para histórias. Por exemplo, criei um para comparar os preços do álcool entre Quebec e Ontário .
Meu colega, Florent Daudens, que trabalha para a Radio-Canada, também usou um raspador da Web para comparar os preços de aluguel em vários bairros de Montreal com anúncios de Kijiji .
Mas quais são as regras éticas que os repórteres devem seguir durante a raspagem na web?
Essas regras são particularmente importantes, pois, para pessoas que não são nerds, a raspagem na Web parece uma invasão.
Infelizmente, o Código de Ética da Fédération professionnelle des journalistes , nem as diretrizes éticas da Associação Canadense de Jornalistas , dão uma resposta clara a essa pergunta.
Perguntei a alguns colegas repórteres de dados e procurei algumas respostas.
Dados públicos ou não?
Este é o primeiro consenso dos repórteres de dados: se uma instituição publicar dados em seu site, esses dados deverão ser automaticamente públicos.
Cédric Sam trabalha para o South China Morning Post , em Hong Kong. Ele também trabalhou para La Presse e Radio-Canada. “Faço raspagem na web quase todos os dias”, diz ele.
Para ele, os robôs têm tanta responsabilidade quanto seus criadores humanos. “Seja um humano que copia e cola os dados, ou um humano que codifica um programa de computador para fazer isso, é o mesmo. É como contratar 1000 pessoas que trabalhariam para você. É o mesmo resultado. ”
No entanto, os servidores do governo também hospedam informações pessoais sobre os cidadãos. “A maioria desses dados está oculta porque, de outra forma, violaria as leis de privacidade”, diz William Wolfe-Wylie , desenvolvedor da CBC e professor de jornalismo no Centennial College e na Munk School da Universidade de Toronto.
Aqui está o limite muito importante entre raspagem na web e hackers: o respeito à lei.
Os repórteres não devem investigar dados protegidos. Se um usuário comum não puder acessá-lo, os jornalistas não devem tentar obtê-lo. “É muito importante que os repórteres reconheçam essas barreiras legais, que são legítimas, e as respeitem”, diz William Wolfe-Wylie.
Roberto Rocha , que até recentemente era repórter de dados do Montreal Gazette, acrescenta que os jornalistas devem sempre ler os termos e condições de uso do usuário para evitar problemas.
Outro detalhe importante a ser verificado: o arquivo robots.txt, que pode ser encontrado na raiz do site e que indica o que pode ser raspado ou não. Por exemplo, aqui está o arquivo do Royal Bank of Canada: http://www.rbcbanqueroyale.com/robots.txt
Identifique-se ou não?
Quando você é repórter e deseja fazer perguntas a alguém, a primeira coisa a fazer é se apresentar e a história em que está trabalhando.
Mas o que você deve fazer quando um bot está enviando consultas para um servidor ou banco de dados? A mesma regra deve ser aplicada?
Para Glen McGregor , repórter de assuntos nacionais do Ottawa Citizen, a resposta é sim. “Nos cabeçalhos http, coloco meu nome, meu número de telefone e uma nota dizendo: ‘Sou um repórter que extrai dados desta página da web. Se você tiver algum problema ou preocupação, ligue para mim.
“Então, se o administrador da Web de repente vê uma enorme quantidade de acessos em seu site, enlouquece e pensa que está sendo atacado, ele pode verificar quem está fazendo isso. Ele verá minha nota e meu número de telefone. Eu acho que é uma coisa ética importante a se fazer. ”
Jean-Hugues Roy , professor de jornalismo da Université du Québec à Montréal e ele mesmo um codificador de raspadores de páginas da web, concorda.
Mas todo mundo não está na mesma página. Philippe Gohier , editor-chefe da L’Actualité, faz de tudo para não ser identificado.
“Às vezes eu uso proxys”, diz ele. “Eu mudo meu endereço IP e mudo meus cabeçalhos também, para fazer com que pareça um humano real em vez de um bot. Tento respeitar as regras, mas também tento ser indetectável. ”
Não se identificar ao extrair dados de um site pode ser comparado, de certa forma, a entrevistas com um microfone ou câmera oculta. O Código de Ética do FPJQ estabelece algumas regras a esse respeito.
4 a) Procedimentos secretos
Em certos casos, os jornalistas são justificados em obter as informações que procuram por meios secretos: identidades falsas, microfones e câmeras ocultos, informações imprecisas sobre os objetivos de suas reportagens, espionagem, infiltração …
Esses métodos sempre devem ser a exceção à regra. Os jornalistas os usam quando:
* as informações solicitadas são de interesse público definido; por exemplo, nos casos em que ações socialmente repreensíveis devem ser expostas;
* a informação não pode ser obtida ou verificada por outros meios, ou outros meios já foram utilizados sem sucesso;
* o ganho público é maior do que qualquer inconveniente para os indivíduos.
O público deve ser informado dos métodos utilizados .
A melhor prática geralmente seria se identificar em seu código, mesmo que seja um bot que faça todo o trabalho. No entanto, se houver a possibilidade de a instituição visada alterar a disponibilidade dos dados porque um repórter tenta coletá-los, você deve ficar mais discreto.
E para aqueles que têm medo de serem bloqueados se você se identificar como repórter, não se preocupe; é muito fácil alterar seu endereço IP .
Para alguns repórteres, a melhor prática também é solicitar os dados antes de raspá-los. Para eles, é somente após uma recusa que a raspagem na web deve ser uma opção.
Esse ponto interessante tem uma vantagem: se a instituição responder rapidamente e fornecer os dados brutos, você economizará tempo.
Publique seu código ou não?
A transparência é outro aspecto muito importante do jornalismo. Sem ele, o público não confiaria no trabalho dos repórteres. Do código de ética da FPJQ:
A grande maioria dos repórteres de dados publica os dados que eles usaram para suas histórias. Esse ato de transparência mostra que seus relatórios são baseados em fatos reais que o público pode verificar se quiser. Mas e o código deles?
Um erro em um script de raspador da Web pode distorcer completamente a análise dos dados obtidos. Então, o código também deve ser público?
Para software de código aberto, revelar o código é uma obrigação . O principal motivo é permitir que outras pessoas melhorem o software, mas também dar confiança aos usuários que podem verificar o que o software está fazendo em detalhes.
No entanto, para programadores-repórteres, revelar ou não revelar é uma escolha difícil.
“De certa forma, somos negócios”, disse Sam. Penso que, se você tem uma vantagem competitiva e pode continuar a encontrar histórias com ela, deve guardar isso para si. Você não pode revelar tudo o tempo todo.
Para Roberto Rocha, o código não deve ser publicado.
No entanto, Rocha tem uma conta no GitHub, onde publica alguns de seus scripts, como Chad Skelton, Jean-Hugues Roy e Philippe Gohier.
“Eu realmente acho que a maré levanta todos os barcos”, disse Gohier. “Quanto mais compartilhamos scripts e tecnologia, mais ajuda a todos. Não estou fazendo nada que alguém não possa fazer com algum esforço. Não estou remodelando o mundo.
Jean-Hugues Roy concordou e acrescentou que os jornalistas deveriam permitir que outros replicassem seu trabalho, como fazem os cientistas ao publicar sua metodologia.
No entanto, o professor especifica que há exceções. Roy está atualmente trabalhando em um bot que extrai dados do SEDAR , onde são publicados documentos das empresas de capital aberto do Canadá.
“Normalmente publico meu código, mas este não sei. É complicado e dedico muito tempo a isso. ”
Por outro lado, Glen McGregor não publica seus scripts, mas os envia se alguém os pedir.
Quando um repórter tem uma fonte, ele fará todo o possível para protegê-la. O repórter fará isso para ganhar a confiança de sua fonte, que esperançosamente lhe dará informações mais sensíveis. Mas o repórter também faz isso para manter sua fonte para si mesmo.
Portanto, no final, um raspador da Web pode ser visto como a versão bot de uma fonte. Outra questão a considerar é se os bots dos repórteres serão patenteados no futuro.
Quem sabe? Talvez um dia um repórter se recuse a revelar seu código da mesma forma que Daniel Leblanc se recusou a revelar a identidade de sua fonte chamada “Ma Chouette”.
Afinal, hoje em dia, os robôs estão começando a se parecer cada vez mais com humanos .
Nota: Esse é mais um detalhe técnico do que um dilema ético, mas respeitar a infraestrutura da Web é, é claro, outra regra de ouro da raspagem da Web. Sempre deixe alguns segundos entre suas solicitações e não sobrecarregue os servidores.
OBS.: Esta postagem apareceu originalmente no J-Source.CA e é reimpresso com permissão.
Discussão sobre este post