Sobre a ética da raspagem da Web e do jornalismo de dados

A raspagem na Web é uma maneira de extrair informações apresentadas em sites. Como expliquei na primeira parte deste artigo , a raspagem da Web é usada por muitas empresas.

Também é uma ótima ferramenta para repórteres que sabem codificar, já que mais e mais instituições públicas publicam seus dados em seus sites.

Com os raspadores da web, também chamados de “bots”, é possível coletar grandes quantidades de dados para histórias. Por exemplo, criei um para comparar os preços do álcool entre Quebec e Ontário .

Meu colega, Florent Daudens, que trabalha para a Radio-Canada, também usou um raspador da Web para comparar os preços de aluguel em vários bairros de Montreal com anúncios de Kijiji .

Mas quais são as regras éticas que os repórteres devem seguir durante a raspagem na web?

Essas regras são particularmente importantes, pois, para pessoas que não são nerds, a raspagem na Web parece uma invasão.

Infelizmente, o Código de Ética da Fédération professionnelle des journalistes , nem as diretrizes éticas da Associação Canadense de Jornalistas , dão uma resposta clara a essa pergunta.

Perguntei a alguns colegas repórteres de dados e procurei algumas respostas.

Dados públicos ou não?

Este é o primeiro consenso dos repórteres de dados: se uma instituição publicar dados em seu site, esses dados deverão ser automaticamente públicos.

Cédric Sam trabalha para o South China Morning Post , em Hong Kong. Ele também trabalhou para La Presse e Radio-Canada. “Faço raspagem na web quase todos os dias”, diz ele.

Para ele, os robôs têm tanta responsabilidade quanto seus criadores humanos. “Seja um humano que copia e cola os dados, ou um humano que codifica um programa de computador para fazer isso, é o mesmo. É como contratar 1000 pessoas que trabalhariam para você. É o mesmo resultado. ”

No entanto, os servidores do governo também hospedam informações pessoais sobre os cidadãos. “A maioria desses dados está oculta porque, de outra forma, violaria as leis de privacidade”, diz William Wolfe-Wylie , desenvolvedor da CBC e professor de jornalismo no Centennial College e na Munk School da Universidade de Toronto.

Aqui está o limite muito importante entre raspagem na web e hackers: o respeito à lei.

Os repórteres não devem investigar dados protegidos. Se um usuário comum não puder acessá-lo, os jornalistas não devem tentar obtê-lo. “É muito importante que os repórteres reconheçam essas barreiras legais, que são legítimas, e as respeitem”, diz William Wolfe-Wylie.

Roberto Rocha , que até recentemente era repórter de dados do Montreal Gazette, acrescenta que os jornalistas devem sempre ler os termos e condições de uso do usuário para evitar problemas.

Outro detalhe importante a ser verificado: o arquivo robots.txt, que pode ser encontrado na raiz do site e que indica o que pode ser raspado ou não. Por exemplo, aqui está o arquivo do Royal Bank of Canada: http://www.rbcbanqueroyale.com/robots.txt

Identifique-se ou não?

Quando você é repórter e deseja fazer perguntas a alguém, a primeira coisa a fazer é se apresentar e a história em que está trabalhando.

Mas o que você deve fazer quando um bot está enviando consultas para um servidor ou banco de dados? A mesma regra deve ser aplicada?

Para Glen McGregor , repórter de assuntos nacionais do Ottawa Citizen, a resposta é sim. “Nos cabeçalhos http, coloco meu nome, meu número de telefone e uma nota dizendo: ‘Sou um repórter que extrai dados desta página da web. Se você tiver algum problema ou preocupação, ligue para mim. 

“Então, se o administrador da Web de repente vê uma enorme quantidade de acessos em seu site, enlouquece e pensa que está sendo atacado, ele pode verificar quem está fazendo isso. Ele verá minha nota e meu número de telefone. Eu acho que é uma coisa ética importante a se fazer. ”

Jean-Hugues Roy , professor de jornalismo da Université du Québec à Montréal e ele mesmo um codificador de raspadores de páginas da web, concorda.

Mas todo mundo não está na mesma página. Philippe Gohier , editor-chefe da L’Actualité, faz de tudo para não ser identificado.

“Às vezes eu uso proxys”, diz ele. “Eu mudo meu endereço IP e mudo meus cabeçalhos também, para fazer com que pareça um humano real em vez de um bot. Tento respeitar as regras, mas também tento ser indetectável. ”

Não se identificar ao extrair dados de um site pode ser comparado, de certa forma, a entrevistas com um microfone ou câmera oculta. O Código de Ética do FPJQ estabelece algumas regras a esse respeito.

4 a) Procedimentos secretos

Em certos casos, os jornalistas são justificados em obter as informações que procuram por meios secretos: identidades falsas, microfones e câmeras ocultos, informações imprecisas sobre os objetivos de suas reportagens, espionagem, infiltração …

Esses métodos sempre devem ser a exceção à regra. Os jornalistas os usam quando:

* as informações solicitadas são de interesse público definido; por exemplo, nos casos em que ações socialmente repreensíveis devem ser expostas;

* a informação não pode ser obtida ou verificada por outros meios, ou outros meios já foram utilizados sem sucesso;

* o ganho público é maior do que qualquer inconveniente para os indivíduos.

O público deve ser informado dos métodos utilizados .

A melhor prática geralmente seria se identificar em seu código, mesmo que seja um bot que faça todo o trabalho. No entanto, se houver a possibilidade de a instituição visada alterar a disponibilidade dos dados porque um repórter tenta coletá-los, você deve ficar mais discreto.

E para aqueles que têm medo de serem bloqueados se você se identificar como repórter, não se preocupe; é muito fácil alterar seu endereço IP .

Para alguns repórteres, a melhor prática também é solicitar os dados antes de raspá-los. Para eles, é somente após uma recusa que a raspagem na web deve ser uma opção.

Esse ponto interessante tem uma vantagem: se a instituição responder rapidamente e fornecer os dados brutos, você economizará tempo.

Publique seu código ou não?

A transparência é outro aspecto muito importante do jornalismo. Sem ele, o público não confiaria no trabalho dos repórteres. Do código de ética da FPJQ:

A grande maioria dos repórteres de dados publica os dados que eles usaram para suas histórias. Esse ato de transparência mostra que seus relatórios são baseados em fatos reais que o público pode verificar se quiser. Mas e o código deles?

Um erro em um script de raspador da Web pode distorcer completamente a análise dos dados obtidos. Então, o código também deve ser público?

Para software de código aberto, revelar o código é uma obrigação . O principal motivo é permitir que outras pessoas melhorem o software, mas também dar confiança aos usuários que podem verificar o que o software está fazendo em detalhes.

No entanto, para programadores-repórteres, revelar ou não revelar é uma escolha difícil.

“De certa forma, somos negócios”, disse Sam. Penso que, se você tem uma vantagem competitiva e pode continuar a encontrar histórias com ela, deve guardar isso para si. Você não pode revelar tudo o tempo todo.

Para Roberto Rocha, o código não deve ser publicado.

https://youtu.be/IPcmAA8Y8iA

No entanto, Rocha tem uma conta no GitHub, onde publica alguns de seus scripts, como Chad Skelton, Jean-Hugues Roy e Philippe Gohier.

“Eu realmente acho que a maré levanta todos os barcos”, disse Gohier. “Quanto mais compartilhamos scripts e tecnologia, mais ajuda a todos. Não estou fazendo nada que alguém não possa fazer com algum esforço. Não estou remodelando o mundo.

Jean-Hugues Roy concordou e acrescentou que os jornalistas deveriam permitir que outros replicassem seu trabalho, como fazem os cientistas ao publicar sua metodologia.

No entanto, o professor especifica que há exceções. Roy está atualmente trabalhando em um bot que extrai dados do SEDAR , onde são publicados documentos das empresas de capital aberto do Canadá.

“Normalmente publico meu código, mas este não sei. É complicado e dedico muito tempo a isso. ”

Por outro lado, Glen McGregor não publica seus scripts, mas os envia se alguém os pedir.

Quando um repórter tem uma fonte, ele fará todo o possível para protegê-la. O repórter fará isso para ganhar a confiança de sua fonte, que esperançosamente lhe dará informações mais sensíveis. Mas o repórter também faz isso para manter sua fonte para si mesmo.

Portanto, no final, um raspador da Web pode ser visto como a versão bot de uma fonte. Outra questão a considerar é se os bots dos repórteres serão patenteados no futuro.

Quem sabe? Talvez um dia um repórter se recuse a revelar seu código da mesma forma que Daniel Leblanc se recusou a revelar a identidade de sua fonte chamada “Ma Chouette”.

Afinal, hoje em dia, os robôs estão começando a se parecer cada vez mais com humanos .

Nota: Esse é mais um detalhe técnico do que um dilema ético, mas respeitar a infraestrutura da Web é, é claro, outra regra de ouro da raspagem da Web. Sempre deixe alguns segundos entre suas solicitações e não sobrecarregue os servidores. 

OBS.: Esta postagem apareceu originalmente no J-Source.CA e é reimpresso com permissão.


Published by NeyBarbosa

Jornalista RPJ/DRT n.° 0006098
(71) 98715-7264
-----------------------------
https://orcid.org/0000-0002-6389-2953
http://lattes.cnpq.br/8038182463254486
https://t.me/ppgneybarbosa
-----------------------------
"Não deixe as coisas que você não pode fazer, impedí-lo(a) de fazer as coisas que você pode!"
(John Wooden)

Deixe um comentário