O que é Web Scraping? É essencialmente extrair e reunir conjuntos de dados da web (o que pode ser considerado Big Data em alguns casos), dados esses que são a pedra angular do Big Data AnalyticsMachine Learning e Inteligência Artificial. Esses dados podem ser usados em projetos de Data Science para resolver problemas de negócio específicos e ajudar os tomadores de decisão, podendo trazer vantagem competitiva. Mas Web Scraping e Web Crawling são Legais ou Ilegais? É o que vamos discutir neste artigo.

O ponto complicado é que a informação é a mercadoria mais valiosa do mundo (depois do tempo, uma vez que você não pode comprar o tempo de volta), como Michael Douglas disse no famoso filme “Wall Street” muito antes da era da Internet.

Isso significa que aqueles que possuem as informações tomam todas as precauções possíveis para protegê-las contra a cópia. Nos tempos pré-Internet era fácil, pois a legislação de direitos autorais é bastante sólida nos países desenvolvidos. Mas a World Wide Web mudou tudo, pois qualquer um pode copiar o texto de uma página e colá-lo em outra página, e os web scrapers são simplesmente os algoritmos que podem fazer isso muito mais rápido que os humanos.

Curiosamente, temos visto mais e mais projetos de web scraping ultimamente. E ainda mais tutoriais que incentivam alguma forma de web scraping ou web crawling. Mas o que incomoda é a espantosa ignorância generalizada sobre o aspecto legal disso. Vamos primeiro definir esses termos para garantir que você entende sobre o que estamos falando.

Web Scraping: o ato de baixar automaticamente os dados de uma página web e extrair informações muito específicas dela. As informações extraídas podem ser armazenadas praticamente em qualquer lugar (banco de dados, arquivo, etc.). Web scraping, também conhecido como Extração de Dados da Web, é uma maneira automatizada de extrair informações/conteúdo usando bots, conhecidos como scrapers. Aqui, as informações podem ser usadas para replicar em algum outro site ou podem ser usadas para análise de dados.

Web Crawling: o ato de baixar automaticamente os dados de uma página web, extrair os hiperlinks contidos nela e segui-los. Os dados baixados são geralmente armazenados em um índice ou banco de dados para facilitar sua busca. Web crawling, também conhecido como Indexação, é usado para indexar as informações em uma página web usando bots, também chamados de crawlers. Web Crawlers são basicamente utilizados pelos principais motores de busca como o Google, Bing e Yahoo.

Com Web Crawling obtemos informações genéricas e com Web Scraping, obtemos informações específicas.

Também é importante entender a diferença entre Web Scraping e a Mineração de Dados (Data Mining). Resumindo, enquanto a mineração de dados pode acontecer em qualquer matriz de dados e pode ser feita manualmente, o Web Scraping ocorre apenas nas páginas web sendo executados por robôs especiais – scrapers/crawlers.

Por exemplo, um fabricante pode querer monitorar as tendências do mercado e descobrir as intenções reais dos clientes, sem confiar nos relatórios mensais dos varejistas. Ao usar web scraping, a empresa pode coletar um grande conjunto de dados das descrições dos produtos nos sites dos varejistas, comentários de clientes e feedback em redes sociais ou blogs. A análise desses dados pode ajudar o fabricante a fornecer aos varejistas melhores descrições de seus produtos, além de listar os problemas enfrentados pelos usuários finais com seus produtos e usar seus comentários para melhorar ainda mais os produtos e garantir sua lucratividade por meio de mais vendas.

Muitos scrapers são escritos em linguagem Python para facilitar a etapa de processamento adicional dos dados coletados. Podemos escrever scrapers usando frameworks e bibliotecas para web crawling, como Scrapy, Ghost, lxml, aiohttp ou Selenium.

No entanto, o web scraping tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos e cometer fraudes, repassando informações de produtos e serviços de uma empresa para a concorrência, o que pode causar grandes prejuízos aos negócios. Isso é ilegal, criminoso e pode levar para a cadeia.

Devido a esse problema, muitas organizações estão perdendo clientes e, consequentemente, diminuindo suas vendas, além de terem seus direitos autorais infringidos e dados sigilosos roubados. Por isso, é essencial que elas invistam em estratégias de segurança online para proteger seus dados e proporcionar um lugar seguro para seus clientes comprarem e disponibilizarem suas informações.

Por que web scraping é frequentemente visto de forma negativa?

A reputação do web scraping ficou muito pior nos últimos anos e por boas razões.

É cada vez mais usado para fins comerciais para obter uma vantagem competitiva e normalmente há um motivo financeiro por trás disso. Muitas vezes, é feito com total desconsideração das leis de direitos autorais e dos Termos de Serviço.

Outras vezes é feito de maneira abusiva. Por exemplo, os web scrapers podem enviar muito mais solicitações por segundo do que o que um ser humano faria, causando uma carga inesperada nos sites. Eles também podem optar por permanecer anônimos e não se identificarem. Finalmente, eles também podem realizar operações proibidas em sites, como contornar as medidas de segurança que são colocadas em prática para baixar automaticamente os dados, que de outra forma seriam inacessíveis.

Toneladas de indivíduos e empresas estão executando seus próprios web scrapers. Tanto que isso vem causando dores de cabeça para empresas cujos sites são “raspados”, como redes sociais (por exemplo, Facebook, LinkedIn, etc.) e lojas on-line (por exemplo, Amazon). Provavelmente, é por isso que o Facebook tem termos separados para coleta automatizada de dados.

Em contraste, o web crawling tem sido usado historicamente pelos mecanismos de pesquisa conhecidos (por exemplo, Google, Bing etc.) para fazer o download e indexar a web. Essas empresas construíram uma boa reputação ao longo dos anos, porque criaram ferramentas indispensáveis que agregam valor aos sites que rastreiam. Então, o web crawling é geralmente visto de forma mais favorável, embora às vezes possa ser usado de forma abusiva.

Mas afinal, é legal ou ilegal?

O web scraping e o web crawling não são ilegais por si mesmos. Afinal, você pode raspar ou rastrear seu próprio site, sem problemas.

O problema surge quando você raspa ou rastreia o site de outra pessoa, sem obter a permissão prévia por escrito ou em desconsideração dos Termos de Serviço ou Uso. Você está essencialmente se colocando em uma posição vulnerável.

Apenas pense nisso: você está usando a largura de banda de outra pessoa e está recuperando e usando livremente os dados. É razoável pensar que eles podem não gostar, porque o que você está fazendo pode prejudicá-los de alguma forma. Portanto, dependendo de muitos fatores, eles estão perfeitamente livres para entrar com uma ação legal contra você.

Eu sei o que você pode estar pensando. “Vamos lá! Isso é ridículo! Por que eles me processariam?” Claro, eles podem simplesmente ignorar você. Ou eles podem simplesmente usar medidas técnicas para bloquear você. Ou podem enviar uma carta solicitando que você pare com esta atividade. Mas tecnicamente, não há nada que os impeça de processá-lo. Este é o verdadeiro problema.

Precisa de provas?

O LinkedIn está processando quase 100 pessoas que anonimamente rasparam seu site (não existe anonimato na web, não se iluda). E por que razões eles estão processando essas pessoas? Vamos ver:

  • – Violação da Lei de Fraude e Abuso de Computadores
  • – Violação do Código Penal da Califórnia
  • – Violação do Digital Millennium Copyright Act (DMCA)
  • – Quebra de contrato
  • – Trespass
  • – Apropriação indevida

Esse processo é bastante preocupante, porque não está claro o que acontecerá com essas pessoas “anônimas”.

Considere que, se você for processado, não pode simplesmente desconsiderar o processo. Você precisa se defender e provar que não fez nada errado. Isso não tem nada a ver com se é justo ou não, ou se o que você fez é realmente ilegal. Uma vez processado, você terá que responder perante o juiz e comprovar sua inocência. 

Outro problema é que passar por um processo pode ser algo bem estressante e custar muito dinheiro. Onde você usa lógica, bom senso e sua perícia técnica, eles usam o jargão legal e algumas áreas cinzentas da lei para provar que você fez algo errado. Este não é um campo de jogo nivelado e certamente não é uma boa situação para se estar. E você precisa contratar um advogado, o que pode lhe custar um bom dinheiro.

Além disso, com base no processo acima do LinkedIn, você pode ver que os casos podem, sem dúvida, se tornar bastante complexos e muito amplos no escopo, mesmo que você “apenas tenha raspado um site”.

Os contra-argumentos típicos

As pessoas geralmente tentam defender suas atividades de web scraping ou web crawling minimizando sua importância. E elas o fazem tipicamente usando os mesmos argumentos repetidamente. Então, vejamos os mais comuns:

1. “Eu posso fazer o que quiser com dados publicamente acessíveis.”

Falso. O problema é que o “arranjo criativo” dos dados pode ser protegido por direitos autorais. Assim, um site – incluindo suas páginas, design, layout e banco de dados (sem falar em conteúdos pagos, que são obviamente protegidos por lei) – pode ser protegido por direitos autorais, porque é considerado como um trabalho criativo. E se você raspar esse site para extrair dados dele, o simples fato de copiar uma página web na memória com o seu web scraper pode ser considerado uma violação de direitos autorais.

 

2. “Este é o uso justo!”

Esta é uma área cinzenta:

No processo Kelly v. Arriba Soft Corp. nos EUA, a corte descobriu que o mecanismo de busca de imagens Ditto.com fez uso justo das fotos de um fotógrafo profissional exibindo miniaturas delas.

Em outro processo, Associated Press vs. Meltwater U.S. Holdings, Inc., o tribunal considerou que o serviço agregador de notícias da Meltwater não fazia uso justo dos artigos da Associated Press, embora os artigos copiados só fossem exibidos como trechos dos originais.

 

3. “É o mesmo que o meu navegador já faz! Raspagem de um site não é tecnicamente diferente de usar um navegador web. Eu poderia coletar dados manualmente, de qualquer maneira!”

Falso. Os Termos de Serviço geralmente contêm cláusulas que proíbem rastreamento/captura/extração e uso automatizado de seus serviços associados. Você está legalmente vinculado por esses termos. Não importa que você possa obter esses dados manualmente.

 

4. “O pior que pode acontecer se eu quebrar seus Termos de Serviço é que eu posso ser banido ou bloqueado.”

Esta é uma outra área cinzenta:

No processo do Facebook contra Pete Warden, o advogado do Facebook ameaçou Warden processá-lo se ele publicasse seu conjunto de dados composto de centenas de milhões de perfis do Facebook.

No processo do Linkedin Corporation v. Michael George Keating, o Linkedin impediu Keating de acessar o LinkedIn porque ele criou uma ferramenta que eles achavam que foi criada para raspar seu site. Eles estavam errados. Mas, no entanto, ele nunca conseguiu restaurar sua conta. 

No processo do LinkedIn versus Robocog Inc., a Robocog Inc. foi condenada a pagar US$ 40.000 ao LinkedIn por sua extração não autorizada do site.

 

5. “Isso é completamente injusto! O Google vem rastreando/raspando toda a web desde sempre!”

Verdade. Mas a lei aparentemente não tem nada a ver com justiça. É baseada em regras, interpretadas por pessoas.

 

6. “Se algum dia eu for processado, vou procurar um bom advogado para me defender.”

Ok. Boa sorte então!

 

7. “Mas eu usei um script automatizado, então não entrei em nenhum contrato com o site.”

Esta é uma área cinzenta:

No processo Internet Archive v. Suzanne Shell, o Internet Archive foi considerado culpado de quebra de contrato ao copiar e arquivar páginas do site da Sra. Shell usando seus web crawlings. Em seu site, a Sra. Shell exibe um aviso dizendo que, assim que você copia o conteúdo de seu site, você entra em um contrato e você deve US$ 5.000 por página copiada (!!!). As duas partes aparentemente chegaram a uma resolução amigável.

No processo Southwest Airlines Co. vs. BoardFirst, LLC, a BoardFirst foi considerada culpada de violar um contrato de busca exibido no site da Southwest Airlines. A BoardFirst criou uma ferramenta que transferia automaticamente os cartões de embarque dos clientes da Southwest para oferecer-lhes melhores assentos.

 

8. “Termos de Serviço não são aplicáveis ​​de qualquer maneira. Eles não têm valor legal.”

Falso. O escritório de advocacia Bingham McCutchen LLP publicou um artigo bastante extenso sobre esse assunto e afirma que:

Como é a regra geral com qualquer contrato, os termos de uso de um site geralmente serão considerados aplicáveis ​​se forem mutuamente acordados pelas partes. A falha do réu em ler esses termos é geralmente considerada irrelevante para a aplicabilidade de seus termos. Um tribunal desconsiderou argumentos de que a conscientização dos termos de uso de um site não poderia ser imputada a uma parte que acessou o site usando uma ferramenta de rastreamento ou raspagem da Web que não é capaz de detectar, muito menos concordar com esses termos. Da mesma forma, um tribunal imputou o conhecimento dos termos de uso de um site a um réu que acessou repetidamente esse site usando essas ferramentas. 

Em outras palavras, os Termos de Serviço serão legalmente aplicados dependendo do tribunal e se houver provas suficientes de que você estava ciente deles. Na Data Science Academy, por exemplo, os alunos só conseguem criar sua conta de acesso se aceitarem os Termos de Uso, logo, estão cientes das regras.

 

9. “Eu respeitei o robots.txt e raspei o site a uma velocidade razoável, então não posso me meter em confusão, certo?”

Esta é mais uma área cinzenta.

O robots.txt é reconhecido como uma “ferramenta tecnológica para impedir o rastreamento ou a raspagem indesejados”. Mas se você respeita ou não, você ainda está vinculado aos Termos de Serviço.

 

10. “Tudo bem, mas isso é para uso pessoal. Apenas para minha pesquisa pessoal. Não vou republicá-lo, nem publicar qualquer conjunto de dados derivado, nem mesmo vendê-lo. Então, estou pronto para ir, certo?”

Esta é uma área cinzenta. Os Termos de Serviço muitas vezes proíbem a coleta automática de dados, para qualquer finalidade.

De acordo com o escritório de advocacia Bingham McCutchen LLP:

Os termos de uso dos sites incluem cláusulas que proíbem o acesso ou uso do site por rastreadores, raspadores ou outros robôs, inclusive para fins de coleta de dados. Os tribunais reconheceram as causas de ação por violações de contrato com base no uso de ferramentas de rastreamento ou raspagem da Web, violando tais disposições.

 

11. “Mas o site não tem robots.txt. Então eu posso fazer o que eu quero, certo?”

Falso. Você ainda está vinculado aos Termos de Serviço e o conteúdo é protegido por direitos autorais.

Conselho geral para seus projetos de web scraping ou web crawling

Com base no acima exposto, você pode certamente adivinhar que deve ser extremamente cauteloso com o web scraping e web crawling. Aqui estão alguns conselhos:

  • – Use uma API, se uma for fornecida, em vez de coletar dados.
  • – Respeite os Termos de Serviço.
  • – Respeite as regras do robots.txt.
  • – Use uma taxa de rastreamento razoável, ou seja, não bombardeie o site com solicitações. Respeite a configuração de tempo de acesso de rastreamento fornecida no robots.txt; se não houver nenhum, use uma taxa de rastreamento conservadora (por exemplo, 1 solicitação por 10 a 15 segundos).
  • – Identifique seu scraper ou crawler com uma string legítima do agente do usuário. Crie uma página que explique o que você está fazendo e porquê e faça um link para a página na string do agente (por exemplo, “MY-BOT (+ https://seusite.com/mybot.html)”)
  • – Se o Termo de Serviço ou o robots.txt impedirem que você rastreie ou raspe, peça uma permissão por escrito ao proprietário do site antes de fazer qualquer outra coisa.
  • – Não publique novamente seus dados rastreados ou copiados ou qualquer conjunto de dados derivado sem verificar a licença dos dados ou sem obter uma permissão por escrito do detentor dos direitos autorais.
  • – Se você duvida da legalidade do que está fazendo, não faça. Ou procure o conselho de um advogado.
  • – Não baseie toda a sua empresa na extração de dados. O site que você raspa pode, eventualmente, bloquear você.
  • – Finalmente, você deve suspeitar de qualquer conselho que você encontrar na internet (incluindo estes), então, por favor, consulte um advogado.
  • – Lembre-se de que empresas e indivíduos estão perfeitamente livres para processá-lo, por qualquer motivo que desejarem. Mas se você raspar/rastrear o site deles sem permissão e fizer algo que eles não gostem, você definitivamente se colocará em uma posição vulnerável.

Conclusão

Como vimos neste post, o web scraping e o web crawling não são ilegais por si mesmos. Eles podem se tornar problemáticos quando você joga no território de outra pessoa, em seus próprios termos, sem obter sua permissão prévia. O mesmo é verdade na vida real também, quando você pensa sobre isso.

Há muitas áreas cinzentas na lei em torno deste tópico, então o resultado é bastante imprevisível. Antes de se meter em problemas, certifique-se de que o que você está fazendo respeita as regras.

E, finalmente, a questão relevante não é “Isso é legal?” Em vez disso, você deve se perguntar “Estou fazendo algo que possa incomodar alguém? E estou disposto a assumir o risco (financeiro) de sua resposta?”. Faça o que é certo!

Sinta-se livre para deixar seu comentário abaixo!

 

Equipe DSA

 

Referências:

Capítulo 14 – Python Fundamentos Para Análise de Dados

Is Web Scraping Legal?

Web scraping: legal, illegal, or does it depend on the circumstances?

Web Scraping and Crawling Are Perfectly Legal, Right?

LinkedIn: It’s illegal to scrape our website without permission

Beware of the Spiders: Web Crawling and Screen Scraping – the Legal Position