O scraping ou raspagem web é uma técnica que automatiza a coleta de dados em um site ou aplicativo web. Embora seja uma prática comum desde o surgimento da internet nos anos 90, ela ganhou repercussão recentemente após ter sido supostamente utilizada para copiar dados mais de 235 milhões de perfis do Instagram, TikTok e YouTube pela agência de marketing Deep Social.
O caso expôs como uma ferramenta muito utilizada de forma legítima por pesquisadores e jornalistas pode ser explorada para violar a privacidade dos usuários de redes sociais. Entenda, a seguir, o que é o scraping, para que serve e quais são os riscos envolvidos.
Quer comprar celular, TV e outros produtos com desconto? Conheça o Compare TechTudo
1. O que é scraping?
O scraping ou raspagem web é uma técnica de coleta de informações automatizada, em que é possível obter dados disponibilizados publicamente em determinadas bases de websites. O recurso costuma ser utilizado para agilizar a consulta e coleta em base públicas.
Embora as informações obtidas sejam abertas, recolher esses dados de forma manual não teria tanta eficiência quanto por meio de scraping. A técnica permite utilizar linguagem de programação, aplicativos e scripts para coletar dados em larga escala, simplificando o trabalho de extração e classificação destas informações.
2. Para que o scraping é o usado?
O scraping web pode ser uma importante ferramenta para pesquisadores, cientistas de dados e jornalistas, entre outros profissionais. A técnica permite automatizar, por exemplo, a coleta de dados de uma base pública do Governo Federal para utilizar em uma reportagem ou alimentar um estudo. Quem investiga nas áreas de comunicação, política, entre outras, também pode lançar mão de raspagem para obter dados abertos de personalidade em redes sociais, como o Twitter.
Profissionais e agências de marketing também podem usar a técnica. Nesses casos, os dados costumam ser utilizados para segmentar campanhas e tornar determinada propaganda mais eficiente para atingir o público-alvo.
3. Riscos do scraping
O risco do scraping envolve o destino e o propósito de uso dos dados coletados. Além de profissionais legítimos, a técnica de raspagem pode ser utilizada por agentes maliciosos para possibilitar golpes, atividades fraudulentas ou até para hipersegmentação de campanhas publicitárias e políticas para além do anuído pelo usuário.
Um dos casos célebres de hipersegmentação ocorreu com o escândalo da Cambridge Analytica, em que ex-funcionários da empresa alegam ter usado dados de perfis do Facebook para criar mapas comportamentais de eleitores americanos. Parlamentares dos EUA e até um executivo da própria rede social alegam que a ação da empresa teria influenciado o resultado das eleições presidenciais de 2016.
4. Scraping é ilegal?
A obtenção de dados por scraping não é, necessariamente, considerada ilegal. A coleta de dados costuma se dar com informações disponibilizadas abertamente nas plataformas e que, portanto, seriam acessíveis a qualquer pessoa na rede. Dessa maneira, assim como um usuário é livre para abrir um perfil de rede social e anotar os dados de uma pessoa, tampouco é crime fazer o mesmo com diversas páginas por meio de um sistema automatizado.
A prática, no entanto, constitui violação aos termos de uso da maioria das redes sociais como Facebook, Instagram, TikTok e YouTube. Todas elas proíbem a cópia de dados armazenados em suas plataformas por meio de mecanismos automatizados.
5. Quais dados pessoas desconhecidas e empresas podem ter acesso?
Com o uso do web scraping em uma rede social, é
Além disso, é possível coletar postagens, links compartilhados e qualquer outro material aberto ao público, desde que a plataforma ofereça o acesso devido. Em geral, isso se dá por meio de API, um código que faz a ponte entre o software de scraping e o site de onde os dados serão coletados. As principais redes sociais também pedem ao usuário para que decida se determinado software pode ou não ter acesso aos dados solicitados.
6. Como evitar problemas com scraping
Embora a maioria das redes sociais possam bloquear a atividade de coleta de dados de suas plataformas por robôs, é possível que alguns bots consigam driblar os filtros e tenham acesso a contas públicas de usuários.
Na investigação sobre o caso Cambridge Analytica, por exemplo, veio à tona que a empresa teria se apoderado de milhões de dados aos quais não poderia ter tido acesso. Eles incluíam, por exemplo, informações de amigos das pessoas que haviam dado anuência para a coleta. Desde então, o Facebook disse ter corrigido a falha e impedido o uso da mesma vulnerabilidade.
Sendo assim, a forma mais eficaz de defesa contra a raspagem web é manter o perfil com o máximo de informações reservadas, configurando a privacidade das publicações e dados pessoais apenas para seguidores ou amigos, dependendo da rede.
Além disso, as redes sociais precisam oferecer níveis aceitáveis de proteção de dados. Sobretudo após a entrada em vigor da Lei Geral de Proteção de Dados, que é expressa no sentido de obrigação de transparência, eliminação de dados desnecessários e da aplicação do princípio de privacy by design, que preza pela prevenção de invasão de privacidade antes que falhas aconteçam.
Via Avast, Scrapinghub e Parsehub
Como baixar os dados da minha conta no Instagram? Descubra no Fórum do TechTudo
>>> Veja o artigo completo no TechTudo
Mais Artigos...
- Além do Free Fire Battlegrounds: cinco jogos mobile grátis da Garena
- GTA 5 e Online: como resgatar itens no Amazon Prime Gaming
- Sete truques para Netflix no PC, no Mac e no PlayStation
- Oito mitos e verdades sobre o Bluetooth
- Primeiro fone in-ear sem fio é lançado pela Onkyo na IFA 2015
- Confira jogadores ‘desconhecidos’ de PES 2016 que são craques no game
- CS:GO: MIBR vence a Bad News Bear pela ESL One: Road to Rio
- Gears of War 2 e Styx: veja os jogos grátis para Xbox em fevereiro
- Mouse não funciona? Saiba como mover o cursor com o teclado no PC
- Major de CS:GO: Brasil está entre países com mais conquistas
- Surpresa de Natal: sites e aplicativos para criar montagens de fotos
- Como ativar aceleração de hardware no VLC para gastar menos bateria
- PicsArt: como aplicar efeitos e stickers em tempo real nas suas selfies
- Atualização do Xbox One traz nova dashboard, confira o que mudou
- Novo LEGO Star Wars ganha edição Deluxe com boneco do Finn e mais
- Como solicitar corrida em um Lounge do Uber
- CES 2018: saiba o que esperar dos lançamentos da LG, Sony, Samsung e mais
- Twitter ganha upload de vídeos no PC e integração com Periscope
- Como usar o IMVU? Conheça rede social de bate-papo com avatares 3D
- RX 590 vs GTX 1070: compare as placas de vídeo da AMD e Nvidia