A expressão “Big Data” tem sido repetida à exaustão nos últimos anos, e tem chegado aos ouvidos não só de profissionais de informática, mas já invade as páginas do noticiário e o dia-a-dia de todos nós. O que suscita uma questão logo de cara: “que raios é esse negócio de big data?”
Em uma definição mais tradicional do termo, “Big Data” é todo um conjunto de novos mecanismos (software, hardware e processos) para lidar com grandes quantidades de dados, permitindo que se extraiam relações, indicações de comportamento e valores desses dados que de outra forma (e em outras épocas) não seria possível. Atingimos um ponto na tecnologia digital que nos é possível e — principalmente — economicamente viável armazenar grandes quantidades de dados. Já temos tecnologia suficiente para processar esses dados, com um poder analítico que não seria possível nem na virada do século 21, que em termos históricos acabou de ocorrer.
Para entender Big Data é preciso entender em que escala é possível armazenarmos dados, e como essa capacidade cresceu ao longo do tempo. Observe na lista a seguir a evolução dos custos de armazenamento de 1GB, para armazenamento em disco rígido (1 gigabyte, algo na ordem de grandeza de um bilhão, ou 109 bytes):
Ano | Preço do GB em US$ |
1980 | US$300.000,00 |
1987 | US$50.000,00 |
1990 | US$10.000,00 |
1994 | US$1.000,00 |
1997 | US$100,00 |
2000 | US$10,00 |
2004 | US$1,00 |
2010 | US$0,10 |
2014 | US$0,03 |
Os valores não refletem exatamente o que pagamos pelos nossos HDs e pendrives (são custos de business to business, não de varejo), mas é bem perceptível que os percentuais de queda ao longo do tempo é o que temos experimentado nos preços que nós, consumidores finais, pagamos para armazenar dados. Em 2009, por exemplo, paguei R$200,00 por um pendrive de 8GB que hoje custa menos de R$20,00.
“Mas o que o preço do armazenamento tem a ver com Big Data?”, perguntará um leitor mais curioso.
Resposta curta: “Tudo.”
Resposta longa: “Tuuuuuuuuuuuuuuuuuuuudo!”
No passado, era caro armazenar dados digitalmente, e esses só permaneciam nos discos e fitas magnéticas durante o tempo estritamente necessário, isto é, durante o tempo em que fossem úteis para algum tipo de processamento. Para que guardar dados de compra e venda de três ou quatro anos atrás em uma loja? O espaço necessário para tanto custa caro, e é necessário para armazenar os dados das vendas do ano corrente. Em linhas gerais esse é o raciocínio que prevaleceu durante décadas, desde a invenção do computador digital. Pois é, mas a partir da década de 1990 essa lógica começou a deixar de fazer sentido, à medida que os custos de armazenamento foram baixando. E melhor ainda: com a redução dos custos, dados armazenados em papel, em microfilme, e em outras mídias analógicas (fotos, filmes, gravações, etc.) puderam ser transportados para o armazenamento digital.
Hoje em dia, o raciocínio é bem diferente e um tanto mais simples: armazenar custa uma bagatela (e se você não sabe o preço da bagatela, pergunte ao seu avô que ele certamente tem a cotação do dia), então armazena-se tudo, sem a menor intenção de algum dia jogar fora. Os dias de reutilização de espaço de armazenamento já se foram: uma vez registrado, um dado tende a existir em algum repositório digital (no mais das vezes, em mais de um, aliás) sem prazo de expiração. Os dados coletados podem ser (e no mais das vezes, são) reorganizados, otimizados, remanejados e complementados, mas nunca apagados.
Essa massa inimaginável de dados foi dimensionada em 2011 por Martin Hilbert, e por meio de uma ilustração podemos dar a dimensão da explosão dos dados digitais:
Todas as informações armazenadas no planeta — analógica ou digitalmente — em 1986 equivalem a menos da metade do que temos armazenado hoje em pendrives e memórias flash pelo mundo afora, e esse tipo de armazenamento digital engloba 2% dos dados digitais à nossa disposição. Ah, e quer ver um detalhe interessante? Olha só: somadas todas as porcentagens de armazenamento digital da imagem acima temos 99,2%. Onde estavam os 0,8% restantes lá e 2011? Consegue adivinhar? Pois é: estavam armazenados em smartphones, que já eram um mercado crescente, mas ainda não tinham explodido como vemos hoje. Ou seja, essa quantidade inimaginável de dados cresceu mais ainda (muito mais, diga-se de passagem) desde que os dados para a composição dessa imagem foram coletados.
Tantos dados assim precisam de um poder de computação gigantesco para serem processados. Buscas, correlações, operações matemáticas e lógicas sobre esses dados consomem enormes recursos computacionais, e a tecnologia de hardware, software e rede teve que se desenvolver no mesmo ritmo para que pudéssemos lidar com essa massa.
Ocorre que esse desenvolvimento já vinha sendo realizado, como nos mostram, por exemplo, as máquinas de busca. O Google hoje reina sozinho, mas na metade da década de 90 várias máquinas de busca brigavam por indexar e organizar os dados da Internet. O Google venceu essa corrida, e hoje reina supremo na busca de informações online. Sua fazenda de servidores de busca (que hoje está mais para “latifúndio” ou mesmo para “Capitania Hereditária” de servidores de busca) nos traz instantaneamente o resultado que procuramos, evidenciando a cada um de nós, dezenas de vezes por dia, a força e o valor do “Big Data”.
E não é só nas buscas que o Big Data está presente:
- Dados de geoposicionamento de milhares de celulares nos mostram com precisão onde estão os congestionamentos em nossos caminhos diários;
- Campanhas de saúde pública podem ser mais precisas e efetivas com base nos dados das comunidades a serem atendidas;
- Empresas podem melhorar a qualidade de seus produtos e serviços com base nas reações de seus consumidores;
- A publicidade pode ser mais efetiva com base nos dados coletados dos compradores.
Os exemplos dos usos de Big Data hoje em dia são inúmeros, e aqui mesmo nestas páginas o confrade Guilherme já nos falou sobre um produto da área de entretenimento que só existe por conta de Big Data: a série Stranger Things, da Netflix. Essa série foi criada com base em dados colhidos pela empresa do comportamento de seus clientes quanto ao que alugam para assistir. O interesse em histórias de aventura, que têm jovens como protagonistas, que lidam com o sobrenatural ou com o fantástico, e que ocorrem na década de 1980, foram alguns dos dados levantados pelo software da Netflix quando a massa de dados de comportamento dos usuários foi analisada. Assim surgiu Stranger Things. Essa série, aliás, não é a primeira que a Netflix criou com base nos resultados de suas análises. A série política House of Cards e a série de comédia Orange is the new Black — ambas de muito sucesso — são produto da capacidade da Netflix de analisar e extrair conhecimento de valor de seus dados.
É aí, aliás, que se encontra um dos grandes poderes do Big Data: identificar comportamentos e tendências. Os algoritmos de Big Data são capazes de analisar dados e fazer correlações que anteriormente estavam além de nossa capacidade e hoje conseguem prever comportamentos e identificar tendências com boa precisão.
Esse é o Big Data e essa é a força do Big Data. É importante que conheçamos essa tecnologia, pois cada vez a mais ela vai permear nossas vidas.
E nem sempre será em nosso benefício, como veremos na segunda parte deste artigo.
Não perca…
Pingback:Big Data, o lado escuro da força | Confrariando
[…] semana passada, vimos o que é Big Data e como essa ferramenta pode nos ajudar no dia-a-dia. Bem, em que pese serem, de fato, muito úteis, […]
Pingback:Desconectados | Confrariando
[…] mote, cada uma com seus segmentos geracionais de consumo muito bem estabelecidos pela análise de Big Data. Segundo […]