À medida que a internet cresceu no início da década de 2000, os motores de busca e os índices foram criados para ajudar a localizar informações relevantes em meio ao conteúdo baseado em texto. Nos primeiros anos, os resultados de pesquisa foram entregues por seres humanos.
Porém, como o número de páginas não parava de crescer, surgiu a necessidade de automatizar o processo. Então, foram criados muitos projetos de estudos conduzidos por universitários, e startups, como Yahoo! e AltaVista, decolaram.
Um desses projetos foi um buscador de código aberto chamado Nutch, criado por Doug Cutting e Mike Cafarella. Eles queriam gerar resultados de pesquisa na web mais rápidos por meio da distribuição de dados e cálculos em computadores diferentes, fazendo com que várias tarefas fossem realizadas simultaneamente. Nesse período, um projeto chamado Google (que, como sabemos, tornou-se um sucesso!), com o mesmo conceito, também estava em andamento.
Em 2006, o Yahoo adquiriu o projeto Nutch, bem como ideias com base no trabalho pioneiro do Google com a automatização de armazenamento de dados distribuídos e processamento. O projeto foi dividido — a parte de web crawler (rastreador web) permaneceu como Nutch e a parte de computação e processamento distribuído passou a ser chamada de Hadoop.
J[a no ano de 2008, o Yahoo lançou o Hadoop como um projeto open source, ou seja, de código aberto. Hoje, a estrutura e o ecossistema de tecnologias de Hadoop são gerenciados e mantidos pela organização sem fins lucrativos pela Apache Software Foundation, uma comunidade global de desenvolvedores de software e contribuidores.
Em termos práticos, o Hadoop é um quadro de programação baseado em código java open source que suporta o processamento e o armazenamento de grandes conjuntos de dados em um ambiente de computação distribuída. Desse modo, sua empresa terá muito mais sucesso na hora de utilizar uma das principais tecnologias da Transformação Digital, o Big Data.
O que é Big Data?
Se você não está utilizando o Big Data em seu negócio agora, é hora de começar a planejar a sua implementação. Afinal, essa ferramenta está cada vez mais presente no dia a dia comercial. Então, provavelmente, seus concorrentes já a estão empregando para obter insights cada vez melhores sobre os clientes, o mercado, as condições econômicas etc.
Se você iniciar uma estratégia de Big Data (BD) aliada ao Hadoop, terá condições de ganhar um posicionamento estratégico e muita vantagem competitiva.
A BD é uma tecnologia para que as empresas coletem, armazenem, lidem e analisem grandes volumes de dados com os mais diversos graus de complexidade. Assim, é possível obter insights de informações originadas desde redes sociais até de bancos de dados com dezenas de terabytes de capacidade.
Todos os dados serão tratados por um software de processamento, a partir do qual você pode executar várias ações, como:
- mineração;
- realização de armazenamento definitivo e temporário;
- busca;
- consulta;
- transferências;
- atualização;
- compartilhamento;
- anonimização;
- visualização;
- definição de permissões de acesso etc.
Desse modo, o BD trabalha com três princípios: altas velocidade, variedade e volume. Em outras palavras, para ser chamado de um software de Big Data, a ferramenta precisa analisar vários gigabytes de dados em poucos minutos, independentemente da fonte e da estrutura deles.
Como as empresas têm colocado esse conceito em prática?
O BD pode ser aplicado de diversas formas em várias áreas de conhecimento dentro do seu negócio. Vamos falar dos principais usos a seguir.
Análise preditiva
A análise preditiva utiliza as ferramentas de BD para as análises estatísticas que serão úteis para a tomada de decisões na sua empresa. Por meio do aprendizado de máquina, o sistema é capaz de analisar fatos atuais ou passados com a finalidade de verificar a probabilidade de ocorrência de determinados eventos futuros.
Nos negócios, isso é importante para identificar vários padrões de vendas, custos, produtividade, desempenho comercial etc. Desse modo, o gestor saberá qual o cenário mais provável. Assim, ele poderá planejar ações, como execução de campanhas de marketing, compra de matérias-primas, contratação ou demissão de funcionários etc.
Análise de comportamento do usuário
Na análise de comportamento do usuário, o BD é capaz de encontrar diversos tipos de padrões de consumo por seus clientes. Assim, além de observar a sazonalidade da demanda ou sua variação de acordo com a economia geral, você também poderá ter insights mais próximos.
Por exemplo, saber que um consumidor geralmente compra um produto em associação com outros, quanto tempo um produto fica no carrinho antes de uma compra ou de uma desistência, entre tantos outros.
Quais são os benefícios do Hadoop?
Adotar o Hadoop na sua empresa representará um ganho significativo em vários pontos. Afinal, ele é uma ferramenta completa que busca trazer mais simplicidade e agilidade para os processos de análise de grandes dados. Além disso, ele aproveita, ao máximo, o desempenho das máquinas, evitando que você precise escalar constantemente sua infraestrutura de TI. Quer saber mais sobre esse e outros benefícios? Acompanhe!
Capacidade de armazenar e processar grandes quantidades de dados
Com volumes de dados e variedades aumentando a cada dia, especialmente a partir de meios de comunicação social e da Internet das Coisas, a imensa possibilidade de armazenamento é uma das principais vantagens do software.
Poder de computação
O modelo de computação distribuída do Hadoop processa dados em uma velocidade muito rápida. Quanto mais nós de computação (clusters), mais poder de processamento.
Tolerância aos erros
Os dados e o processamento de aplicativos são protegidos contra falhas de hardware. Se um nó é perdido, os trabalhos são automaticamente redirecionados para outros nós para garantir que a computação distribuída não falhe. Várias cópias de todos os dados são armazenados automaticamente.
Flexibilidade
Diferentemente dos bancos de dados relacionais tradicionais, no Hadoop não é preciso preprocessar os dados antes de guardá-los. Ele armazena tantos dados quanto forem necessários para utilizá-los mais tarde. Isso inclui dados não estruturados, como textos, imagens e vídeos.
Baixo custo
O framework open source é gratuito e usa hardware commodity (componentes de custo acessível) para armazenar quantidades exponenciais de dados.
Como o Hadoop auxilia na implementação do Big Data?
A seguir, veja formas de utilizar o Hadoop na sua empresa:
- armazene dados com baixo custo: o software permite manter informações que não são consideradas atualmente críticas, mas que você pode querer analisar mais tarde;
- desenvolva projetos de Internet das Coisas: o armazenamento de transações em massa é possível com o Hadoop. Isso também permite que você descubra e defina padrões a serem monitorados para instrução normativa;
- potencialize o poder de análise da sua empresa: o Hadoop foi concebido para lidar com volumes de dados numa variedade de formatos e formas, por isso, é possível executar algoritmos de análise nele. O Hadoop é a maneira mais prática de criar um projeto de Big Data!
Portanto, agora que você sabe o que é Hadoop e o que é o Big Data, é possível compreender a importância dessas duas ferramentas para a conquista de mais vantagem competitiva. Com elas, a tomada de decisão fica muito mais simples e rápida, pois sua empresa terá, em poucos minutos, relatórios completos e atualizados sobre os consumidores, os fornecedores, as operações etc.
Quer conhecer mais aplicações do Big Data no mundo corporativo? Então, confira o nosso post sobre como ela tem revolucionado a logística!
Materia muito interessante
Obrigada pelo artigo 🙂 Acho que eu tenho uma equipe que pode obter cada sucesso 🙂 Mas sem kanbantool.com, nao conseguimos arranjar e controlar todas tarefas. Ferramentas digitais podem ajudar bastante – tal como manager ou teamledaer, mas mais suave 🙂 Eu planejo o dia do trabalho com kanban e todas tarefas sao cumpridas. Eu sei que nao cada um gosta trabalhar assim, mas comigo funciona 🙂
Parabéns por trazer a CRISP-DM de volta ao tablado. O “produtocentrismo” que assola o mercardo de BI pressiona os players a comprar o último brinquedo, a seguir a última moda, quando quase tudo que tem algum uso prático já existe há décadas – como o CRISP-DM
Seria legal um artigo um artigo comparando-o com SEMMA. Pode ser muito interessante para quem entrou na área há menos de 20 anos.
Gostaria de entender se a utilização da Big data nas empresas gera algum tipo de desvantagem nas pessoas que lá trabalham ?
Sobre o comentário do João Kechichian, concordo em relação às empresas não terem claro o que querem, e concordo com o Leandro sobre a abordagem de “Qual o seu problema” para dar as sugestões.
Mas vale ressaltar que as empresas não conseguem identificar o que querem por não terem claro um Planejamento Estratégico e objetivos bem descritos. Isso facilita muito perceber quais indicadores serão necessários acompanhar para atingir os resultados esperados.
Bom dia,
Há muita diferença das versões do livro The Data Warehouse Toolkit?
Vejo que ele esta na 3 edição.
Posso comprar apenas a 3 ou devo comprar todas?
Oi Marcos!
Há algumas atualizações com conceitos mais atuais. Não precisa comprar todas as edições não, apenas a 3a já cobre tudo que precisa.
Sim e não. A maior diferença é entre a primeira edição e as restantes. Da segunda edição em diante, quando a Margy Ross assumiu o livro, é tudo mais ou menos o mesmo.
A primeira edição, que por acaso chegou a ser publicada em português, é a melhor, na minha opinião. Ela é mais concreta, menor e mais focada. Se conseguir achá-la, compre. Vale ouro.
eu precisava para compor você uma pouco de note ajudar diga obrigado again com o extraordinário conselhos você compartilhado nesta página . Foi certamente maravilhosamente generoso com você dando abertamente tudo o que muitas pessoas {poderiam ter | poderiam possivelmente ter | poderiam ter | teriam | distribuído para um ebook para gerar alguma massa para eles mesmos , especialmente considerando que you poderia ter tried it se você nunca desejado . Those estratégias também agido como outras pessoas tenha semelhante desire como my own entender bom negócio mais relacionado este assunto . Eu tenho certeza há alguns mais agradáveis ocasiões ahead para pessoas que ver seu site
[…] de BI — Business Intelligence ou, traduzindo, Inteligência Empresarial — é justamente o diferencial que uma empresa precisa para tratar dados gerados por vários meios. Veja alguns contextos que podem servir de […]
[…] para aumentar seu lucro ou diminuir seus custos operacionais. Esse é o conceito básico de Business Intelligence utilizado como diferencial […]
Olá Leandro.
Acredito que o potencial da área de Business Intelligence dentro das empresas pode ser maior do que se imagina hoje.
Trabalho com consultoria de B.I. para agencias e empresas, e enfrentamos diariamente dois grandes problemas.
1- Padronização dos dados: Como utilizamos muitas fontes de dados, todo o processo, desde o que a implementação, até a parte operacional, precisa ser muito bem estruturada. Sem o padrão das informações perde-se muito tempo com “correção”, sendo que “tempo” não é o que temos para identificar um padrão, pois no dia seguinte ele pode mudar se não o tratarmos.
2- Pessoas que não sabem o que querem: Corporações não sabem o que querem, logo querem tudo. O problema é que sabemos que não tudo não é necessário, se consegue identificar padrões e otimizações com metade do volume. Sendo assim o processo de otimização passa a ser inteligente para ser operacional.
O futuro da área esta encaminhando para segmentações e clusterizações dinâmicas para analise de Big Data, mas se o processo de todos envolvidos precisa ser muito bem desenhado e a área de B.I. precisa ter este knowhow também.
Obrigado e muito bom seus artigos.
Oi João, obrigado pelo seu comentário! Concordo com você!
Realmente, a padronização dos dados é o ponto mais sensível mesmo. Aqui estimamos em torno de 60% a 70% do tempo em um projeto de BI apenas para esta parte.
Sobre as pessoas não saberem o que querem, aqui vemos como uma certa vantagem. Muitas vezes não é nem exatamente não saber o que querem, mas não saberem o que é possível fazer. Com isso, parte do nosso trabalho aqui é exatamente entender do que o cliente sofre aí então sugerir algumas coisas. Tentamos não ir para uma abordagem de “o que você quer” mas sim de “quais são seus problemas”.
Isso me deu até a ideia de criar um post focado nisso, vou deixar anotado para o futuro!
Existe uma técnica chamada Árvore de Realidade Presente, da Teoria das Restrições, que lida justamente com essa barafunda de problemas e entendimentos. Eu experimentei a mesma frustração que você, João, e decidi resolver esse problema. A imagem https://geekbi.files.wordpress.com/2020/10/bi_toc-crt-x.png é um resumo do que eu tenho até agora.
Adoraria uma contribuição. “O cliente não sabe o que quer” já está lá. “Dados são sujos” e “Dados são bagunçados” me parecem boas adições.
O que você acha? E você, Leandro?