quarta-feira, 14 de setembro de 2011

Hadoop Hardware


Hadoop, para aqueles de vocês não sabem, é um framework escalável para a realização de aplicações intensivas de dados distribuídos. Se você está lendo este artigo, no entanto, você provavelmente já sabe que: você está intrigado com o potencial Hadoop de desempenho e sua capacidade anunciada para rodar em hardware commodity. Neste artigo, vamos falar um pouco sobre o hardware necessário para executar o Hadoop, e qual a melhor configuração seria a de obter a maioria de estrondo para seu fanfarrão!



Primeiro de tudo, porém: não acho que você pode simplesmente executar lá fora e pegar centenas de PCs escaninho do negócio e chamar o seu trabalho. Grande atrativo Hadoop é que ele não precisa de servidores beefy que custou dezenas de milhares de dólares, que pode rodar em hardware muito menos potente do que isso, permitindo-lhe comprar mais computadores que funcionarão como nós e realmente tirar proveito de energia distribuída Hadoop é. O que isso significa, no entanto, é que você ainda está olhando para comprar servidores na faixa de 2-3k um pop; Hadoop pode ser intensivo de memória, e você vai precisar de espaço em disco para armazenar todos os dados que você está pensando em Big usando.


Isso não quer dizer, entretanto, que você não pode completar um Hadoop cluster de dados com algumas máquinas antigas que não estão sendo bem aproveitados. Existem algumas boas práticas Hadoop e administradores por aí que muito, muito desencorajar o uso de máquinas antigas em clusters Hadoop; muitas configurações usar máquinas mais antigas, sem qualquer problema e incorporaram-los na configuração do bem. Se você tem alguns servidores de 4GB que estão sendo retiradas da produção, não há nada de errado com repurposing-los em um cluster Hadoop; Hadoop vai tirar proveito deles e eles vão valer mais para você do que sentar em algum lugar dentro de um armário empoeirado.


Onde a cautela contra máquinas antigas vem, no entanto, está em fase de compra inicial. Quando confrontados com a opção de comprar 25 máquinas média das especificações listadas acima ou 50 mais baratos em aproximadamente o mesmo preço, a escolha inicial é incerto: Hadoop afirma usar (e usa) o hardware antigo muito bem, eo custo / coeficiente de rendimento, inicialmente, vai ser muito estreita entre os dois tipos de configurações.


Onde a configuração 25-box vence é no custo real e custo administrativo; simplesmente, 25 caixas são mais fáceis de cuidar de um ponto de vista administrativo e, uma vez que existem partes menos, haverá menos dor de cabeça com as peças e não manutenção. Por outro lado, tendo apenas cinco servidores beefy realmente não vai usar modelo distribuído Hadoop para a sua plenitude, e você realmente verá menos custo / performance do que você faria com mais caixas de médio porte.


O que, então, é o melhor hardware commodity para ser executado em Hadoop? O que lhe dará a melhor relação custo / desempenho, bem como facilidade de apoio administrativo e os custos de manutenção? Um sólido, setup Hadoop genéricos deve ser algo como isto:


2 dual-core CPUs 
8-12GB RAM 
2 drives de 250 GB SATA


Estes não são seus run-of-the-mill especificações PC desktop, mas é claro que eles são especificações que são substancialmente mais baixos do que a maioria das máquinas high-end do servidor e pode ser tido por 2-2.5k por máquina. Estes são os tipos de servidores que você deve estar visando ao construir um cluster Hadoop, estas máquinas vão lhe oferecer a melhor relação custo / performance, tanto ao longo do tempo e em termos de custo real.


E assim, se você tiver, o melhor tipo de hardware para rodar em Hadoop para obter a melhor relação custo / desempenho de seus servidores. Boa sorte com seus clusters Hadoop, e Hadooping feliz!

Nenhum comentário :

Postar um comentário

Total de visualizações de página