
Estudo de caso da San Francisco State University
2014
O departamento de ciências da computação da San Francisco State University tem cerca de 400 alunos de graduação e 100 alunos de pós-graduação e está envolvendo os setores de educação e pesquisa. No momento, o departamento está trabalhando em um projeto de Machine Learning, chamado FEATURE, em colaboração com o Stanford Helix Group e apoiado pelo National Institute of Health, (NIH Grant LM05652).
O FEATURE usa o Machine Learning para prever grupos funcionais nas proteínas e outras estruturas moleculares tridimensionais (3D). O Professor Dragutin Petkovic explica: "A otimização massivamente paralela do Machine Learning envolve a aplicação de algoritmos de máquina de vetores de suporte (SVM) para milhares de conjuntos de treinamento compostos por centenas de milhares de vetores. Os parâmetros otimizados de SVM são encontrados por meio de pesquisas de rede paralelizadas com força bruta e validação cruzada por k vezes. Essa otimização envolve a repetição de operações similares várias vezes, independentemente."


A AWS disponibiliza acesso sob demanda a recursos de alto desempenho, o que nos permite manter o foco na ciência, em vez de no trabalho pesado de manutenção da infraestrutura do servidor.”
Professor Dragutin Petkovic
San Francisco State University
O desafio
O FEATURE, como outros projetos inovadores científicos, tem um apetite insaciável por computação de alto desempenho e os cientistas de pesquisa do projeto descobriram que a demanda computacional para explorar aspectos detalhados de moléculas biológicas logo ultrapassariam as instalações da universidade. Os recursos computacionais são compartilhados na San Francisco State University e a alta demanda significava que os pesquisadores precisavam reformular o tamanho e o escopo de suas questões ou enfrentar longos atrasos na disponibilização de recursos. Além disso, estas restrições levaram a longas esperas por resultados e aplicaram um limite arbitrário nos testes que os cientistas poderiam executar.
Por que a HAQM Web Services
Os cientistas só precisavam de recursos computacionais periodicamente e não seria econômico comprar um recurso enorme e mantê-lo para um uso irregular. Enquanto a equipe de pesquisa considerava as opções, eles perceberam que o acesso sob demanda a recursos computacionais disponibilizado pela HAQM Web Services (AWS) atendia às suas necessidades. "O modelo de pagamento conforme o uso do HAQM Elastic Compute Cloud (HAQM EC2) era a opção mais adequada em comparação com a aquisição de um grande servidor interno", diz o Professor Petkovic.
A equipe de pesquisa criou o FEATURE usando C, C++, Perl e Python, entre outras ferramentas. Eles implantaram o cluster no HAQM EC2 usando o MIT StarCluster, uma ferramenta automática de provisionamento criada para computação de alto desempenho científica e técnica. O Protein Databank e os bancos de dados de estruturas de proteínas foram carregados em volumes do HAQM Elastic Block Store (HAQM EBS) para fácil gestão e reutilização, e são acessados usando uma HAQM Linux Machine Image (HAQM Linux AMI) personalizada.
Os benefícios
Para avaliar o desempenho do projeto FEATURE na AWS, a equipe usou a criação de perfil de software e o benchmarking de E/S para calcular as métricas de desempenho. Petkovic explica, "A equipe tem um pequeno cluster interno com 40 nós. Nós comparamos isso com a nuvem e descobrimos que o HAQM EC2 era altamente superior em termos de ciclos de CPU por custo, além de viabilizar o aumento da escala vertical quando fosse necessário. Os testes que antes levavam semanas, agora podem ser feitos em uma noite. Isso significa que nossos cientistas estão sempre ocupados e não esperando por resultados. A AWS reduziu imensamente nosso tempo de resposta para consultas científicas."
O Professor Petkovic estima que os custos de computação foram reduzidos em cerca de 20 vezes. "Estimamos que um cluster pequeno interno de 40 nós é executado a um valor de 1,71 USD por unidade de computador por hora. Em comparação, o HAQM EC2 custa para nós apenas 0,08 USD por unidade de computador elástica (ECU) equivalente por hora", explica. Além disso, Petkovic e sua equipe podem usar alertas de pagamento e outras ferramentas de otimização de custos que a AWS disponibiliza para planejar e gerenciar o custo de uso do serviço.
"A AWS disponibiliza acesso sob demanda a recursos de alto desempenho, o que nos permite manter o foco na ciência, em vez de no trabalho pesado de manutenção da infraestrutura do servidor. A AWS nos ajuda a eliminar as limitações de tamanho e escopo dos nossos testes de Machine Learning", diz Petkovic.

Sobre a San Francisco State University
O departamento de ciências da computação da San Francisco State University tem cerca de 400 alunos de graduação e 100 alunos de pós-graduação e está envolvendo os setores de educação e pesquisa. No momento, o departamento está trabalhando em um projeto de Machine Learning, chamado FEATURE, em colaboração com o Stanford Helix Group e apoiado pelo National Institute of Health, (NIH Grant LM05652)
Serviços da AWS usados
HAQM EC2
Capacidade computacional segura e redimensionável na nuvem. Execute aplicativos quando necessário, sem compromissos antecipados.
HAQM EBS
O HAQM Elastic Block Store (EBS) é um serviço de armazenamento de blocos de alta performance fácil de usar projetado para o uso com o HAQM Elastic Compute Cloud (EC2).
HAQM Linux AMI
O HAQM Linux AMI é uma imagem compatível e mantida do Linux fornecida pela HAQM Web Services para uso no HAQM Elastic Compute Cloud (HAQM EC2).
Comece a usar
Empresas de todos os portes em todos os setores estão transformando seus negócios diariamente usando a AWS. Entre em contato com nossos especialistas e inicie sua própria jornada para a Nuvem AWS hoje mesmo.