Tech - Um lago de dados

Não está com tempo de ler? Ouça este conteúdo.

Volta e meia abordamos aqui o conceito de ?big data?, o armazenamento e processamento da brutal quantidade de dados cuja gera??o vem aumentando com uma rapidez quase inacredit?vel. E h? boas raz?es para este crescimento.

Para come?ar, a enorme quantidade de sensores e dispositivos inteligentes que hoje s?o encontrados em quase tudo, e que fornecem dados ? literalmente ? sem parar. Dados estes que se somam, como seria de esperar, aos gerados pelos aplicativos, tanto os modernos quanto os tradicionais. Isto sem falar na enxurrada de dados produzidos diuturnamente pelas redes sociais, alguns deles de imenso valor para as empresas que desejam conhecer a opini?o de seus clientes sobre elas quase que de forma sub-rept?cia ? j? que eles nem sabem que sua opini?o est? sendo sondada, armazenada e analisada a partir de um emaranhado de dados p?blicos. Enfim, a quantidade de dados que mal nos damos conta que s?o produzidos e armazenados vem crescendo de forma exponencial.

Veja todas as colunas do B. Piropo

Mas a simples exist?ncia desta quantidade crescente de dados pouco significa do ponto de vista pr?tico caso eles n?o venham a ser armazenados e processados.

Imagine um grande hospital geral que procurou se manter em dia com a tecnologia da informa??o ? medida que ela evolu?a. Durante este per?odo foram armazenados registros m?dicos de milh?es de pacientes, notas avulsas de m?dicos e pessoal especializado, planilhas eletr?nicas com a especifica??o e o custo do material m?dico usado em cada procedimento de cada paciente e outros tantos dados alfanum?ricos. Agora, junte a eles alguns milh?es de imagens digitalizadas provenientes de radiografias, tomografias computadorizadas e outras tantas ?grafias? que v?m se tornando cada vez mais indispens?veis para efetuar diagn?sticos e acompanhar a evolu??o de tratamentos. Que por sua vez v?m acompanhadas de seus respectivos laudos. Junte a tudo isto os dados referentes ? administra??o do hospital, sal?rios, custos diretos, indiretos e cong?neres. Agora jogue tudo em um reposit?rio de dados e procure tirar algum proveito deles.

Provavelmente quem se dispuser a isto sem as ferramentas adequadas nada conseguir? exceto uma poss?vel interna??o ? quem sabe no pr?prio hospital ? devido a um dist?rbio nervoso causado por pura exaust?o de tanto mexer nos dados sem conseguir nada que preste.

Quer dizer: o simples fato de mant?-los armazenados n?o significa que se tire algum proveito dos dados. Mas certamente ? o primeiro passo.

At? poucos anos armazenar dados era caro. Mas o que vem acontecendo ultimamente ? que os custos de armazenamento est?o caindo cada vez mais rapidamente e deixaram de ser um empecilho para a forma??o de reposit?rios de dados com capacidades quase incomensur?veis. E os grandes fornecedores de dispositivos de armazenamento, como a EMC, oferecem equipamentos cada vez de maior porte capazes de armazenar quantidades de dados impens?veis h? alguns anos a custos mais e mais acess?veis.

Mas, como vimos, n?o basta acumular dados, ? preciso ainda saber o que fazer com eles e como faz?-lo para que deles se tire algum proveito. Ou seja, h? que prepar?-los para que sejam processados e analisados usando o software adequado. Quer dizer: para que sejam ?teis os dados devem ser extra?dos, transformados e carregados (um procedimento denominado ETL, de ?extract-transform-load?) nos programas que os processar?o.

A forma ideal de fazer isso ? jogar os dados em um imenso reposit?rio e l? acumul?-los at? o momento em que seja necess?rio process?-los, da mesma forma que um grande lago nas montanhas acumula a ?gua que para ele flui de centenas de afluentes e milhares de afluentes de seus afluentes e assim por diante. O que fez com que nosso imenso reposit?rio de dados fosse batizado de ?Data Lake?, ou ?Lago de dados?.

Segundo a defini??o do dicion?rio t?cnico da TechTarget, ?A data lake is a large object-based storage repository that holds data in its native format until it is needed? (Um ?data lake? ? um grande reposit?rio de armazenamento baseado em objetos que armazena dados em seu formato original at? que seja necess?rio us?-los?). E, naturalmente, seu respectivo ETL, composto por novas tecnologias desenvolvidas especificamente para tal fim que permitam an?lise em tempo real e conex?o direta com novos produtos de software, tamb?m desenvolvidos para lidar com o material que se recupera do reposit?rio de armazenamento. Porque o conceito de Data Lake engloba n?o apenas o imenso conjunto de dados armazenados como tamb?m a l?gica usada para analis?-los e as tecnologias de armazenamento capazes se receberem e lidarem com dados estruturados e n?o estruturados de diferentes naturezas e origens.

GPC20150327_1 (Foto: GPC20150327_1)Karin Breitman, Diretora e Cientista Chefe do Centro de Pesquisa e Desenvolvimento da EMC (Foto: Reprodu??o/B. Piropo)

Com um conjunto suficientemente grande de dados armazenados e usando a l?gica de an?lise correta, os Data Lakes podem ser vistos como m?quinas de prever o futuro. Pois a mais importante utiliza??o dos Data Lakes mantidos por empresas bem sucedidas ? gerar modelos preditivos que auxiliam a criar novos produtos, aplicativos e modelos de neg?cios adotados para corrigir seus rumos ao navegarem nos revoltos mares do mercado.

Pois bem: nesta ?ltima ter?a-feira, 24 de mar?o, a empresa EMC reuniu a imprensa especializada em seu magn?fico Centro de Pesquisa e Desenvolvimento em Big Data, localizado no Parque Tecnol?gico da UFRJ, na Ilha do Fund?o, Rio de Janeiro, para anunciar o lan?amento de seu Federation Business Data Lake, um Data Lake totalmente projetado em n?vel empresarial. O an?ncio foi feito por Karin Breitman, Diretora e Cientista Chefe do Centro de Pesquisa e Desenvolvimento, mostrada na foto obtida no evento.

Segundo a EMC, um Data Lake eficiente deve oferecer tr?s fun??es cr?ticas.

Tr?s fun??es b?sicas

A primeira consiste no armazenamento de dados estruturados e n?o estruturados para todos os tipos de l?gica de an?lise, provenientes de diferentes fontes e capaz de combinar capacidade com desempenho na medida das necessidades do uso da l?gica anal?tica.

A segunda se consubstancia no oferecimento de um moderno ferramental de gerenciamento de dados que possa ser usado com qualquer tipo de l?gica anal?tica, a? incluindo os baseados em ?hadoop? (plataforma em Java voltada para processamento de grandes massas de dados armazenados em ?clusters?), em mem?ria, n?o SQL e processamento MPP.

Finalmente, a terceira fun??o cr?tica pode ser resumida em duas palavras: Revelar e Agir. Ela consiste no fornecimento de dados aos usu?rios e aplicativos de forma a que possam ser usados para alterar os resultados em tempo real e exercer influ?ncia no processo de tomada de decis?es.

?Em geral a cria??o de um Data Lake eficaz ? um procedimento que exige grande empenho das empresas e consome muito tempo ? algo em torno de seis a nove meses. Isto porque, al?m de organizar e implementar o armazenamento, ? preciso ainda encontrar a plataforma correta de l?gica anal?tica, implant?-la, configur?-la e execut?-la. Isto inclui a cria??o do ambiente, captura de dados, estabelecimento dos devidos direitos de acesso e governan?a dos dados. Em resumo: trata-se de uma tarefa complexa e demorada.

Pois bem: a grande vantagem do Federation Business Data Lake da EMC ? que, nos clientes que j? possuem equipamentos e utilizam solu??es EMC, pode ser implantado em uma semana.

Isto porque a EMC ? uma ?Federa??o de Empresas? (da? a origem do nome de seu Data Lake). As empresas adquiridas pelo grupo funcionam de forma interligada harmonicamente, por?m mantendo sua independ?ncia tecnol?gica. S?o elas a EMC Information Infrastructure, Pivotal e VMWare que, em conjunto, fornecem praticamente tudo o que ? necess?rio para implementar um Data Lake eficiente em um per?odo extremamente curto. A camada de l?gica anal?tica ? fornecida pelo Pivotal Big Data Suite e funciona totalmente virtualizada com o software VMWare rodando nos enormes dispositivos de armazenamento VBlock. E assim, sempre com produtos j? dispon?veis nas empresas que formam a federa??o ou com outros desenvolvidos especificamente por ela para este fim, o Federation Business Data Lake pode ser estabelecido em pouqu?ssimo tempo e, ainda assim, funcionar de modo eficaz, integrado e harm?nico.

Resumindo: o Federation Business Data Lake ? uma nova solu??o concebida pela federa??o de empresas formada pela EMC Information Infrastructure, Pivotal e VMWare para implementar Data Lakes rapidamente e de forma praticamente automatizada. Ela permite que as empresas implementem em uma semana todos os recursos necess?rios de Hadoop e l?gica anal?tica em tempo real para gerir o Data Lake. E as empresas da federa??o est?o capacitada a oferecer um conjunto completo de servi?os de Data Lake em qualquer est?gio do gerenciamento de Big Data.

Uma solu??o que pode implicar em uma not?vel economia de tempo sem perda de efic?cia.

Ainda segundo a EMC, o Federation Business Data Lake estar? dispon?vel a partir de abril no Brasil e em alguns outros pa?ses.

Interessado? Ent?o veja na p?gina oficial da EMC (brazil.emc.com/video-collateral/demos/microsites/mediaplayer-video/emc-data-lake-foundation.htm) um curto v?deo de menos de cinco minutos (em ingl?s) com mais informa??es sobre o Federation Business Data Lake.

B. Piropo

PS: depois de mais de vinte e cinco anos escrevendo colunas semanais sobre tecnologia para diversos ve?culos de comunica??o, no pr?ximo m?s vou me dar ao luxo de tirar f?rias pela primeira vez. Portanto n?o estranhem a aus?ncia desta vossa coluna durante o m?s de abril. Mas n?o pretendo deixar voc?s em paz por muito tempo: em maio estarei de volta e com a corda toda. At? l?.

Sobre Gerência Imóveis

Única plataforma que conecta o proprietário à imobiliária e/ou corretor de imóveis com o foco em potencializar as vendas e torná-las mais seguras maximizando o tempo do corretor.