Aqui no Oficina da Net costumamos falar com frequência sobre temas como machine learning (ou aprendizagem de máquinas) e inteligência artificial, assuntos que até já pautaram nossos podcasts. Portanto, você já deve estar bem inteirado a respeito destes ramos da ciência. Mas, e Data Science, já ouviu falar? Este campo interdisciplinar tem tudo a ver com os assuntos anteriores. Quer saber como? É só continuar a leitura.

Data Science ou Ciência de Dados é uma área que já existe há mais de 30 anos, mas vem ganhando destaque mesmo é nos últimos anos, devido ao Big Data. O desenvolvimento de áreas como as machine learnings reforçam o crescimento e a importância da Ciência de Dados mas não é apenas neste ramo que este campo é bastante válido, sendo que é cada vez mais comum empresas se beneficiarem do estudo para a tomada de decisões, de forma a alavancar os seus crescimentos.

Mas, no sentido literal, o que é Data Science? Se você procurar na Wikipédia, terá como resposta a seguinte denominação: Ciência de Dados é um campo interdisciplinar sobre processos e sistemas para extrair conhecimento ou insights de dados em várias formas, estruturadas ou não estruturadas, que é uma continuação de alguns dos campos de análise de dados, como estatísticas, data mining e análise preditiva.

Em outras palavras, podemos dizer que, como todos sabem, vivemos em uma era onde há um volume imenso de dados - estruturados e não estruturados - que são criados e armazenados em nível global e que impactam os negócios do dia a dia. Daí o termo Big Data, que se refere a esta incontável quantidade de dados produzida diariamente em todo o mundo. Lembra quando coloquei que o campo estava ganhando destaque nos últimos anos devido ao Big Data, a uns dois parágrafos acima? Pois é, o Data Science é o estudo de conhecimento a partir destes dados. Para isto, ele incorpora técnicas e teorias das mais diversas áreas de conhecimento como computação, engenharia, matemática, estatística, economia, mineração de dados, programação de computadores, inteligência artificial, entre outros.

A Ciência de Dados afeta de forma acadêmica, ou não, pesquisas aplicadas de muitos domínios, como a tradução automática, o reconhecimento de voz e motores de busca. Mas não é só isto, ela impacta na economia digital, informática médica, em cuidados com a saúde e ainda influencia fortemente a economia, os negócios e as finanças. Do ponto de vista empresarial, o Data Science tornou-se uma parte vital da inteligência competitiva, um campo emergente que engloba uma série de atividades, como mineração e análise de dados. Com isto, empresas de diversos segmentos conseguem utilizar melhor as informações que fluem para dentro de suas organizações todos os dias. Desta forma, pode-se direcionar melhor os investimentos e ações, economizando-se tempo e dinheiro.

Os resultados satisfatórios de qualquer negócio não dependem exclusivamente da quantidade de dados que uma empresa tem ou de encontrar maneiras de criar mais, mas sim sobre a forma como ela vai alavancar esta informação. E é aí que a Ciência de Dados se destaca, estudando e trabalhando com estas informações disponíveis.

Vale ressaltar que o assunto Data Science não está restrito apenas ao Big Data, mas os grandes dados são sim aspectos importantes desta ciência.  Pode-se dizer que o Data Science alia Big Data, processamento estatístico e inteligência artificial para encontrar informações e detectar padrões.

Veja também: O que é biohacking? Conheça a técnica que desafia as leis do corpo

Profissionais

Os profissionais que atuam com a Ciência de Dados, chamados de cientistas de dados, desenvolvem as habilidades necessárias para construir plataformas de informação e ferramentas analíticas que reduzem custos, aumentam os lucros, melhoram os produtos, retêm clientes e identificam novas oportunidades. Eles são os profissionais responsáveis por extrair insights dos dados para auxiliar a tomada de decisões nas organizações.

Além de ser utilizado no setor empresarial, o Data Science também é utilizado por governos, ajudando a identificar os desafios enfrentados pela sociedade em temas como economia, saúde, transporte e educação. Isto é possível através de análise realizada a partir dos dados do próprio governo, bem como material de pesquisas, mídias sociais e Big Data retirados da web.

Se você se interessa pela área de Ciência de Dados, existem vários cursos voltados ao campo, que servem para aperfeiçoar o conhecimento dos profissionais de TI. Trabalhar como um cientista de dados vai além de estatísticas e cálculos, é preciso trabalhar a informação de uma forma empírica. O Data Science como uma disciplina, é uma mistura multifacetada da tecnologia, matemática e da percepção humana.

Como fazer?

Já falamos bastante sobre o que é o Data Science e suas aplicações. Mas, e como ele funciona, como fazer? Como já dito, o campo alia Big Data, processamento estatístico e inteligência artificial. Através da Ciência de Dados é feita a extração dos dados que serão transformados em informações úteis para a organização.  O esquema abaixo ilustra o passo a passo que envolve o Data Science.


Imagem: Microsoft

1 - Obtenha mais informações: O conteúdo bruto da Ciência de Dados é uma coleção de números e nomes. Recolha todo tipo de informação que conseguir, medidas, preços, horários, datas, produtos, títulos, ações...

2 - Faça perguntas inteligentes: Quanto mais precisa for a sua questão, maior a chance de encontrar uma resposta que lhe satisfaça. A Ciência de Dados é o processo de utilização de nomes e números para responder a uma pergunta, geralmente preditiva.

3 - Coloque os dados em uma tabela: A maioria dos algoritmos de aprendizado de máquina pressupõe que os seus dados estejam em uma tabela. Cada linha será um evento ou item ou instância.

4 -  Verifique a qualidade: Este passo se refere a "passear" cuidadosamente pelos dados, com o objetivo de encontrar todos os dados que não são úteis e corrigi-los ou removê-los, além de familiarizar-se com cada linha e coluna. Esta etapa é composta pela inspeção, correção e substituição dos valores em falta.

5 - Transforme as características: Antes de entrar na aprendizagem de máquina, há apenas mais uma etapa: a engenharia de características. Significa pegar as características que você já tem e combiná-las criativamente para que façam uma melhor previsão de seu objetivo.

6 -  Responda à pergunta: Chegamos a aprendizagem de máquina. Nesta fase você deve decidir a qual família de algoritmos pertence à sua pergunta, escolher um ou mais algoritmos dentro dessa família para usar e, em seguida, girar a manivela, usando as técnicas de aprendizagem de máquina tradicionais de dividir os dados em treinamento, adaptação e teste de conjuntos de dados e otimizar os parâmetros em qualquer modelo de sua escolha.

Se o seu modelo não responder à sua pergunta corretamente ou você quiser evitar de fazer a aprendizagem de máquina, existem algumas maneiras não tradicionais de respondê-la.

Uma delas é de maneira visual, visualizando dados anteriores. Como por exemplo, se a sua pergunta for qual será a alta temperatura de sua cidade, no dia 5 de agosto do ano que vem, olhar um histograma de altas temperaturas em sua cidade em 5 de agosto nos últimos 100 anos oferece uma resposta visual que bastará para a maioria dos propósitos.

7 - Use a resposta: Coloque os dados em um formulário para que as pessoas possam utilizá-los, seja para tomar uma decisão, completar uma tarefa ou aprender algo que não sabia.

A profissão cientista de dados foi eleita a mais sexy do século XXI pela Havard Business Review. A carreira está em expansão no país, mesmo em tempos de retração, conforme a Exame.com. Se você se interessa pela área, pode estar aí, uma bela oportunidade.