16 de abril de 20266 min de leitura

Modelagem de dados virou commodity. Saber qual pergunta fazer ainda não.

Em 2007, regressão de variáveis múltiplas rendia TG bem avaliado e projeto rentável para empresa de inteligência de mercado. Hoje, alguns prompts entregam SEM com requisitos técnicos de produção acadêmica em minutos. O gargalo mudou de lugar.

Eu achava que ia demorar um pouco mais pra Gen AI comoditizar o trabalho de marketing analytics. Me enganei. Agora é muito mais fácil entender o impacto das atividades de marketing na receita ou explicar comportamentos, opiniões e atitudes de clientes e usuários de um determinado produto ou serviço. Trabalhos complexos de modelagem de dados, como regressões de variáveis múltiplas (a base da maioria dos MMM, "Marketing Mix Modeling"), regressões logísticas, modelos de equações estruturais (SEM, "Structural Equation Modeling"), que estavam longe de ter baixo valor agregado ou exigir pouco conhecimento técnico, agora podem ser substituídos por alguns prompts no Claude. A pergunta que vem nesse contexto de reformulação das relações de trabalho devido a IA: será que o trabalho do modelador de dados que até pouco tempo era tão valorizado se acabou?

Voltando para 2007. Eu tinha recém começado meu estágio na Procter & Gamble e caminhava para minha formatura em engenharia mecânica-aeronáutica no Instituto Tecnológico de Aeronáutica (ITA) quando recebi a confirmação que o meu Trabalho de Graduação (o "TG", equivalente ao TCC em outras universidades, sob a orientação do professor Rodrigo Scarpel) seria um projeto do meu estágio. Provavelmente foi uma das poucas intersecções da minha graduação com o que acabei trabalhando na vida real.

Já naquela época o MMM (que tem voltado à moda em substituição a alguns tipos de modelos de atribuição) era considerado a melhor ferramenta para atribuição de impacto das diferentes atividades de marketing. Soluções caseiras, como a minha, ou de fornecedores de modelos estatísticos, como NielsenIQ e Analytic Partners, eram consideradas de alta complexidade: além da dificuldade de consolidação de todos os dados, exigiam investimento de alguns milhares de dólares (no caso de modelos terceirizados) e meses de projeto entre o início e a apresentação dos resultados.

Em uma mistura de conhecimentos de econometria, do negócio e um pouco de "arte", o modelo proposto deveria atender requisitos técnicos (testes de significância, correlação serial, multicolinearidade, R quadrado e erro absoluto) e fazer sentido para explicar as dinâmicas de negócio. Isso deixava o processo iterativo e demorado. Para o modelador, ver todos os parâmetros fazendo sentido para o negócio e atingindo os objetivos técnicos era sinônimo de vitória.

Por mais que eu tivesse acompanhado nesses anos as inovações em democratizar e simplificar o processo de modelagem, pude sentir o impacto da Gen AI no meu trabalho. Ao prestar um serviço de consultoria para uma empresa de tecnologia na área de segurança que queria entender mais sobre a percepção de segurança das pessoas, propus criar uma pesquisa com vários temas que tangem a questão e, uma vez obtidos os dados desagregados, usá-los para explicar se a pessoa se sente ou não segura.

Feita a pesquisa, veio a surpresa.

Alguns ajustes — direcionando a verificação do dicionário de variáveis dos arquivos, mantendo a consistência de causalidade entre modelos com variáveis conectadas (principalmente no caso de modelos SEM) e questionando algumas relações de causalidade (geralmente forçadas para melhorar métricas de aderência) — foram necessários para resolver os problemas que apareceram pelo caminho. Mas estava lá: modelos de regressão logística e de SEM, cumprindo os requisitos técnicos de mercado e de produção acadêmica, prontos em alguns minutos e poucos prompts.

Resolvi, então, utilizar o mesmo método para refazer o meu TG, cujos dados utilizados estão disponíveis (e anonimizados, o que possibilita a replicação de resultados) na publicação. Os parâmetros de sucesso do modelo bateram quase na vírgula, provavelmente porque alguns dados estavam truncados na publicação. Surreal. De repente, um conhecimento restrito e muitas vezes caro para empresas pequenas, que podia render um TG bem avaliado e um projeto rentável para uma empresa de inteligência de mercado, estava disponível nas mãos de qualquer pessoa com uma boa base de dados — podendo ser até automatizado diariamente.

Passado o susto (e a constatação na pele de que estão todos vulneráveis a esse novo mundo, não só os trabalhos de baixo valor agregado), vem a reflexão: o que é necessário nessa nova arte de modelagem dos dados? Certamente um perfil mais generalista de profissional, que, apesar de não ter mestrado em econometria, consegue distinguir que tipo de modelo usar para cada pergunta de negócio. Esse profissional, além de ter profundo conhecimento do assunto ou do negócio que se quer modelar, precisa estar apto a identificar as fontes de dados necessárias e suas possíveis lacunas, a serem preenchidas com dados reais ou sintéticos, ou correrá o risco de não ter a variância das observações explicada. Acima de tudo, precisa ter a coragem de questionar os modelos e insights propostos pela Gen AI. Apenas as recomendações com aderência ao processo de decisão de negócio conseguem ser de fato implementadas, e é aí que entra o lado humano da influência e do trabalho cooperativo para o crescimento de um negócio.

Adoraria escutar de vocês caso tenham mais algum input ou feedback no tema. Já usaram Gen AI para modelagem de dados? Onde precisaram peitar a IA nos erros dela?

#MarketingAnalytics #GenAI #MMM #DataScience