Skip to content

North Star Metric

A North Star Metric tem que ser acionável (o time consegue mexer no produto pra movê-la) e outcome-aligned (subir o número significa que casal está ganhando valor, não só consumindo recurso).

Casais ativos semanalmente (WAU couples).

Casal é “ativo na semana” se pelo menos um dos dois members tiver troca real de mensagem com o agente que resultou em fato persistido (gasto registrado, fatura importada, contribuição na meta, ajuste em expense). Ler relatório sem registrar nada não conta — é consumo passivo, não engagement de casal.

A métrica é “de casal”, não “de usuário”. O moat do mel é a unidade casal: dois members compartilhando contexto, decisões e histórico. MAU agregando indivíduos perderia o ponto.

Conforme decisão #9 do CEO doc (atualizada 2026-06-03 — landing final direta, sem waitlist):

  • 1.000 casais ativos em 60 dias (>= 1 conversa concluída no WhatsApp). Sinal go/no-go. Se não fechar, a tese de PLG viral PT-BR não fecha — pivota canal ou messaging antes de queimar tempo em impl.
  • Ativação 40% (click no CTA → primeira conversa de fato no WhatsApp). Conforme conversão típica de deep link → onboarding em PLG B2C.
  • Retenção 70% no 2º mês. Casal que volta no mês seguinte é casal que internalizou o hábito. Abaixo disso, ou o agente não entrega valor real ou o canal cria atrito invisível.

Cada uma dá um sinal diferente sobre saúde do funnel e do produto:

  • K-factor target 1.5. Cada casal traz em média 1.5 outros via referral attribution (cenário landing-002 + 016) + word-of-mouth orgânico no início. Abaixo de 1.0 = sem viralidade, depende de paid (que o bootstrap não banca).
  • Mensagens por casal por semana. Proxy de engagement. Apenas alto é cara: casal trocando 50 msgs/sem com o agente custa LLM. O número saudável é faixa, não pico.
  • Conversation quality score (eval harness — cenário 022). % de fixtures que passam no harness automatizado. Captura qualidade de tool-call (chamou a tool certa? args certos?), não wording. Cai abaixo de 90% = LLM regrediu ou prompt drift.
  • Reminders entregues vs respondidos. Cenário 019 introduz reminder proativo. Razão entregue/respondido captura se o agente é útil ou virou spam.

Métricas que parecem boas mas otimizar puxa pro lugar errado:

  • MAU sozinho. Casal que abre, lê o saldo e sai não é engagement. Conta como ativo mas não retém. Captura ruído, não sinal.
  • Tokens LLM consumidos. É custo, não outcome. Otimizar pra cima é jogar dinheiro fora; otimizar pra baixo agressivo trunca a conversa e quebra a UX. Trate como restrição, não como objetivo.
  • # de features. Cada cenário não-essencial é dívida cognitiva pro casal e técnica pro código. Ship cenário, não feature.