North Star Metric

A North Star Metric tem que ser acionável (o time consegue mexer no produto pra movê-la) e outcome-aligned (subir o número significa que casal está ganhando valor, não só consumindo recurso).

NSM proposta

Casais ativos semanalmente (WAU couples).

Casal é “ativo na semana” se pelo menos um dos dois members tiver troca real de mensagem com o agente que resultou em fato persistido (gasto registrado, fatura importada, contribuição na meta, ajuste em expense). Ler relatório sem registrar nada não conta — é consumo passivo, não engagement de casal.

A métrica é “de casal”, não “de usuário”. O moat do mel é a unidade casal: dois members compartilhando contexto, decisões e histórico. MAU agregando indivíduos perderia o ponto.

Metas curto prazo (60 dias)

Conforme decisão #9 do CEO doc (atualizada 2026-06-03 — landing final direta, sem waitlist):

1.000 casais ativos em 60 dias (>= 1 conversa concluída no WhatsApp). Sinal go/no-go. Se não fechar, a tese de PLG viral PT-BR não fecha — pivota canal ou messaging antes de queimar tempo em impl.
Ativação 40% (click no CTA → primeira conversa de fato no WhatsApp). Conforme conversão típica de deep link → onboarding em PLG B2C.
Retenção 70% no 2º mês. Casal que volta no mês seguinte é casal que internalizou o hábito. Abaixo disso, ou o agente não entrega valor real ou o canal cria atrito invisível.

Métricas secundárias

Cada uma dá um sinal diferente sobre saúde do funnel e do produto:

K-factor target 1.5. Cada casal traz em média 1.5 outros via referral attribution (cenário landing-002 + 016) + word-of-mouth orgânico no início. Abaixo de 1.0 = sem viralidade, depende de paid (que o bootstrap não banca).
Mensagens por casal por semana. Proxy de engagement. Apenas alto é cara: casal trocando 50 msgs/sem com o agente custa LLM. O número saudável é faixa, não pico.
Conversation quality score (eval harness — cenário 022). % de fixtures que passam no harness automatizado. Captura qualidade de tool-call (chamou a tool certa? args certos?), não wording. Cai abaixo de 90% = LLM regrediu ou prompt drift.
Reminders entregues vs respondidos. Cenário 019 introduz reminder proativo. Razão entregue/respondido captura se o agente é útil ou virou spam.

Anti-metrics

Métricas que parecem boas mas otimizar puxa pro lugar errado:

MAU sozinho. Casal que abre, lê o saldo e sai não é engagement. Conta como ativo mas não retém. Captura ruído, não sinal.
Tokens LLM consumidos. É custo, não outcome. Otimizar pra cima é jogar dinheiro fora; otimizar pra baixo agressivo trunca a conversa e quebra a UX. Trate como restrição, não como objetivo.
# de features. Cada cenário não-essencial é dívida cognitiva pro casal e técnica pro código. Ship cenário, não feature.

Onde os números vivem

Dashboard atual e snapshot agregado: /kpis/.
Status por scenario (lead time, WIP, throughput): /kpis/scenarios-status/.
Histórico de decisões de produto/mercado: docs/CEO.md.