North Star Metric
A North Star Metric tem que ser acionável (o time consegue mexer no produto pra movê-la) e outcome-aligned (subir o número significa que casal está ganhando valor, não só consumindo recurso).
NSM proposta
Section titled “NSM proposta”Casais ativos semanalmente (WAU couples).
Casal é “ativo na semana” se pelo menos um dos dois members tiver troca real de mensagem com o agente que resultou em fato persistido (gasto registrado, fatura importada, contribuição na meta, ajuste em expense). Ler relatório sem registrar nada não conta — é consumo passivo, não engagement de casal.
A métrica é “de casal”, não “de usuário”. O moat do mel é a unidade casal: dois members compartilhando contexto, decisões e histórico. MAU agregando indivíduos perderia o ponto.
Metas curto prazo (60 dias)
Section titled “Metas curto prazo (60 dias)”Conforme decisão #9 do CEO doc (atualizada 2026-06-03 — landing final direta, sem waitlist):
- 1.000 casais ativos em 60 dias (>= 1 conversa concluída no WhatsApp). Sinal go/no-go. Se não fechar, a tese de PLG viral PT-BR não fecha — pivota canal ou messaging antes de queimar tempo em impl.
- Ativação 40% (click no CTA → primeira conversa de fato no WhatsApp). Conforme conversão típica de deep link → onboarding em PLG B2C.
- Retenção 70% no 2º mês. Casal que volta no mês seguinte é casal que internalizou o hábito. Abaixo disso, ou o agente não entrega valor real ou o canal cria atrito invisível.
Métricas secundárias
Section titled “Métricas secundárias”Cada uma dá um sinal diferente sobre saúde do funnel e do produto:
- K-factor target 1.5. Cada casal traz em média 1.5 outros via referral attribution (cenário landing-002 + 016) + word-of-mouth orgânico no início. Abaixo de 1.0 = sem viralidade, depende de paid (que o bootstrap não banca).
- Mensagens por casal por semana. Proxy de engagement. Apenas alto é cara: casal trocando 50 msgs/sem com o agente custa LLM. O número saudável é faixa, não pico.
- Conversation quality score (eval harness — cenário 022). % de fixtures que passam no harness automatizado. Captura qualidade de tool-call (chamou a tool certa? args certos?), não wording. Cai abaixo de 90% = LLM regrediu ou prompt drift.
- Reminders entregues vs respondidos. Cenário 019 introduz reminder proativo. Razão entregue/respondido captura se o agente é útil ou virou spam.
Anti-metrics
Section titled “Anti-metrics”Métricas que parecem boas mas otimizar puxa pro lugar errado:
- MAU sozinho. Casal que abre, lê o saldo e sai não é engagement. Conta como ativo mas não retém. Captura ruído, não sinal.
- Tokens LLM consumidos. É custo, não outcome. Otimizar pra cima é jogar dinheiro fora; otimizar pra baixo agressivo trunca a conversa e quebra a UX. Trate como restrição, não como objetivo.
- # de features. Cada cenário não-essencial é dívida cognitiva pro casal e técnica pro código. Ship cenário, não feature.
Onde os números vivem
Section titled “Onde os números vivem”- Dashboard atual e snapshot agregado:
/kpis/. - Status por scenario (lead time, WIP, throughput):
/kpis/scenarios-status/. - Histórico de decisões de produto/mercado:
docs/CEO.md.