INFRA/IA · Infraestrutura com agentes

A infra que se escreve sozinha.

Terraform, Pulumi, Kubernetes, observability, IAM, DR. Horas de ticket de infraestrutura viram minutos de agente executando contra spec. VPC provisionada, RDS de pé, Grafana configurado, runbook ativo — tudo antes do time levantar da cadeira. Você não contrata mão de obra de infra. Você contrata a esteira que monta a infra.

Território INFRA
Sessão · live provisioning

Isso aqui está sendo escrito agora.

Um agente da squad Amazing recebendo um brief e provisionando a stack do zero. Sem ticket de SRE aberto na segunda, sem dependência de humano carregando YAML. O harness abre o PR, o agente de teste valida, o dev humano aprova. Terraform vai ao ar.

amazing@infra-agent — ~/projects/banco-x LIVE · AGENT-01
$ amazing infra init --brief "api node + postgres + redis + cdn" --region sa-east-1 [agent] parsing brief... detected node.js 20 · postgresql 16 · redis 7 · s3+cloudfront [agent] loading harness rules · vault/banco-x/infra.md ok [agent] planning topology: multi-az · 3 subnets · private rds · wafv2 # generating terraform/main.tf ... + resource "aws_vpc" "main" # 10.24.0.0/16 + resource "aws_subnet" "public" [0..2] # a,b,c + resource "aws_subnet" "private" [0..2] # isolated + resource "aws_rds_cluster" "primary" # aurora-postgres, multi-az + resource "aws_elasticache_replication" "r" # redis 7, encrypted + resource "aws_cloudfront_distribution" "a" # origin=s3, tls1.3 + resource "aws_wafv2_web_acl" "waf" # default deny + owasp top 10 [test-agent] drift check · contract check · cost estimate $ 412/mo [agent] opening PR #174 · observability hooks wired · alerts → pagerduty [human-senior] reviewed · approved · terraform apply queued applied in 6m 42s · vpc ok · rds ok · cdn ok · grafana ok runbook ativo · incident-bot conectado · oncall = agent-01 (fallback human) $
Topologia · gerada automaticamente

Diagrama não é doc PowerPoint. É o estado real da stack.

O agente mantém o mapa vivo. Cada mudança no Terraform atualiza o diagrama. Cliente vê o que tá de pé, em que região, quais conexões existem, onde o firewall nega por padrão. Compliance gosta. Oncall ama.

USER internet CLOUDFRONT TLS 1.3 · WAFv2 ALB multi-az · listeners 443 ECS / K8S autoscale 2→24 RDS aurora pg · multi-az REDIS elasticache · encrypted S3 kms · versioned O11Y grafana + prom AGENT · IaC terraform · pulumi
Capacidades · o que o agente faz hoje

Tudo isso era ticket de três semanas. Agora é PR de duas horas.

Nenhuma dessas oito frentes desaparece com IA — elas só param de ser o gargalo do seu time. O que muda é quem escreve a primeira versão, quem abre o MR, quem documenta, quem mede custo antes do apply, quem responde ao alerta às 3h.

01 · IaC

Terraform & Pulumi escritos contra spec.

Módulos parametrizados, state remoto, drift detection, cost estimate antes do apply. CDK e OpenTofu também.

Módulos · Drift · Plan
02 · K8s

Kubernetes com GitOps nativo.

Helm, Kustomize, ArgoCD. HPA, VPA, PDB configurados. Network policies com default deny. Service mesh opcional.

Helm · Argo · Istio
03 · CI/CD

Pipeline com quality gate automático.

GitHub Actions, GitLab CI, CircleCI. Build, test, SAST, DAST, SBOM, deploy canary. Rollback em um clique.

Actions · Gitlab · Argo
04 · Observability

Métrica, log e trace correlacionados.

Grafana + Prometheus + Loki, ou Datadog/New Relic. SLO e error budget vivos. Alertas conectados a pager e canal humano.

Prom · Loki · Datadog
05 · Security

Default deny. Auditoria contínua.

IAM de menor privilégio, Secrets Manager, KMS, SBOM por release, CIS benchmark auditado, Snyk/Trivy no pipeline.

IAM · KMS · CIS
06 · SRE / Incident

Runbook que executa, não só orienta.

Agente de incident lê o alerta, correlaciona trace, aplica mitigação conhecida, documenta post-mortem. Humano vira supervisor.

PagerDuty · Opsgenie · Bot
07 · FinOps

Custo por feature antes do apply.

Infracost e OpenCost rodando. Right-sizing contínuo, savings plan sugerido, alerta de anomalia de consumo em tempo real.

Infracost · OpenCost · SP
08 · DR / Backup

Plano de DR testado, não prometido.

RPO/RTO acordados, snapshot cross-region, failover drill mensal automático. Relatório assinável pra auditoria.

Backup · DR · Drill
Antes · depois

Ticket que demorava três semanas. Hoje vira PR na mesma tarde.

Um exemplo real: provisionar um novo ambiente de staging multi-região com observability, WAF, backup e runbook ativo. Escopo pequeno pra infra tradicional, mas honesto no tempo que toma.

Fluxo tradicional · SRE manual

21 dias corridos.

Dia 1–3 · ticket aberto no Jira, fila do SRE, handoff de contexto
Dia 4–6 · discovery, desenho, aprovação arquitetural
Dia 7–11 · Terraform escrito à mão, revisão, ajuste
Dia 12–14 · aplicado em dev, bug de IAM, rebuild
Dia 15–18 · observability wireando manual, dashboards copiados
Dia 19–21 · runbook em markdown, handoff pra oncall
21 diasTicket → staging navegável
Fluxo Amazing · agente + humano

4 horas.

00:00–00:20 · brief estruturado entra no harness, agente reconhece padrão
00:20–01:10 · terraform plan + cost estimate + diagrama atualizados
01:10–01:25 · humano sênior revisa, aprova, comenta dois pontos
01:25–02:40 · apply multi-região, observability + WAF wireados automáticos
02:40–03:20 · drill de DR agendado, runbook publicado, oncall conectado
03:20–04:00 · PR fechado com SBOM, custo mensal anexo, docs em QMD
4 horasBrief → staging em produção
Stack que a gente opera

Cloud que você já usa. Sem religião, sem vendor-lock do nosso lado.

A Amazing é tool-agnostic. Se seu stack é AWS, a gente opera AWS. Se é GCP, GCP. Se é bare-metal isolado por compliance, é isolado. O agente aprende a convenção do seu ambiente e encaixa.

Incident · response autônomo

O alerta das 3h não acorda mais ninguém.

Agente de incident response lê o alerta, busca runbook relacionado, correlaciona com trace e deploy recente, aplica mitigação conhecida (rollback, scale-out, traffic shift) e abre o post-mortem pré-preenchido. Humano entra só quando o agente não sabe — e isso acontece menos a cada mês.

MTTR−76%
Alertas resolvidos sem humano63%
Oncall acordado−82%
Agende um diagnóstico · sem custo

Quer ver sua
stack sendo escrita
por agente?

30 minutos. A gente olha a sua infra atual — nuvem, kubernetes, pipeline, observability — e mostra onde agente entra primeiro. Sem promessa, sem fita mágica. Com Terraform rodando na sua frente.