O que mudou nas Skills 2.0 do Claude?

O criador de skills do Claude passou a testar a skill sozinho. Ele gera cenários realistas, roda a mesma tarefa com e sem a skill, compara os resultados num teste A/B e mostra qual versão ficou melhor. Antes você criava a skill e torcia pra ajudar; agora dá pra medir se ela ajuda de verdade antes de sair usando.

Como saber se uma skill está realmente ajudando?

Com o teste A/B automático das Skills 2.0. O Claude roda a tarefa com e sem a skill e dá uma nota pra cada versão segundo critérios de qualidade. No teste que fizemos na DobraLabs, a versão com skill tirou 92% contra 83% sem skill, uma diferença de 9 pontos a favor da skill.

Skills 2.0 do Claude: agora a própria IA testa se a sua skill funciona de verdade

Q: O que é uma skill do Claude?

Uma skill é um arquivo de instruções que ensina o Claude a fazer uma tarefa específica do seu dia a dia, como gerar um relatório, revisar um texto ou montar uma proposta no seu padrão. Em vez de explicar tudo de novo a cada conversa, você escreve uma vez e a IA passa a seguir aquele jeito.

A Anthropic lançou a versão 2.0 das Skills do Claude e a novidade que importa é simples: agora o próprio Claude testa a sua skill pra você. Ele cria cenários realistas, roda a mesma tarefa com e sem a skill, compara os dois resultados num teste A/B e mostra qual versão ficou melhor. Você para de torcer pra automação funcionar e passa a ter um número dizendo se ela ajuda de verdade.

Este post explica o que é uma skill, o que mudou nessa atualização e por que isso vira um controle de qualidade pras suas automações de IA. É a continuação de um tema que a gente já trata por aqui: o de skills que rodam trabalho de verdade dentro do Claude Code. Aqui o foco é outro, a capacidade de medir se a skill presta.

O que é uma skill do Claude

Uma skill é um arquivo de instruções que ensina o Claude a executar uma tarefa específica do seu trabalho, do jeito que você faz.

Em vez de reexplicar o contexto toda vez que abre uma conversa, você escreve uma vez como aquela tarefa deve ser feita e a IA passa a seguir. Pode ser gerar um relatório no seu formato, revisar um texto seguindo o seu guia de estilo, montar uma proposta no padrão da sua empresa. A skill é o jeito de transformar uma tarefa que você repete num procedimento que a IA reproduz com consistência, sem depender da sua memória de prompt.

O que mudou nas Skills 2.0

A mudança central é que o criador de skills do Claude agora testa a skill sozinho, sem você ter que montar nada.

Antes, você escrevia a skill e ficava no escuro: não dava pra saber se ela melhorava o resultado ou se era só uma camada a mais que não fazia diferença. Com as Skills 2.0, o Claude gera cenários de teste, executa a mesma tarefa nas duas versões (com a skill e sem a skill), avalia cada saída por critérios de qualidade e devolve um painel com o vencedor. É controle de qualidade automático pra IA que você usa no dia a dia.

Pra quem é mais técnico: o criador de skills passou a rodar um benchmark com sub-agentes em paralelo, gerando casos de teste e fazendo o A/B entre a versão sem skill e a versão com skill. Ele também otimiza a descrição da skill, o que melhora o disparo automático dela na hora certa.

92% contra 83%: o teste que fizemos

A gente colocou uma skill nossa pra rodar nesse teste novo pra ver como funcionava na prática. A versão com a skill tirou 92% e a versão sem skill tirou 83% nos critérios avaliados, uma diferença de 9 pontos a favor da skill.

O valor desse número não é o tamanho do ganho, é o fato de existir um número. Você deixa de discutir no achismo se a automação está ajudando e passa a ver, lado a lado, a nota das duas versões. É um teste A/B automático: você cria a skill, pede pra testar, a IA roda várias simulações em paralelo e mostra quem ganhou.

E se a skill não passar no teste?

Melhor descobrir agora do que depois de três meses confiando numa automação que não fazia diferença.

Esse é o ponto menos óbvio e mais útil da atualização. Uma skill que não bate a versão sem skill é uma skill que está te dando trabalho de manutenção sem entregar resultado. O teste expõe isso de cara, antes de você embarcar a automação no seu fluxo. Em vez de acumular skills por acumular, você fica só com as que comprovadamente melhoram a saída.

A lógica, no fundo, é a mesma que aparece em como a Anthropic tirou a própria IA de 21% para 95% de acerto: IA boa não é só modelo melhor, é contexto bem montado e testado. As Skills 2.0 trazem essa cultura de avaliação (os famosos evals) pra dentro de uma ferramenta que qualquer pessoa usa, sem precisar montar a infraestrutura de teste na mão.

O que isso muda no seu trabalho

Se você já usa o Claude no dia a dia, vale criar skills pras tarefas que mais repete e, agora, testá-las antes de confiar nelas.

O caminho prático é direto: identifique as tarefas que você faz toda semana, transforme cada uma numa skill e rode o teste pra confirmar que ela melhora o resultado. Se você já tinha skills criadas antes dessa atualização, dá pra voltar nelas e descobrir quais estão realmente puxando o resultado pra cima e quais eram só placebo. É a diferença entre acreditar que a sua IA está ajudando e ter como provar.

Tema do episódio 7 do Ratos de IA, nossa curadoria semanal de inteligência artificial, publicado originalmente como carrossel no Instagram @ratosdeia. Fonte original: anúncio das Agent Skills da Anthropic.