41. Avaliação de modelos generativos
Você mede qualidade de texto, imagem e resposta aberta com testes automáticos, revisão humana e conjuntos de casos difíceis. O foco é detectar alucinação, toxicidade, regressão e falhas que métricas simples não pegam.