Situando LLMs para Criativos: Filosofia, Fluxos de Trabalho e Economia Política

O que os LLMs fazem bem, o que ainda não conseguem fazer e por que a diferença é importante

Anteriormente intitulado: “Como os criativos devem realmente usar a ‘IA’”

Um blog sobre esse assunto está atrasado, em grande parte porque tenho medo da ideia de abordá-lo.

IA generativa, LLMs e seus resultados são extremamente controversos no momento, especialmente nos círculos criativos. Até agora, o custo/benefício de compartilhar meus pensamentos sobre o assunto me manteve quieto enquanto eu pesava quaisquer pontos novos que eu pudesse fazer contra irritar qualquer um dos dois campos altamente eloquentes do tópico.

O que mudou o suficiente para merecer um artigo agora é que, depois de tentar lentamente incorporar grandes modelos de linguagem em meu fluxo de trabalho criativo, fiquei muito confiante em minha capacidade de explicar em primeira mão no que eles são excepcionalmente bons e no que eles são absolutamente péssimos.

Esse é o foco da edição de hoje: vou dar uma visão geral de como acho que os criativos podem usar razoavelmente a tecnologia LLM, onde a IA generativa pertence, se é que pertence, a um fluxo de trabalho criativo, e alertar contra usos comuns que acredito que prejudicam mais do que ajudam.

Minha rápida boa-fé:

Para qualquer criativo irritado que esteja lendo isso, trabalhei em produção por cerca de uma década, ou mais se você contar a filmagem e a edição de vídeos no ensino médio. Fui um humilde PA, fui gerente de uma equipe digital, fui produtor executivo sênior de um departamento de criação e tive vários projetos pessoais, me envolvendo em tudo, desde jazz até pintura a dedo. Também não sou chefe de departamento, mas leio melhor sobre filosofia da mente e economia política do que um CMO comum, e apostaria minha vida nisso. Portanto, não venha buscar minhas credenciais.

Para qualquer pessoa que possa duvidar da minha capacidade de falar com conhecimento sobre o assunto de grandes modelos de linguagem, saiba que estudei no programa de mestrado em Tecnologias Sociais da ASU, trabalhei por vários anos como analista de dados freelancer e atualmente estou a cerca de 90% do caminho para obter um bacharelado em Ciência da Computação com o propósito expresso de fazer com que você pare de digitar qualquer mensagem que possa ter começado antes deste parágrafo começar. Portanto, não venha buscar minhas credenciais.

Com isso resolvido, vamos ao que interessa.

Por que “IA” não é IA

Uma coisa que muitas vezes considero preocupante neste tópico é que as vozes mais altas tendem a ser as mais mal informadas sobre como a tecnologia funciona. O que eu gostaria de fazer antes de prosseguir é nos colocar em uma base sólida, descrevendo, em termos simples, o que os LLMs estão fazendo nos bastidores, porque para o olho destreinado, isso pode parecer mágica. Se assumirmos que esta tecnologia é mágica, então as nossas críticas à tecnologia também se tornam mágicas, isto é, fantasmáticas.

Aqueles que se contentam em assumir que esta tecnologia é uma espécie de magia, por falta de uma palavra melhor, não deveriam ser totalmente culpados por acreditarem nisso. Só as campanhas de marketing para estas tecnologias representam uma indústria multibilionária. Embora haja motivos para dizer que os métodos GPT subjacentes aos modelos modernos de grandes linguagens representam um salto qualitativo significativo na sofisticação da computação, é impossível separá-los do gênero mais amplo de modelos de aprendizado de máquina, e seria sensato manter isso em mente.

Para desiludi-lo da forma mais clara e rápida possível, acho que é útil pensar na tecnologia LLM como um preditor altamente sofisticado da próxima palavra. As palavras são divididas em unidades de subpalavras ou fragmentos chamados “tokens”. Os sistemas modernos no estilo GPT são treinados primeiro para prever o próximo token em uma sequência e depois pós-treinados com feedback adicional e métodos de alinhamento para que seus resultados sejam mais consistentes, seguros e legíveis para os humanos.

ChatGPT não é um computador “conversando” com você no sentido humano. É um servidor que calcula a solução para uma equação matemática onde x é a sua entrada e y é a sua resposta. A referida “equação” é um determinado modelo. Tal como na álgebra, as soluções “corretas” para esta equação existem num intervalo. À medida que a equação é refinada, esse intervalo diminui.

Esses ajustes para obter melhorias incrementais em direção a previsões mais precisas e confiáveis é o princípio central do aprendizado de máquina. Embora possa parecer estranho, está muito mais perto de você do que você imagina.

Quando você usa a ferramenta laço magnético no Photoshop e o software “decide” onde colocar seus marcadores de seleção enquanto você os arrasta ao longo de uma foto, isso é aprendizado de máquina. Quando você clica no botão de ajuste automático na biblioteca de fotos do seu telefone e ele ajusta o brilho e o contraste da sua foto, isso é aprendizado de máquina. Quando você acessa seu site favorito e busca inspiração artística, você fica à mercê do aprendizado de máquina. Ao criar seu site para ser otimizado para SEO, você o otimiza para os modelos de aprendizado de máquina de outra pessoa.

Acho que a maioria das pessoas tem vaga consciência de que as recomendações da Netflix ou os anúncios do Instagram que parecem saber o que querem antes de quererem são baseados em aprendizado de máquina. O que as pessoas talvez não saibam é que seu telefone usa aprendizado de máquina para prolongar a vida útil da bateria, carregando até 100% apenas quando achar que você precisa, sugerindo aplicativos para abrir com base na hora e na sua localização e, claro, para sugerir a palavra que você realmente quis digitar é “pato”.

O aprendizado de máquina está no seu carro, nos mísseis, nos brinquedos das crianças. É o que indica que existe uma rota diferente que é 3 minutos mais rápida. É o que permite que um bot atire em você em todo o mapa. Ele pode agrupar seus clientes em segmentos. Ele pode dizer se haverá seca neste verão.

O aprendizado de máquina está em toda parte, e a maioria das pessoas nem sabe que ele existe. É tão onipresente que, mesmo que você, por algum motivo, tenha um problema com ele, não há muito que se mudar para a Antártica que você possa fazer para escapar dele. Embora eu ache que eles também têm algumas estações de pesquisa lá…

Penso muito sobre esse aspecto do aprendizado de máquina. A vida inteira de algumas pessoas é moldada por isso, e elas nem sabem nada sobre isso.

O Google anunciou recentemente a adição de um recurso “Ask Maps” ao Google Maps, e espero que ele seja amplamente criticado pelos críticos do LLM, apesar do fato de que a tecnologia na qual ele foi construído não representa um afastamento significativo dos algoritmos de aprendizado de máquina que determinam as rotas ideais no Google Maps para começar.

Quando um modelo generativo produz uma frase ou imagem, ele está, em todos os sentidos básicos, realizando uma espécie de aprendizado de máquina. Alguns sistemas são autoregressivos, alguns são baseados em difusão, alguns sistemas multimodais mais recentes confundem essa linha, mas não importa o método específico, estes sistemas recebem entradas digitais, passam-nas através de estruturas estatísticas aprendidas e devolvem saídas digitais. Não importa a forma que os tokens assumam, as relações entre eles estão sendo otimizadas.

O artista digital trabalha de forma semelhante, refinando padrões de pixels, otimizando para um determinado resultado, aprendendo e melhorando à medida que avançam. A diferença crucial é que o artista digital é movido pelo que pode ser chamado de “paixão”, tanto quanto pode ser chamado de desespero, mas seja qual for o nome, não pode ser chamado de algorítmico.

É por isso que coloco “IA” entre aspas. Um algoritmo não é inteligente no mesmo sentido que um ser humano. Da mesma forma que um papagaio e uma estrela pop podem cantar, você nunca chamaria um pássaro de cantor. Um é um fenômeno complexo, o outro é uma imitação muito mais simples. A inteligência humana é notoriamente difícil de quantificar (o QI não vale nada e morrerei nesta colina), então sim, um programa é artificial, mas chamá-lo de uma representação da inteligência, como normalmente a entendemos, é um exagero.

Mas estou divagando.

Portanto, a tecnologia LLM não é mágica nem inerentemente maliciosa, assim como não é “inteligente” ou inerentemente inútil. É simplesmente um avanço não trivial na previsão computacional. Ainda assim, se você é um criativo anti-IA, sugiro que seja cuidadoso e rigoroso com suas críticas à tecnologia LLM. Na verdade, há críticas válidas a serem feitas. No entanto, se você condenar a tecnologia no atacado, provavelmente estará condenando porções significativas da tecnologia da qual você se beneficiou em sua carreira.

O que a IA (ainda) não consegue fazer

De cara, tenho que dizer RIP para Hubert Dreyfus, um dos maiores filósofos da tecnologia que já existiu. O título desta seção é uma brincadeira com o título de sua obra-prima, What Computers Still Can’t Do, publicado em 1992 e baseado em seu anterior What Computers Can’t Do de 1972, um livro que qualquer pessoa, mesmo passivamente interessada em tecnologia, deveria ler.

Agora, acredito que a tecnologia LLM existe em um lado de um horizonte de eventos na criatividade humana que não tem como cruzar. Dado que estes modelos são sistemas matemáticos e não mágicos, existem dimensões da mentalidade humana que não partilham na sua estrutura actual. Esta também não é uma observação nova; pertence a uma longa linha de críticas feitas contra relatos simbólicos e computacionais da mente desde as primeiras décadas da IA.

Sem o jargão filosófico, minha posição é que os modelos de aprendizado de máquina não geram novidade de uma forma que se aplique à maioria das práticas criativas. Eles podem recombinar, extrapolar e interpolar, e podem fazer tudo isso de maneira bastante impressionante. Mas quando a mente humana cria algo, ela faz mais do que combinar formas encontradas anteriormente em uma nova média.

Eu desprezo a teoria computacional da mente, mas, colocando isso em termos computacionais, a mente humana existe inteiramente em um mundo de dados qualitativos e ultradesestruturados. Nem mesmo no sentido de que um sensor defeituoso pode fornecer dados ruidosos, porque mesmo isso seria “estruturado” no sentido de que se você estiver vendo a amplitude da leitura de um sensor, com ruído ou não, então esses dados estão estruturados o suficiente para o computador analisá-los quantitativamente.

Não, a mente humana toma como entrada “qualia”, uma palavra da filosofia da mente usada para descrever os dados da experiência sensorial qualitativa. Para ilustrar melhor, gostaria que você imaginasse por um momento como descreveria a cor vermelha para uma forma de vida alienígena que não tinha ideia do que era. Se você tivesse uma mentalidade científica, poderia descrever o vermelho como uma faixa de frequências no espectro de luz visível. Contudo, o “vermelho” que você vê em sua mente não é uma frequência; é uma sensação, uma memória, um sentimento. Um poeta poderia ter mais sorte ao explicar o vermelho a um alienígena. Nenhuma quantidade de leituras de sensores ou observações científicas pode dizer como é experimentar o “vermelho” como um ser consciente no mundo. Essa essência indescritível da experiência humana são os qualia, o pincel com que toda a arte pinta; totalmente invisível para um computador.

Qualia são precisamente os dados que a mente humana é capaz de analisar e sintetizar na incrível variedade de linguística, semiótica, arte, matemática e assim por diante que compõem toda a experiência humana consciente. Mesmo ao realizar uma ação quantitativa como aritmética, parece algo ser um humano fazendo aritmética. Isso é exatamente o que falta aos LLMs. Eles podem tentar fazer engenharia reversa e imitar a forma que os humanos descrevem a experiência do “vermelho” on-line, mas nunca conhecerão as qualia do vermelho. Uma foto da cor vermelha, para um LLM, é simplesmente os valores hexadecimais, as localizações e dimensões dos pixels e uma série de tokens relacionados que ela usa para indicar uma boa saída, visto que essas entradas seriam “Vermelho”.

O filósofo da mente Thomas Nagel, em seu livro What Is It Like to Be a Bat? (1974) teoriza que o que significa ser um ser consciente é ser o tipo de coisa sobre a qual se pode presumir que é como algo ser essa coisa. A pergunta “Como é ser um computador?” ou “Como é ser ChatGPT?” é como perguntar “Como é ser uma rocha?” ou “Como é ser uma equação matemática?” É um erro de categoria; a pergunta está sendo feita sobre algo a que não poderia se aplicar.

Portanto, acredito que as tarefas criativas serão, em média, melhor executadas quando dirigidas principalmente pela mente humana. Eu tomo isso como um axioma. Minha suspeita é que, apesar do que “o mercado” possa dizer a qualquer momento, a maioria das pessoas sentirá uma queda repentina e profunda no valor percebido de uma determinada obra de arte digital no momento em que descobrirem que ela foi principalmente o resultado de uma fórmula matemática e não de uma mente humana, mesmo que uma mente humana tenha dirigido essa fórmula.

Existem razões e implicações econômicas para isso, mas vou guardá-las para uma seção posterior.

Se você é um criativo profissional no início de sua carreira, aqui está uma ideia que pode ser útil para você: um computador é muito melhor do que você para desenhar linhas retas, e é exatamente isso que torna seus esforços criativos mais interessantes.

Quando você se senta para debater ideias, mesmo sozinho, sua mente fica inundada de experiências que você está relembrando e de metas para as quais você está adaptando essas ideias. Há um pensamento ou sentimento que você gostaria de transmitir, e você está mergulhando no domínio qualitativo da semiótica quando pensa nas melhores maneiras de representar simbolicamente esses pensamentos e sentimentos. Esse processo é tão diferente e mais complexo do que um computador faz para completar a mesma tarefa que faço uma careta ao mencionar as duas coisas juntas na mesma frase.

Um computador fundamentalmente não pode trazer o “novo” para a realidade da mesma forma que a mente humana é capaz. Para um computador, até a aleatoriedade é determinística, limitada por um sistema de regras. A mente humana, por outro lado, é quase inteiramente indeterminista (embora a tarefa de rastrear as ações até as suas origens seja mais difícil a partir do interior do que do exterior do cérebro). Quando você tem uma ideia, você mesmo geralmente não consegue rastrear suas origens. Mesmo com meditação cuidadosa ou anos de terapia, as origens dos pensamentos, sentimentos e neuroses que parecem inerentes à sua própria natureza permanecem fora do alcance analítico.

Esta é a verdadeira superpotência humana, mesmo que muitas vezes seja retratada como uma fraqueza.

É o obstinado Capitão Kirk, confiando em “seu instinto”, que é capaz de prever o curso de ação correto, embora isso evite o calculista e lógico Spock. A intuição humana é a manifestação corporal das memórias materialmente determinadas e inconscientemente estruturadas de tudo o que você viu e experimentou, mesmo que não consiga recordar essas experiências conscientemente. Para um computador, não existe intuição, não existe mente inconsciente (ou consciente), existem apenas entradas, saídas e os algoritmos intermediários. A coisa mais próxima de uma mente inconsciente que um computador pode ter é a “caixa preta” de um modelo de aprendizagem não supervisionado, complexo demais para ser compreendido por um ser humano.

Um desenho imperfeito, feito por um ser humano, é uma fonte quase infinita de especulação artística. Um desenho “perfeito”, reproduzido por um computador, é uma fonte de especulação artística apenas através dos atributos que foram dirigidos por uma mente humana, por exemplo, o prompt de entrada ou o procedimento matemático sobre o qual é construído, ou através dos impactos que pode ter na mente humana ou no trabalho humano que foi necessário para construí-lo. É apenas no contexto da ordem simbólica humana que um computador tem algum significado.

Quando você pede sugestões ou ideias a um computador para um determinado empreendimento artístico, ele extrai, probabilisticamente, dos dados e estruturas nos quais foi treinado. As respostas que ele fornece, na ausência de informações adicionais, tenderão a uma média estatística das entradas com as quais está trabalhando.

Você, como ser humano, tem um campo de visão muito mais amplo do que o computador porque você existe tanto no mundo qualitativo quanto no quantitativo, enquanto o computador existe apenas no mundo quantitativo. Você, como ser social no mundo, também tem um campo de visão muito mais amplo quando se trata de tendências e padrões, em grande parte devido à sua capacidade de extrair informações de conversas do mundo real, em vez de apenas o que foi escrito on-line.

Como qualquer analista de dados que se preze lhe dirá, você não pode deixar os dados falarem por si; ela mentirá. A hermenêutica da estatística percorre, grosso modo, o seguinte ciclo: projeto do mecanismo de coleta, coleta, observação, interpretação, cálculo, interpretação, entrega, interpretação. Isso quer dizer que os números nunca são apenas números. Os números são representações simbólicas simplificadas de atributos do mundo real. Eles precisam ser descompactados pela pessoa que está interpretando o que os números significam e abstraídos novamente se essas interpretações forem visualizadas.

Por exemplo, se eu disser que a previsão indica 20% de precipitação hoje, o que isso significa para você? Qual é a sensação de uma chance de 20%? Parece diferente de uma chance de 50%? Como devo me sentir em relação a essa informação? A própria informação me diz como devo agir em relação a ela? Devo levar 20% de um guarda-chuva?

Na verdade, os números não contêm informações qualitativas em si. É somente através da interpretação humana que eles recebem significado. Mesmo algo tão simples como 2 + 2 = 4 assume novas complexidades quando aplicado a observações reais do mundo. Qual mecanismo exato impede que cada 2 seja 1? É este o mesmo mecanismo que impede a combinação de dois 2 resultando num único 2? Se cada 2 é uma coleção de 1s, em que consistem os 1s? etc.

É por isso que você não deve aceitar as sugestões criativas de um LLM pelo valor nominal. Na maioria das vezes, eles serão a opinião média do que centenas de milhares de usuários da Internet considerariam “criativo”, ou seja, a menos que você seja o CEO do Reddit, provavelmente não será seu público-alvo.

Na minha opinião, então, um ser humano tem três vantagens principais sobre um grande modelo de linguagem: criatividade inovadora, identificação de macropadrões e criação de estratégias prescritivas.

Entenda isso. Internalize-os. Entenda como essas facetas contribuem para o que você faz. Então nunca deixe um computador fazer essas coisas por você.

Se você precisa de uma parede para lançar ideias e ver o que funciona, um LLM pode ajudá-lo com isso, mas é imperativo que você não pare por aí. Aplique sua própria perspectiva e gosto, aprimore ainda mais as ideias e você aumentará o valor percebido que elas têm para um intérprete humano. Se você está pedindo a um LLM que forneça tendências ou previsões com base em dados, entenda que suas previsões nunca ficarão fora do intervalo dos dados de entrada. Ele nunca pode explicar o que não vê. Só você pode fazer isso. Só você pode ver as maneiras pelas quais esses padrões se conectam e se sobrepõem fora dos dados atuais: os “macropadrões”.

Finalmente, depois de aprimorar sua ideia ou identificar um macropadrão e se perguntar: “O que isso significa para o futuro?”, essa ainda é uma tarefa que é melhor deixar principalmente para você. Você vive no mundo. O computador não. As decisões e ações humanas impactam sua vida subjetiva, algo que o computador não possui e não pode compreender.

Essa é a conclusão principal desta seção, se não de todo o artigo: se você estiver trabalhando com sistemas computacionais, precisará insistir diligente e deliberadamente em sua humanidade ao interpretar e agir de acordo com seus resultados.

**O que a IA (ainda) pode fazer muito bem**

Agora, para dar o devido crédito ao diabo baseado em silício, com poucas exceções, os computadores são melhores que os humanos em tarefas algorítmicas. Sem entrar nas ervas daninhas da ciência da computação, se uma tarefa tiver instruções muito explícitas sobre como deve ser concluída, um computador será extraordinariamente rápido, mais rápido do que a maioria esperaria, para concluí-la.

Por exemplo, no dispositivo em que você está lendo isto, a cada segundo, o computador faz uma série de passagens em cada pixel da tela para verificar se o valor RGB ou o brilho precisam ser atualizados. Essa passagem acontece 30 vezes por segundo em computadores antigos e mais de 60 vezes por segundo em computadores mais modernos. Embora até 60 Hz para um computador seja incrivelmente lento.

Cada janela de cada aplicativo que você usa retorna a si mesma tão rápido quanto seu processador permite, mais de milhares de vezes por segundo, verificando se há alguma parte do programa que precisa ser calculada ou atualizada. Isso é feito além das dezenas de milhares de cálculos adicionais que acontecem simultaneamente nos bastidores a qualquer momento.

Aqui está um experimento que acabei de fazer. Eu escrevi um script Python que pede ao computador para contar até 20.000.000 e, para cada número no caminho, ele deve elevar esse número ao quadrado, dividir esse número por 123, adicionar o restante dessa divisão a um total e retornar o total quando terminar. No meu MacBook Pro M4, a operação demorou 1.274 segundos. No meu iPhone 16 Pro, demorou apenas 1,45 segundos. São 20 milhões cálculos, não apenas contagem de números, em menos tempo do que leva para terminar de ler esta frase, e Python é uma linguagem de programação excepcionalmente lenta.

Como isso é possível? Numa única frase: Pessoas muito inteligentes têm trabalhado durante muito tempo para tornar as máquinas de resolução de problemas muito rápidas.

Uma tarefa “programática” é qualquer tarefa que pode ser dividida em etapas algorítmicas. Com apenas alguns tipos de “portões”, ou dispositivos físicos que controlam o fluxo de eletricidade através deles, uma máquina pode ser transformada em “Turing-completo”, o que significa que pode realizar qualquer cálculo com tempo suficiente e instruções corretas. Contanto que objetos e métodos do mundo real possam ser abstraídos em símbolos, esses símbolos podem ser manipulados programaticamente.

Ok, mas por que tudo isso importa?

Boa pergunta, eu.

É importante porque significa que qualquer tarefa que você possa dividir em um conjunto de instruções simples pode ser resolvida, extremamente rápido, por um computador. Com o novo LLM e a tecnologia de agente de codificação, a linguagem humana natural pode ser traduzida 1:1 em código de máquina executável.

Funcionalmente, não há mais uma lacuna entre o que você pode dizer e o que você pode instruir um computador a fazer.

Por exemplo, como analista iniciante, aprendi Python para analisar, analisar e modelar dados. Eu poderia ter feito isso manualmente? Na maioria dos casos, sim, foi para isso que a estatística foi originalmente inventada, mas levaria, em alguns casos, anos para realizar o que o computador conseguia em apenas alguns segundos (mais rápido se eu tivesse usado uma linguagem compilada como C++). O tempo real para fazer um computador fazer o que você deseja sempre foi acertar as instruções e a sintaxe. A execução é a parte fácil! Mesmo depois de pensar no que você deseja que o computador faça, detalhando-o passo a passo e antecipando cada bug em potencial, se você não usar a gramática correta – digamos que você use uma vírgula onde o computador espera um ponto e vírgula – seu programa não será executado.

A capacidade de traduzir algo tão qualitativo como uma frase em inglês em código de computador executável representa um avanço na tecnologia que não pode ser exagerado.

Se você é criativo e chegou até aqui, provavelmente está curioso, mas ainda pode haver uma voz em sua cabeça dizendo que esta seção não se aplica a você. Na minha experiência, isso provavelmente ocorre porque você vê o computador como uma ferramenta que só pode ser usada pelos programadores em todo o seu potencial. Se você for como eu, ficará satisfeito em usar o software que outras pessoas fazem para você.

Estou aqui para dizer que essa mentalidade é semelhante a alugar um martelo para facilitar suas tarefas diárias, trabalhando em uma máquina de fazer martelos.

Obviamente, haverá exceções (se você tentar fazer seu próprio Photoshop, boa sorte para você. Deixe-me saber se você tiver algum sucesso e eu serei seu primeiro cliente), mas provavelmente há coisas em seu trabalho que uma abordagem algorítmica desbloquearia mais do seu tempo e criatividade; sem falar na economia de dinheiro em assinaturas de software.

Para lhe dar uma ideia das possibilidades, se alguma parte do seu trabalho toca em métricas, parabéns, agora você é um analista júnior. Não deixe toda a diversão para o departamento de vendas. Cada plataforma social permite que você baixe arquivos Excel ou CSV contendo todo tipo de métrica que você possa imaginar. Mesmo que eles não permitam que você baixe os dados de forma limpa, você pode selecionar tudo, copiar e colar páginas inteiras em um LLM, basta dizer “Limpar” e você receberá um arquivo Excel ou CSV! Este é um dos lugares onde o uso de “IA” para criativos tem o potencial de eliminar horas de trabalho tedioso ou desbloquear novos conjuntos de habilidades.

O que poderia ter levado uma tarde inteira para limpar, carregar e transformar, e muito menos realizar a parte real da análise exploratória de dados, há quatro anos, agora leva cerca de 60 segundos. Copio e colo o HTML renderizado (não o bruto) de uma página da web e simplesmente digo: “Estruture isso, calcule as pontuações z para encontrar valores discrepantes e execute uma análise de correlação”. Depois, deixei o computador fazer coisas como matemática, permitindo-me fazer coisas humanas como edição.

Se você é um criativo digital, insisto que isso se de fato se aplica a você.

Se você trabalha em um computador, então você está trabalhando com arquivos. Trabalhar com arquivos traz todos os tipos de dores de cabeça quando se trata de transferência, formatação, convenções de nomenclatura, organização do espaço de trabalho digital e assim por diante. Este é um ponto de entrada perfeito para automação. Qualquer tarefa que você realiza regularmente pode ser automatizada. Depois de entrar nessa mentalidade, você desbloqueará um mundo totalmente novo de ideias de produtividade. Os LLMs podem ajudá-lo a colocar essas ideias em prática, embora eu sugira ir devagar no início. Você está convertendo ou redimensionando arquivos manualmente? Você pode criar um script que reformate automaticamente qualquer arquivo colocado em uma pasta; sua única limitação é sua capacidade de descrever o que deseja. Quer que essa pasta também seja carregada no seu Google Drive? Existe uma API para isso; tudo o que você precisa fazer é solicitar as etapas de configuração.

Se você é um criativo, provavelmente pesquisa bastante no Google. A capacidade dos LLMs de pesquisar na web e resumir os resultados pode ser extremamente eficaz se você entender exatamente como eles fazem isso. Os LLMs são excepcionalmente bons para resumir grandes quantidades de texto de forma inteligível. O resumo será suficiente para torná-lo um especialista no assunto em questão? Não, mas você raramente precisa estar presente nas tarefas do dia a dia e, além disso, esse não é o objetivo de um resumo. Um assunto que levaria 30 minutos para pesquisar adequadamente no Google, analisar os resultados e ler até entender agora, leva menos de um minuto.

Em minha carreira, produzi conteúdo para diversos setores dos quais não tinha a menor ideia. Vendas de equipamentos médicos, organizações sem fins lucrativos de saúde infantil, apostas esportivas online, meu único ponto de entrada para esse mundo eram as informações que eu poderia obter de meus clientes e o que poderia pesquisar no Google. Com os LLMs, não há assunto sobre o qual eu não possa imediatamente receber informações suficientes para discutir suficientemente, mesmo com um especialista de verdade.

Observe que o que estou fazendo não é perguntar ao LLM como falar com os especialistas. Estou pedindo ajuda para me educar. Essa é uma parte crucial, acho que muitas pessoas erram.

Se você estiver pesquisando dobras complexas de cadeias de proteínas para seu trabalho como bioquímico, eu não deixaria a pesquisa inteiramente para o LLM. No entanto, se você é um simples profissional de marketing como eu e deseja saber as últimas novidades no mundo dos pára-choques de borracha para carrinhos de bebê, tudo o que você precisa fazer é perguntar, e o LLM pode realizar sua pesquisa no Google de 50 maneiras diferentes e resumir os resultados no mesmo tempo que você levaria para encontrar o artigo certo da Wikipedia.

Eu poderia continuar assim, mas você entendeu. Fique de olho em tudo o que você faz repetidamente. Sempre escrevendo o mesmo relatório? Sempre aplicando a mesma correção de cor ou marca d’água? Sempre fazendo upload ou download de arquivos do mesmo lugar?

A melhor e mais nova linguagem de codificação de computador é qualquer idioma que você fale. Se você é um criativo digital e faz a maior parte do seu trabalho em um DISPOSITIVO DE CONCLUSÃO DE TAREFAS, você deve deixá-lo concluir algumas tarefas para você. Tudo que você precisa fazer é pedir.

Quanto mais você deixar o computador ser um computador, mais tempo você terá para ser um humano. Claro, isso também depende de você impedir o computador de fazer coisas humanas.

Desleixo ou não? A economia política da “IA”

Agora, o elefante na sala: resultados audiovisuais generativos de IA.

Vou manter esta seção breve e bombástica.

Muito do que a IA generativa produz hoje é ridicularizado como lixo e, na maioria dos casos, essa é uma avaliação justa. No entanto, descobri que aqueles que usam este termo muitas vezes revelam uma falta de compreensão da tecnologia que criticam atualmente. Freqüentemente, essas críticas parecem hipócritas porque, muito provavelmente, os críticos já estão, sem saber, se beneficiando dessa tecnologia de uma forma ou de outra.

Fiz um grande esforço para tentar entender o ódio instintivo que os criativos demonstram pelos LLMs. Esta é minha estimativa até agora.

Conforme descrito anteriormente, grande parte da funcionalidade das ferramentas criativas digitais depende de uma forma ou de outra de aprendizado de máquina. Portanto, não suspeito que seja daí que vem a verdadeira repulsa.

Alguns críticos localizam o problema no próprio processo de treinamento, por exemplo, na extração não autorizada de material on-line protegido por direitos autorais para treinar sistemas generativos. Essa é uma crítica mais séria, com algum peso econômico e jurídico real, mas é estranho ouvir partes da classe de artesãos digitais defendendo regimes mais fortes de cercamento e controle intelectual, como se a criatividade sempre se desenvolvesse no vácuo.

Eu venho da era dos torrents e do compartilhamento de arquivos e da informação querendo ser livre. Quase todos os softwares com os quais aprendi minhas habilidades, quase todas as músicas ou filmes que amei quando adolescente e que inspiraram minha carreira, eu roubei, pura e simplesmente. Eventualmente, paguei a esses artistas e empresas quando tive uma renda, mas nunca esqueci minhas raízes e me recuso a me tornar um defensor da propriedade intelectual em abstrato, sabendo o que faço sobre como as ideias são emprestadas, metabolizadas e melhoradas por artistas e cientistas.

Há também a questão filosófica muito mais profunda do que constitui arte em primeiro lugar. Perdoe-me, mas não acho que o designer gráfico médio tenha resolvido isso ainda. Uma obra de arte criada por um humano pode ser “desleixada”? Como mencionei antes, os algoritmos que permitem a tecnologia LLM constituem arte? Uma equação matemática pode ser arte? É possível produzir arte?

Além disso, se um criativo moderno é alguém que produz mercadorias digitais com seu trabalho (muitas vezes em linha de montagem), para serem rapidamente consumidas e esquecidas nas redes sociais, o que ele produz constitui automaticamente arte? O conteúdo de marca existe no mesmo nível artístico que, digamos, a Mona Lisa? Sei que esta é provavelmente a coisa mais dura que já disse em um desses artigos, mas conheço em primeira mão a sensação arrasadora de conceber o que você acha que é uma ideia genuinamente boa e artística, apenas para ter essa ideia raspada e agrupada em foco, à prova de crianças e confirmada de acordo com as “diretrizes da marca”, até que comece a parecer lixo, até mesmo para você.

Não estou dizendo que os vídeos ou imagens produzidos pela Gen-AI pareçam particularmente bons. Só estou dizendo que há mais nuances aqui do que o discurso muitas vezes permite. Tipo, e se eu desenhar uma animação no After Effects 99% à mão, mas usar Gen-AI para fazer o fundo? Toda a animação fica desleixada? E se eu projetar 100% da animação, mas usar um LLM para me ajudar a escrever o código para a facilitação do movimento? A coisa toda fica desleixada ou apenas a maneira como ela se move? E se eu treinar meu próprio modelo com meus próprios designs? A maneira como o algoritmo ingere minhas criações as torna desleixadas? E se eu treinar esse mesmo modelo estritamente em mídia de domínio público?

Muitos criativos estão chateados porque as empresas de LLM retiraram sua arte da Internet para usá-la no treinamento de seus modelos, mas aparentemente não tiveram problemas em fornecer essa mesma arte gratuitamente às plataformas online. Eu sei que as pessoas não leem as letras miúdas dos ToS, mas vamos lá, pensei que todos nós entendemos que quando você carrega algo no Instagram ou diz algo no Reddit, você está fazendo o produto para elas e dando-o de graça.

Isso sem mencionar que o modelo LLM não contém nada. Ele possui apenas os restos e relações simbólicas das coisas nas quais foi treinado. É como se um ladrão invadisse uma livraria e ensinasse todo o conhecimento contido em cada livro a uma criança que trouxe consigo e depois fosse embora. Sim, o ladrão invadiu e entrou, mas nada foi realmente roubado. Pela lógica usada por muitos criativos anti-IA, o que a polícia deveria fazer nesta situação é confiscar o conhecimento dentro do cérebro da criança.

O que quero dizer aqui é que o desdém que os criativos sentem pela IA é melhor enquadrado como uma crítica económica do que estética. Por exemplo, quando uma pequena empresa se industrializa e despede o seu pessoal porque a sua produção aumenta e tem menos necessidade de mão-de-obra, as pessoas ficam chateadas, com razão, mas ninguém chama as pessoas que operam o equipamento da fábrica de “engenheiros de resíduos”.

O maior perigo da tecnologia LLM é que ela está aumentando a taxa de produção e diminuindo o tempo de trabalho socialmente necessário para o que tem sido tradicionalmente um ofício artesanal. Os criativos digitais estão a ser vítimas da industrialização de uma forma que deveria parecer familiar para qualquer pessoa que tenha prestado atenção à história do trabalho. É doloroso e perturbador, e com razão, mas também faz parte de uma história que vem acontecendo desde a invenção da Spinning Jenny.

A história dá-nos muito poucas razões para acreditar que uma tecnologia amplamente adoptada e que poupa mão-de-obra, uma vez economicamente viável, será abandonada em massa simplesmente porque é perturbadora. Eu não apostaria que a IA generativa seria a exceção.

“Computador” costumava ser um trabalho, não um dispositivo. A invenção do computador deixou muitos “computadores” fora de serviço, mas muitos também se adaptaram. A diferença é que os “computadores” que se levantaram foram aqueles que se esforçaram para dominar a nova tecnologia, aproveitando o conhecimento existente para realizar o trabalho melhor do que um leigo usando o mesmo dispositivo poderia.

Sim, com a IA generativa, muitos não-criativos tentarão competir por empregos tradicionalmente reservados para criativos. Mas dê as mesmas ferramentas a um criativo e a um não criativo, e a pessoa com experiência de trabalho criativa ainda fará um trabalho melhor. Porque a mente humana é excelente na síntese de qualia esparsos, na transmissão de sentimentos através de narrativas e na observação de como o seu trabalho se enquadra no quadro mais amplo. Nenhuma ferramenta pode melhorar essas habilidades sociais, mas a ferramenta certa, quando adotada, pode tornar essas habilidades sociais muito mais eficientes e seu desempenho mais produtivo.

Você é uma pessoa; você deve usar ferramentas, não ser uma.

Fluxos de trabalho de agente para criativos

Você comeu seus vegetais, agora, sobremesa.

O assunto mais falado recentemente tem sido “a morte do SaaS”, ou software como serviço; basicamente, qualquer empresa que exija que você pague uma assinatura para usar um software em seu computador. Nas últimas décadas, esta indústria cresceu e se tornou uma indústria colossal responsável pela construção de muitos dos arranha-céus na maior cidade mais próxima de você!

Quando li pela primeira vez a afirmação de que a mais nova geração de agentes LLM estava inaugurando o fim do SaaS, lembrei-me do tamanho de alguns desses edifícios e isso me fez pensar. No entanto, depois de passar um tempo com ferramentas de agência mais recentes e finalmente pegar o jeito do Codex da OpenAI, eu concordo. Não só acho que o SaaS está seguindo o caminho do Dodô, mas também estou pronto para vestir o capuz do carrasco.

O ímpeto para este artigo em particular, embora eu tenha adiado deliberadamente a escrita sobre esse assunto durante anos, foi a repentina percepção de que a maior parte do software que pago para executar no meu computador não funciona mais principalmente no meu computador. A maioria dos softwares modernos existe principalmente no computador de outra pessoa, geralmente o computador da pessoa para quem você está pagando uma assinatura, e o que você aluga é um portal de acesso, não o programa em si.

Chame-me de antiquado, mas se eu pagar por algo, quero possuí-lo. Se estou pagando uma assinatura normal, deve ser em troca de uma entrega regular, e não para continuar usando algo que já paguei.

Se eu pagar por um software, quero possuir esse software e quero executá-lo no computador da minha casa, e não no da sua. Ainda não perdoei a Adobe pela Creative Cloud.

Estimulado por essa raiva crescente, nas últimas semanas, decidi que, sempre que pudesse, daria uma chance séria a esses novos agentes de IA. Se não deu em nada, não tem problema. Mas se eu conseguisse eliminar pelo menos uma única assinatura, vitória.

Depois de uma pequena curva de aprendizado, tenho certeza de que isso provavelmente mudará a forma como faço meu trabalho enquanto essas ferramentas permanecerem disponíveis.

Meu cálculo mental foi este: se o tempo que levo para instruir o agente a executar uma tarefa, além de quaisquer acompanhamentos ou correções necessárias, levar menos do que o tempo que levaria para eu mesmo realizar a tarefa, então isso é uma vitória.

Minhas experiências começaram pequenas. Eu tinha uma coleção de arquivos e precisava alterar os nomes para algo complexo que a interface de renomeação normal no Mac não faria. Correu muito bem, então apliquei algo um pouco mais complicado: um lote de arquivos de vídeo, um dos quais eu suspeitava estar corrompido, mas não sabia qual. Com certeza, ele encontrou um que estava instável e fez isso enquanto eu me concentrava em outras coisas.

Passei para coisas mais pessoais: organizar esta ou aquela pasta do projeto. Depois, mais pessoal: organize minha área de trabalho. Funcionou, foram necessárias poucas instruções.

Então minha mente começou a entender um pouco melhor as ferramentas. Qualquer coisa que eu pudesse explicar com palavras, essa coisa poderia fazer.

Comecei a pensar em tarefas demoradas e monótonas que tenho que realizar regularmente.

Uma delas é consolidar os escopos de trabalho acordados desde as reuniões introdutórias em um SoW oficial. Eu já tinha anotações de reuniões, então tudo que precisei fazer foi transferi-las para o formato correto. Criei um diretório para um cliente potencial específico, criei uma subpasta para documentos de referência e outra para minhas anotações de reuniões. Simplesmente indiquei o diretório ao agente, expliquei a tarefa, os recursos e o resultado esperado, e tudo começou a funcionar.

O resultado foi ótimo e percebi um benefício inesperado. Como o escopo do projeto mudou e eu precisei ajustar o SoW, nem precisaria escrever todas as novas alterações no agente. Eu só precisava colocar as últimas notas da reunião na pasta correta e dizer ao agente para atualizar o SoW de acordo com essas notas. “Alterar o SoW de acordo com as últimas notas da reunião.” Feito. Nenhum erro cometido.

Descobri então que o Codex vem com “Habilidades”, que são essencialmente recursos semelhantes a ferramentas reutilizáveis que ele pode usar para trabalhar em conjunto com outros softwares. Existe até uma opção para adicionar novas habilidades, o que significa que se o agente não pudesse fazer algo, tudo o que eu precisava fazer era dizer-lhe para se dar essa nova funcionalidade, e ele a construiria.

Agora minha mente estava realmente acelerada.

Conectei o agente a uma API da plataforma de publicidade e habilitei-o a extrair regularmente, de forma não destrutiva, as métricas de anúncios mais recentes. Agora, quando me sento para escrever relatórios semanais para meus clientes, as métricas mais recentes estão esperando por mim. Não apenas isso, mas ao fornecer acesso ao meu arquivo de desempenho de anúncios anteriores, se eu quiser saber como o desempenho recente se compara ao desempenho anterior, tudo o que preciso fazer é perguntar.

Nem todo projeto foi um sucesso. Testei até que ponto ele poderia servir como fonte de geração de leads. Não importa o quanto eu implorasse, sempre parecia obter pistas do Texas, principalmente na indústria de ar condicionado. Não me oponho a trabalhar com empresas texanas de ar condicionado, mas normalmente gostaria de diversificar um pouco. Ok, observe, a geração de leads é uma coisa humana. Não tem problema.

E quanto a projetos de clientes grandes e complexos com muita pesquisa psicográfica? Às vezes, minhas descobertas podem ficar um pouco confusas e é difícil lembrar onde está um determinado ponto de dados em determinado documento sem abri-los todos um por um e pesquisar manualmente. Parece coisa de computador. Na verdade, foi. Eu apenas aponto o agente para a pasta onde está minha pesquisa, faço minha pergunta e ele faz a exploração para mim.

Como pode chamar e executar bibliotecas de OCR, ele não apenas lê PDFs, mas também PNGs e JPGs. Se eu disser para ele lembrar de certas coisas, ele criará um pequeno markdown ou arquivo JSON para lembrar de qualquer coisa que considero importante, tornando a recuperação futura muito mais rápida.

Foi quando percebi outra coisa extremamente legal sobre esses agentes. Um grande problema com os LLMs é que eles não são determinísticos da mesma forma que o código de computador normal. Dê a mesma informação duas vezes e raramente obterá a mesma resposta. Sem entrar em detalhes sobre o motivo, isso é tecnicamente um benefício, mas torna a consistência da saída um problema. Isto é, a menos, é claro, que os agentes também possam executar código de computador normal, o que eles podem. Se eu pedir ao agente para fazer algo de forma consistente, ele escreverá um script Python para si mesmo sobre como exatamenteexecutar essa tarefa, salvando qualquer talento pessoal que eu solicitar em seu arquivo de memória de remarcação. Sempre que precisar executar essa tarefa novamente, em vez de depender de saídas variáveis do LLM, ele simplesmente chama e executa o script e depois passa a saída de volta para mim.

Incrível.

Sentindo-me confiante, decidi dar um grande salto. Uma das partes mais difíceis do meu trabalho é permanecer proativo em relação aos próximos projetos de vídeo. É gerenciável, mas ocupa muito do meu tempo atuando como gerente geral de projeto de fato e garantindo que o tempo seja alocado para idealização, edição, aprovações e revisões, ao mesmo tempo em que vários conteúdos são enviados dentro do prazo para vários clientes, várias vezes por semana.

Inspirado em Frankenstein, decidi criar um dos meus próprios gerenciadores de conteúdo. Comecei no modo de planejamento. Esforcei-me para descrever detalhadamente em que precisava de ajuda. Desenvolvi uma habilidade para conectar o agente ao meu software de gerenciamento de projetos por meio de sua API. Dei ao agente sua própria memória autônoma para que pudesse armazenar minhas preferências. Eu o coloquei em sua própria seção do aplicativo de gerenciamento de projetos, para que pudesse ser projetado da maneira que parecesse adequada.

Funcionou como mágica e a ironia de dizer essa palavra exata não passou despercebida.

Em apenas um dia, ele funcionou como um relógio a ponto de abrir meu computador pela manhã, gastar 10 minutos atualizando-o ou quaisquer novos projetos para colocar em pauta, ele pensaria enquanto eu tomava meu café e, um minuto depois, me daria um resumo do status de tudo o que havia conversado anteriormente e as prioridades da equipe para o dia. Foi proativo, como eu havia solicitado, e deu sugestões sobre quais projetos de vídeo eu deveria priorizar no médio e longo prazo, dadas as discussões anteriores sobre agendamento.

Depois de mais ou menos uma semana trabalhando com isso, continuei desenvolvendo-o. Agora cheguei ao ponto em que me sinto confortável em dizer que ele atua como gerente geral de projetos da minha empresa e efetivamente tirou esse trabalho dos meus ombros. Por muito menos do que pagaria a um PM real e aproximadamente pelo mesmo tempo de compromisso que teria para sincronizar com um PM real, criei um aumento real de produtividade para minha empresa.

Meu “VGPM” tem acesso de leitura ao meu Gmail. Ele tem acesso de gravação a um Google Calendar de “tarefas” e ao meu Apple Calendar local. Ele tem acesso ao mesmo software de gerenciamento de projetos que uso e a todas as placas ou cartões dentro dele. Ele ainda executa seus próprios backups diários caso cometa um erro e eu precise reverter, uma função que criei e nunca precisei usar.

Todas as manhãs, dedico 15 minutos conversando com ele, como faria com qualquer outro gerente de projeto. Ele me pede atualizações e eu falo sobre novas prioridades. Em seguida, faz estimativas sobre o que deve ser trabalhado, quando, por quanto tempo e por quem, e depois bloqueia esses horários nos calendários apropriados. Se ele assumir que algo está errado, eu o corrijo e ele se lembrará da correção. Se as prioridades mudam, tudo que tenho a fazer é contar, e isso muda tudo. Também posso continuar usando meu software de gerenciamento de projetos normalmente, se quiser. Eu preparei para isso. Só preciso informar para obter o instantâneo mais recente e ele atualizará meu calendário para refletir quaisquer alterações manuais que fiz.

Agora, neste momento, devo dizer que, por mais impressionado que esteja com essa nova tecnologia, nunca permitiria que ela tocasse o e-mail de um cliente ou um vídeo que eu estivesse editando sem supervisão e revisão rigorosas. Essas são coisas humanas. No entanto, eu deixaria deixá-lo calcular as métricas necessárias para o e-mail do cliente ou extrair uma persona do público ou uma ideia de título que tive do arquivo do projeto enquanto me concentro na edição.

Se você é criativo, esta edição tem como objetivo convencê-lo de que você pode estar nadando contra a corrente se for veementemente anti-LLM. Não estou dizendo que você precisa se tornar abertamente pró-LLM, mas peço que você baixe a guarda por um momento.

Na maioria das vezes, essas novas tecnologias ainda apresentam muitas falhas, mas se você valoriza sua humanidade tanto quanto eu prezo a minha, então, pelo amor de Deus, deixe o computador fazer as coisas do computador e guarde as coisas humanas para você.

Até a próxima, fique atualizado.

-Casey