Imagine um mundo onde máquinas podem escrever poesia, criar vídeos e até mesmo responder às suas perguntas mais complexas. Este não é um cenário de ficção científica, mas a realidade que estamos vivendo hoje graças aos avanços em Inteligência Artificial Generativa.

Mas como chegamos até aqui? Vamos mergulhar no passado da Inteligência Artificial ressaltando as tecnologias que culminaram com o modelo GPT que deu origem ao ChatGPT e depois conhecer outras ferramentas de Inteligência Artificial Generativa que podem ser úteis no seu dia-a-dia.

Um breve histórico da Inteligência Artificial Generativa

Os primeiros estudos de IA datam da década de 1950, com as ideias pioneiras de Alan Turing. Ele foi um matemático britânico conhecido por seu trabalho crucial na quebra dos códigos nazistas durante a Segunda Guerra Mundial. Inclusive existe um ótimo filme sobre essa história chamado “O Jogo da Imitação” (The Imitation Game disponível na NetFlix) onde Benedict Cumberbatch faz o papel de Turing.

"O Jogo da Imitação" (The Imitation Game disponível na NetFlix) onde Benedict Cumberbatch faz o papel de Turing

Um dos primeiros campos a surgir dentro da IA foi o Processamento de Linguagem Natural (PLN ou NLP em inglês), a disciplina focada em ensinar máquinas a entender e criar conteúdo em linguagem humana.

Avançando rapidamente para a década de 1980, chegamos ao nascimento das Redes Neurais Recorrentes (RNNs). Em 1986, estas redes foram projetadas para lidar com dados sequenciais, o que permitiu a análise de contexto: a próxima palavra ou caractere é prevista com base no contexto anterior. Isto foi um passo enorme na evolução do PLN, pois permitiu que as máquinas “entendessem” a sequência e a estrutura das palavras em uma frase, algo crucial para a geração de linguagem coerente e relevante.

Diagrama de funcionamento de um Rede Neural Recorrente

Porém, as RNNs apresentavam um problema: dificuldade em lidar com dependências de longo prazo, ou seja, quando a compreensão de uma palavra ou frase depende de outra que apareceu muito antes no texto.

Então, em 2017, uma nova arquitetura conhecida como “Transformers” surgiu para resolver esses desafios. Desenvolvidos pela equipe do Google, os Transformers substituíram as RNNs em muitos casos de uso sendo mais eficientes com conteúdos longos. Eles trabalhavam em paralelo e não apenas sequencialmente, aproveitando ao máximo os processadores modernos.
Usando os Transformers, em 2018, surgem os LLMs (Large Language Models), grandes modelos de linguagem capazes de aprender com grandes quantidades de texto e resolver uma ampla gama de tarefas.

Diagrama apresentando a diferença de processamento de uma rede neural recorrente (palavra por palavra) versus o processamento de um transformer (múltiplas palavras simultaneamente).

Em 2020, nasce o mais promissor dos LLMs até então, o modelo GPT-3 treinado pela OpenAI. Este modelo de IA se tornou um marco, dada a sua capacidade de gerar texto incrivelmente coerente e sua versatilidade: ele pode ser usado para traduzir textos, responder perguntas, escrever ensaios e até mesmo criar poesia ou prosa.

No final de 2021, a Inteligência Artificial Generativa, ramo da inteligência artificial capaz de criar conteúdo, surge como tendência apontada em diversos relatórios de inovação. 

Em 30/novembro/2022 a Open AI lança o ChatGPT, ferramenta de chat para interagir com o modelo GPT-3.5. Apenas 2 meses depois ele já era usado por mais de 100 milhões de pessoas e começava a mudar a história do trabalho como conhecíamos até então.

Somente este anos já tivemos dezenas de lançamentos de LLMs, conheça os mais promissores com foco em texto:

  • GPT-4 – Uso geral (texto, dados e código) (OpenAI – março/2023)
  • Falcon – Open Source (Technology Innovation Institute – Emirados Árabes Unidos – março/23)
  • MOSS – Open Source (Fudan University – China) (abril/23)
  • PaLM 2 – Precisão (Google) (maio/23)
  • Inflection-1 – Conversacional (junho/23)
  • Claude 2 – Criatividade (Anthropic) (julho/23)
  • Llama 2 – Open Source (Meta) (julho/23)

Você pode aprender mais sobre o que é o ChatGPT e como criar comandos (prompts) de sucesso neste artigo.

Outras ferramentas de inteligência artificial generativa

Além do ChatGPT, existem várias outras ferramentas de inteligência artificial generativa (Gen IA) disponíveis no mercado, cada uma com suas próprias capacidades e aplicações. Seguem alguns exemplos:

Criação de vídeos

  • D-ID.com: Plataforma que cria vídeos a partir de textos simples. Você escolhe um avatar ou sobe uma foto, faz upload de um áudio ou digita um texto e escolhe uma voz (existem vozes em língua portuguesa). Pronto, seu vídeo foi criado em segundos sem nenhum conhecimento técnico adicional.
  • Fliki.ai: Ferramenta rápida e fácil para criar vídeos e áudios a partir de textos. Ela oferece recursos como resumir automaticamente um texto, encontrar imagens correspondentes e criar vídeos com narração que soa como uma pessoa real. Você também pode adicionar legendas personalizadas com diferentes estilos.
  • Steve.ai: Plataforma para ajudar os usuários a produzir vídeos profissionais em poucos minutos. Crie desde convites até vídeos corporativos. Você tem uma biblioteca de personagens de diferentes tamanhos, animais, músicas e muito mais.

Transcrição de conteúdo

  • Otter.ai: Ferramenta para gravar e transcrever palestras, reuniões e conversas em inglês com alta precisão. Ele transcreve conversas em tempo real e gera notas compartilháveis e pesquisáveis. Ele pode se conectar com o Zoom, Microsoft Teams e Google Meet, capturar slides e integrar fotos que podem ser facilmente compartilhadas.
  • HappyScribe.com/pt: Faz transcrições (áudio para texto) e insere legendas em vídeo. Funciona em diversos idiomas, inclusive em português.
  • Tactiq.io: Faz transcrições de áudio para texto em tempo real. Disponível para Google Meet, Zoom, Microsoft Teams e Webex.
  • Descript – Transcreve, edita, grava, legenda e resume. 1 hora de transcrição gratuita por mês, os outros recursos são bem escassos na versão gratuita, mas dá pra analisar e ver se vale a pena pagar para as suas necessidades.

Podcasts e Voz

  • Adobe Podcast: Melhora até 1 hora de áudio por upload, fazendo os áudios parecerem que foram gravados em um estúdio profissional.
  • Podcastle – Editor de podcasts com múltiplas ferramentas para gravação, edição, limpeza de som, criação de vozes e remoção de silêncio. Gratuito para áudio, vídeo limitado a 3 horas no plano gratuito.
  • Krisp – Remove ruídos de fundo ao vivo durante sua chamada em Zoom, Microsoft Team, Google Meet e outros apps de reuniões. São 60 minutos por dia no plano gratuito, 90 minutos se você usar um e-mail corporativo.
  • Voicemod – Voice Changer: Software de troca de voz em tempo real para Mac & Windows, fale com outra voz em games e apps de conversas por voz.

Música

  • AudioStrip – Isola instrumentos e vocal de uma voz.
  • Aiva – Crie trilhas sonoras que você pode usar gratuitamente desde que não monetize, o copyright é da Aiva. Existem planos pagos onde você pode monetizar e onde a música pertence a você. 3 downloads /mês e 3 minutos por música no plano gratuito.
  • Mubert – Similar ao AIVA mas permite 25 músicas por mês, também tem planos onde você pode monetizar a música mas não te permite ser proprietário da música. Enquanto o AIVA pode ser mais útil para músicos o Mubert pode ser melhor para criadores de conteúdo que usam música de forma acessória.

Pesquisa com fontes de informação

  • Google Bard: É possível criar conteúdo no Google Bard usando os mesmos exemplos de prompt apresentados nesse e-book. Porém sua grande vantagem é estar integrado em tempo real aos resultados da internet. Suas respostas tendem a ser mais curtas porém usam como resultados os dados indexados no Google. Dá pra buscar algo no Google Bard e usar as informações como de referência em prompts de criação de Conteúdo no ChatGPT.
  • Perplexity AI: Ferramenta de busca que fornece respostas precisas para perguntas complexas de acordo com os resultados da busca. Utilizando LLMs e motores de pesquisa, ela é capaz de responder a uma ampla variedade de questões em linguagem natural informando quais foram as fontes consultadas. Cabe a você verificar as fontes utilizadas e se certificar de que são confiáveis. Muito útil para buscar referências e validar respostas do ChatGPT.
  • Bing: Mecanismo de busca da Microsoft que agora é alimentado por inteligência artificial (GPT-4) através da OpenAI com informações e citações em tempo real. Ele permite aproveitar todo o poder do GPT-4 em suas pesquisas, fornecendo respostas diretas em vez de navegar por inúmeras páginas. É gratuito e oferece uma experiência aprimorada de busca.

Geração de Imagens

  • Midjourney: Sua última versão, 5.2, permite criar imagens ultra-realistas a partir de imagens existentes ou criando do zero através de prompts. Após a criação de uma arte do papa usando um casaco fashion que foi confundida como uma foto real a plataforma encerrou seu plano gratuito sendo disponível atualmente a partir de US$ 8 / mês.
  • Bing Image Creator: Permite que os usuários criem suas próprias imagens personalizadas diretamente no browser através do sistema DALL·E 2 da OpenAI. A ferramenta tem vários mecanismos de segurança para evitar criar conteúdo abusivo ou com direito autoral. Por conta disso é bastante seguro usar imagens do Bing para ilustrar seus posts em redes sociais, anúncios ou apresentações.

Descubra novas IAs

  • theresanaiforthat.com: Buscador com mais de 6,5 mil ferramentas de IA Generativa (até o lançamento desse e-book) cadastradas. Imagine o que você gostaria de criar, provavelmente já existe uma IA pronta para isso e tem grandes chances dela estar cadastrada nessa plataforma. Também possui um plugin para o ChatGPT onde você pode perguntar sobre ferramentas para resolver um determinado problema.

Saiba mais:

Um comentário em “História da Inteligência Artificial Generativa e outras IAs além do ChatGPT

  1. ChatGPT tem nos ajudado muito aqui na Sala da Raiva em relação ao controle financeiro e planejamento de marketing.

Os comentários estão encerrados.