Casa Internet Ex-chefe de Inteligência Artificial do Snap lança Higgsfield para competir com o gerador de vídeos Sora da OpenAI

Ex-chefe de Inteligência Artificial do Snap lança Higgsfield para competir com o gerador de vídeos Sora da OpenAI

A OpenAI cativou o mundo da tecnologia há alguns meses com um modelo de IA generativa, Sora, que transforma descrições de cena em vídeos originais - sem a necessidade de câmeras ou equipes de filmagem. Mas até agora, o Sora tem sido muito restrito, e a empresa parece estar direcionando-o para criativos bem financiados, como diretores de Hollywood - não necessariamente para entusiastas ou pequenos profissionais de marketing.

Alex Mashrabov, ex-chefe de IA generativa do Snap, percebeu uma oportunidade. Então ele lançou a Higgsfield AI, uma plataforma de criação e edição de vídeos alimentada por IA projetada para aplicações mais personalizadas e adaptadas.

Impulsionado por um modelo personalizado de texto para vídeo, o primeiro aplicativo da Higgsfield, Diffuse, pode gerar vídeos do zero ou tirar uma selfie e gerar um clipe estrelando essa pessoa.

“Nosso público-alvo são criadores de todos os tipos”, disse Mashrabov à TechCrunch em uma entrevista, “desde usuários regulares que desejam criar conteúdo divertido com seus amigos até criadores de conteúdo social que desejam experimentar um novo formato de conteúdo, até profissionais de marketing de mídia social que desejam que sua marca se destaque.”

Mashrabov chegou ao Snap através da AI Factory, sua startup anterior, que o Snap adquiriu em 2020 por $166 milhões. Enquanto esteve no Snap, Mashrabov ajudou a desenvolver produtos como efeitos de AR e filtros para o Snapchat, incluindo Cameos, bem como o controverso MyAI chabot do Snapchat.

A Higgsfield - que Mashrabov co-lançou há alguns meses com Yerzat Dulat, um pesquisador de IA especializado em vídeo generativo - oferece um conjunto selecionado de clipes pré-gerados, uma ferramenta para carregar mídia de referência (ou seja, imagens e vídeos) e um editor de prompts que permite aos usuários descrever os personagens, ações e cenas que desejam retratar. Usando o Diffuse, os usuários podem inserir diretamente em uma cena gerada por IA, ou ter sua semelhança digital imitando coisas - como movimentos de dança - capturados em outros vídeos.

“Nosso modelo suporta movimentos e expressões altamente realistas”, disse Mashrabov. “Estamos pioneiramente construindo ‘modelos de mundo’ para consumidores, o que nos permitirá construir geração e edição de vídeo de primeira classe com um grande nível de controle.”

A Higgsfield não é a única startup de vídeo generativo competindo com a OpenAI. Runway foi uma das primeiras no mercado, e suas ferramentas continuam a melhorar. Também há o Haiper, que conta com o apoio de dois ex-alunos da DeepMind e mais de $13 milhões em investimentos de capital de risco.

Mashrabov argumenta que o Diffuse se destacará graças à sua estratégia de entrada no mercado focada em mobilidade primeiro e social-forward.

“Ao priorizar aplicativos iOS e Android em vez de fluxos de trabalho de desktop, permitimos que criadores criem conteúdo social cativante a qualquer momento e em qualquer lugar”, disse Mashrabov. “De fato, ao criar para dispositivos móveis, podemos priorizar a facilidade de uso e recursos amigáveis ao consumidor desde o primeiro dia.”

A Higgsfield também está operando de forma enxuta. Mashrabov diz que os modelos generativos que sustentam a plataforma foram desenvolvidos por uma equipe de 16 pessoas em menos de nove meses e treinados em um cluster de 32 GPUs (32 GPUs podem parecer muitos, mas considerando que a OpenAI usa dezenas de milhares, não é realmente). E a Higgsfield só levantou $8 milhões até o momento, a maior parte dos quais veio de uma recente rodada de financiamento-semente liderada pela Menlo Ventures.

Para se manter à frente dos concorrentes, a Higgsfield planeja utilizar o capital semente para construir um editor de vídeo aprimorado que permitirá aos usuários modificar personagens e objetos em vídeos, e para treinar modelos de geração de vídeo mais poderosos especificamente para casos de uso em mídias sociais. Na verdade, Mashrabov vê as mídias sociais - e o marketing em mídias sociais - como a principal nicho lucrativo da Higgsfield.

Embora o Diffuse seja atualmente gratuito para uso, Mashrabov prevê um futuro em que os profissionais de marketing paguem algum tipo de taxa ou assinatura por recursos premium, ou por volume ou campanhas em grande escala.

“Acreditamos que a Higgsfield desbloqueia um nível incrível de realismo e casos de uso de produção de conteúdo para profissionais de marketing de mídia social”, disse ele. “Constantemente ouvimos dos CMOs e diretores criativos que precisam otimizar os orçamentos de produção de conteúdo e encurtar os prazos, ao mesmo tempo em que entregam conteúdo impactante. Portanto, acreditamos que as soluções de IA generativas de vídeo serão uma solução principal para ajudá-los a alcançar isso.”

Claro, a Higgsfield não está imune aos desafios mais amplos enfrentados pelas startups de IA generativa.

É bem estabelecido que modelos de IA generativa como o que alimenta o Diffuse podem “regurgitar” dados de treinamento. Por que isso é problemático? Bem, se os modelos foram treinados em conteúdo com direitos autorais, sem permissão ou algum tipo de acordo de licenciamento em vigor, os usuários desses modelos podem gerar inadvertidamente uma obra que infringe direitos autorais - expondo-os a processos judiciais.

Mashrabov não revelaria a fonte dos dados de treinamento da Higgsfield (além de dizer que vêm de “vários lugares publicamente disponíveis”), e também não diria se a Higgsfield reteria os dados do usuário para treinar modelos futuros, o que pode não ser bem recebido por alguns clientes empresariais. Ele observou que os usuários do Diffuse podem solicitar que seus dados sejam excluídos a qualquer momento através do aplicativo.

Plataformas digitais de “clonagem” como a Higgsfield também são propensas a abusos, como a disseminação desenfreada de deepfakes nas mídias sociais nos últimos meses demonstrou.

Numa linha semelhante, a Higgsfield poderia tornar mais fácil roubar o conteúdo de criadores. Por exemplo, basta fazer o upload de um vídeo da coreografia de alguém para gerar um vídeo dessa pessoa realizando a mesma coreografia.

Perguntei a Mashrabov sobre quais salvaguardas ou proteções a Higgsfield poderia estar usando para tentar evitar abusos, e - embora ele não tenha entrado em detalhes - ele afirmou que a plataforma emprega uma mistura de moderação automatizada e manual.

“Decidimos lançar o produto gradualmente e testar em mercados selecionados primeiro, para que possamos monitorar onde há potencial para abusos e evoluir o produto conforme necessário,” acrescentou Mashrabov.

Teremos que esperar para ver como isso funcionará na prática.