Casa Internet Snowflake lança um modelo AI generativo próprio de referência

Snowflake lança um modelo AI generativo próprio de referência

Todos em volta, modelos de IA generativos altamente generalizáveis eram o nome do jogo uma vez, e eles argumentavelmente ainda são. Mas cada vez mais, à medida que os fornecedores de nuvem grandes e pequenos se juntam à batalha de IA generativa, estamos vendo uma nova safra de modelos focados nos clientes em potencial mais endinheirados: as empresas.

Caso em questão: Snowflake, a empresa de computação em nuvem, apresentou hoje o Arctic LLM, um modelo de IA generativo descrito como 'de nível empresarial'. Disponível sob uma licença Apache 2.0, o Arctic LLM é otimizado para 'cargas de trabalho empresariais', incluindo a geração de código de banco de dados, diz a Snowflake, e é gratuito para pesquisa e uso comercial.

'Acho que esta será a base que nos permitirá - Snowflake - e nossos clientes construirmos produtos de nível empresarial e realmente começarmos a realizar a promessa e o valor da IA', disse o CEO Sridhar Ramaswamy em uma coletiva de imprensa. 'Você deve pensar nisso como nosso primeiro, mas grande, passo no mundo da IA generativa, com muito mais porvir.'

Um modelo empresarial

Meu colega Devin Coldewey escreveu recentemente sobre como não há fim à vista para a avalanche de modelos de IA generativa. Recomendo que você leia o artigo dele, mas a essência é a seguinte: os modelos são uma maneira fácil para os fornecedores gerarem entusiasmo por sua P&D e também servem como um funil para seus ecossistemas de produtos (por exemplo, hospedagem de modelos, ajuste fino e assim por diante).

O Arctic LLM não é diferente. O modelo principal da Snowflake em uma família de modelos de IA generativa chamada Arctic, o Arctic LLM - que levou cerca de três meses, 1.000 GPUs e $ 2 milhões para treinar - chega após o DBRX da Databricks, um modelo de IA generativa também comercializado como otimizado para o espaço empresarial.

A Snowflake estabelece uma comparação direta entre o Arctic LLM e o DBRX em seu material de imprensa, dizendo que o Arctic LLM supera o DBRX nas duas tarefas de codificação (a Snowflake não especificou quais linguagens de programação) e geração de SQL. A empresa afirmou que o Arctic LLM também é melhor nessas tarefas do que o Llama 2 70B da Meta (mas não o mais recente Llama 3 70B) e o Mixtral-8x7B da Mistral.

A Snowflake também afirma que o Arctic LLM alcança 'desempenho líder' em um benchmark popular de compreensão de linguagem geral, o MMLU. No entanto, devo observar que, embora o MMLU aparente avaliar a capacidade de modelos generativos de resolver problemas lógicos, ele inclui testes que podem ser resolvidos por memorização mecânica, então leve esse ponto com uma pitada de sal.

'O Arctic LLM aborda necessidades específicas dentro do setor empresarial', disse Baris Gultekin, chefe de IA da Snowflake, em entrevista ao TechCrunch, 'divergindo de aplicativos de IA genéricos como composição de poesia para se concentrar em desafios orientados para as empresas, como desenvolver co-pilotos SQL e chatbots de alta qualidade.'

O Arctic LLM, assim como o DBRX e o modelo generativo de melhor desempenho atual do Google, o Gemini 1.5 Pro, é uma arquitetura de mistura de especialistas (MoE). Arquiteturas MoE basicamente dividem tarefas de processamento de dados em sub-tarefas e então as delegam a modelos 'especialistas' menores e especializados. Assim, enquanto o Arctic LLM contém 480 bilhões de parâmetros, ele ativa apenas 17 bilhões de cada vez - o suficiente para acionar os 128 modelos especialistas separados. (Os parâmetros essencialmente definem a habilidade de um modelo de IA em um problema, como analisar e gerar texto.)

A Snowflake afirma que esse design eficiente permitiu treinar o Arctic LLM em conjuntos de dados públicos da web aberta (incluindo RefinedWeb, C4, RedPajama e StarCoder) a 'aproximadamente um oitavo do custo de modelos semelhantes'.

Executando em todos os lugares

A Snowflake está fornecendo recursos como modelos de codificação e uma lista de fontes de treinamento junto com o Arctic LLM para orientar os usuários pelo processo de colocar o modelo em funcionamento e ajustá-lo para casos de uso específicos. Mas, reconhecendo que essas são tarefas provavelmente custosas e complexas para a maioria dos desenvolvedores (ajustar ou executar o Arctic LLM requer cerca de oito GPUs), a Snowflake também se comprometeu a disponibilizar o Arctic LLM em uma variedade de hosts, incluindo Hugging Face, Microsoft Azure, o serviço de hospedagem de modelos da Together AI e a plataforma empresarial de IA generativa Lamini.

No entanto, há um porém: o Arctic LLM estará disponível primeiro no Cortex, a plataforma da Snowflake para construir aplicativos e serviços alimentados por IA e aprendizado de máquina. A empresa, compreensivelmente, está apresentando-a como a maneira preferida de executar o Arctic LLM com 'segurança', 'governança' e escalabilidade.

'Nosso sonho aqui é, dentro de um ano, ter uma API que nossos clientes possam usar para que os usuários de negócios possam falar diretamente com os dados', disse Ramaswamy. 'Teria sido fácil para nós dizer, 'Ah, só vamos esperar por algum modelo de código aberto e vamos usá-lo.' Em vez disso, estamos fazendo um investimento fundamental porque achamos que [isso] vai desbloquear mais valor para nossos clientes.'

Então fico me perguntando: Para quem é o Arctic LLM além dos clientes da Snowflake?

Em um cenário cheio de modelos generativos 'abertos' que podem ser ajustados para praticamente qualquer finalidade, o Arctic LLM não se destaca de maneira óbvia. Sua arquitetura pode trazer ganhos de eficiência em relação a algumas das outras opções lá fora. Mas não estou convencido de que serão dramáticos o suficiente para afastar as empresas das inúmeras outras opções bem conhecidas e apoiadas e amigáveis aos negócios (por exemplo, GPT-4).

Também há um ponto desfavorável ao Arctic LLM a considerar: seu contexto relativamente pequeno.

Na IA generativa, janela de contexto refere-se aos dados de entrada (por exemplo, texto) que um modelo considera antes de gerar a saída (por exemplo, mais texto). Modelos com janelas de contexto pequenas estão sujeitos a esquecer o conteúdo de conversas mesmo muito recentes, enquanto modelos com contextos maiores geralmente evitam esse problema.

O contexto do Arctic LLM varia de ~8.000 a ~24.000 palavras, dependendo do método de ajuste fino - muito aquém de modelos como o Claude 3 Opus da Anthropic e o Gemini 1.5 Pro do Google.

A Snowflake não menciona isso no marketing, mas o Arctic LLM quase certamente sofre das mesmas limitações e falhas que outros modelos de IA generativa - ou seja, alucinações (ou seja, responder confiantemente incorretamente a solicitações). Isso porque o Arctic LLM, junto com todo outro modelo de IA generativa existente, é uma máquina de probabilidade estatística - aquela que, novamente, tem uma janela de contexto pequena. Ele adivinha com base em vastas quantidades de exemplos quais dados fazem mais 'sentido' colocar onde (por exemplo, a palavra 'ir' antes de 'para o mercado' na frase 'Eu vou para o mercado'). Ele inevitavelmente adivinhará errado - e isso é uma 'alucinação'.

Como Devin escreve em seu artigo, até a próxima grande evolução técnica, melhorias incrementais são tudo o que temos a esperar no domínio da IA generativa. Isso não impedirá os fornecedores como a Snowflake de apresentá-los como grandes realizações, no entanto, e de comercializá-los pelo que valem.