O novo modelo foi testado em uma ampla variedade de tarefas, superando 30 dos 32 pontos das referências acadêmicas amplamente utilizadas na pesquisa e no desenvolvimento de grandes modelos de linguagem.
O Gemini tem capacidade de organizar, compreender, operar e combinar diferentes tipos de informação, incluindo:
- textos;
- imagens;
- áudios;
- vídeos; e
- linguagens de programação.
Em sua divulgação, o Google afirma que o “Gemini vai melhorar significativamente a forma como os desenvolvedores e as empresas constroem soluções com IA”.
A primeira versão, o Gemini 1.0, é otimizada em três modos diferentes, para necessidades específicas:
- Gemini Ultra — maior e mais hábil para tarefas altamente complexas;
- Gemini Pro — melhor para escalar grande variedade de tarefas;
- Gemini Nano — mais eficiente para tarefas em dispositivos móveis.
Até agora, o método padrão para criação de modelos multimodais de IA envolvia treinar componentes separados para diferentes modalidades e depois juntá-los para imitar algumas dessas funcionalidades.
Esses modelos podem ser bons na execução de algumas tarefas, como descrever imagens, mas podem enfrentar problemas com raciocínios mais complexos.
Com o Gemini, o Google tenta ir além, criando um modelo multimodal de IA nativo, previamente treinado em diferentes modalidades.
Em teoria, isso ajuda o Gemini a compreender e raciocinar sobre todos os tipos de informações desde o começo.
Quem pode usar
Já a partir desta quarta-feira (6), o Bard com Gemini Pro está disponível em inglês em mais de 170 países e territórios.
Ele terá capacidade de compreender, resumir, raciocinar, fazer brainstorming, escrever e planejar.
Essa é a maior melhoria de qualidade do Bard desde o seu lançamento.
O Gemini também já está disponível para o Pixel 8 Pro, primeiro smartphone projetado para rodar o Gemini Nano.
Nos próximos meses, o Google promete disponibilizar o Gemini em outros de seus produtos, como a Busca, Ads, Chrome e Duet AI.
Desenvolvedores
As possibilidades mais avançadas do Gemini poderão ser acessadas por clientes corporativos do Google e desenvolvedores a partir da próxima quarta-feira (13) por meio da API do Gemini no Google AI Studio ou Vertex AI.
O Google AI Studio é uma ferramenta gratuita para desenvolvedores baseada na Web que ajuda desenvolvedores e clientes corporativos a criar protótipos e lançar aplicativos rapidamente com uma chave de API.
No início de 2024, o Google promete também lançar o Bard Advanced: uma nova experiência de IA avançada, a partir da qual será possível acessar os melhores modelos e capacidades, começando pelo Gemini Ultra.
Comentários
Postar um comentário