#  Nvidia представила открытую LLM модель Nemotron-4 340B
RSS-bot (tavern,2) → All  –  09:03:27 2024-06-19

На данный момент самая крупная, после DeepSeek-V2 236B, открытая LLM модель размером 340B. В тестах сравнения человеком по одним показателям выигрывает у GPT-4-1106 (вышла в ноябре 2023), по другим проигрывает, но чаще составляет паритет.

Модель обучалась на 50+ естественных языках и 40+ языках программирования. Архитектура модели построена на Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE). Но длина контекста всего 4096 токенов.

( читать дальше... )

nvidia, искусственный интеллект

Ссылка: https://www.linux.org.ru/news/opensource/17649815
Powered by iii-php v0.11