На Reddit появилась история о том, как энтузиаст сумел запустить триллионопараметровую языковую модель на рабочей станции с одним GPU, используя снятые с производства модули Intel Optane Persistent Memory. Пользователь APFrisco купил шесть планок Optane по 128GB каждая на вторичном рынке — всего 768GB памяти, которая обошлась значительно дешевле эквивалентного объёма обычной DRAM.
Конфигурация системы:
- Процессор: Intel Xeon Gold 6246
- Материнская плата: Tyan S5630GMRE-CGN
- GPU: ASUS Dual GeForce RTX 3060 OC 12GB
- ОЗУ: 6x 32GB Samsung DDR4 2666MHz (использовалась как кэш)
- Persistent Memory: 6x 128GB Intel Optane DCPMM PC4-2666
- Хранилище: WD SN850X 2TB NVMe
Optane изначально разрабатывалась как промежуточное решение между скоростью DRAM и ёмкостью SSD. Хотя эта память медленнее обычной оперативки в 2-3 раза, для инференса LLM такие характеристики оказались вполне приемлемы. APFrisco настроил систему в режиме памяти Optane с кэшированием на DDR4, а для обработки использовал гибридный подход GPU/CPU через llama.cpp с оптимизацией маршрутизации смеси экспертов модели Kimi K2.5.
Результат — около 4 токенов в секунду при запуске триллионопараметровой модели на столь скромном оборудовании энтузиаст считает значительным успехом. В комментариях он отмечает, что Intel поспешила с отказом от Optane, так как для определённых задач эта память остаётся полезной.