Память·23 мая 2026· 1 мин

Энтузиаст запустил триллионопараметровую LLM на одном GPU с помощью 768GB Optane

Пользователь Reddit собрал рабочую станцию с процессором Xeon и видеокартой RTX 3060, где вместо обычной оперативной памяти использовал 768GB снятых с производства Intel Optane DCPMM. Система справляется с локальным запуском модели Kimi K2.5 на скорости 4 токена в секунду.

АКАлексей Котов·23 мая 2026, 11:30·Источник: tomshardware.com

На Reddit появилась история о том, как энтузиаст сумел запустить триллионопараметровую языковую модель на рабочей станции с одним GPU, используя снятые с производства модули Intel Optane Persistent Memory. Пользователь APFrisco купил шесть планок Optane по 128GB каждая на вторичном рынке — всего 768GB памяти, которая обошлась значительно дешевле эквивалентного объёма обычной DRAM.

Конфигурация системы:

Процессор: Intel Xeon Gold 6246
Материнская плата: Tyan S5630GMRE-CGN
GPU: ASUS Dual GeForce RTX 3060 OC 12GB
ОЗУ: 6x 32GB Samsung DDR4 2666MHz (использовалась как кэш)
Persistent Memory: 6x 128GB Intel Optane DCPMM PC4-2666
Хранилище: WD SN850X 2TB NVMe

Optane изначально разрабатывалась как промежуточное решение между скоростью DRAM и ёмкостью SSD. Хотя эта память медленнее обычной оперативки в 2-3 раза, для инференса LLM такие характеристики оказались вполне приемлемы. APFrisco настроил систему в режиме памяти Optane с кэшированием на DDR4, а для обработки использовал гибридный подход GPU/CPU через llama.cpp с оптимизацией маршрутизации смеси экспертов модели Kimi K2.5.

Результат — около 4 токенов в секунду при запуске триллионопараметровой модели на столь скромном оборудовании энтузиаст считает значительным успехом. В комментариях он отмечает, что Intel поспешила с отказом от Optane, так как для определённых задач эта память остаётся полезной.

Мнение HardVS

Что это значит: История показывает, что даже снятые с производства компоненты могут находить нишевое применение. Optane умерла не потому, что была плохой, а потому что Intel не нашла массового рынка. Для локального запуска больших моделей на энтузиастском уровне такая память действительно интересна — дешевле DRAM, быстрее NVMe, и её можно найти на вторичном рынке по смешным ценам.

Это также намекает на реальную проблему: между оперативной памятью и накопителями существует разрыв, который индустрия пока не закрыла. Intel ставила на Optane, но стандарт CXL обещает решить эту задачу более универсально. Пока же энтузиасты вроде APFrisco находят творческие обходные пути для запуска LLM локально без облака.

#intel-optane #llm-инференс #xeon #память #энтузиасты #rtx-3060

Первоисточник

768GB of cheap Intel Optane DIMM memory sticks used to run 1-trillion-parameter LLM on a system with a single GPU — local Kimi K2.5 install achieved roughly 4 tokens per second — tomshardware.com

Энтузиаст запустил триллионопараметровую LLM на одном GPU с помощью 768GB Optane

Похожие новости

Micron запустит массовое производство DDR4 в США — объёмы вырастут в 4 раза

NVIDIA заранее запаслась памятью перед скачком цен

Corsair начал использовать память CXMT в DDR5 модулях для китайского рынка