Steroidlardagi matematika: nima uchun CPU sun'iy intellektni torta olmaydi va GPU byudjetni qanday tejaydi

Markaziy protsessorlar (CPU) universalligi paradigmasida tarbiyalangan ko'plab texnik direktorlar (CTO) sun'iy intellekt sohasida yirik loyihalarni joylashtirish urinishida shafqatsiz haqiqatga duch kelishadi. Zamonaviy LLM yoki rasm generatorlarini top Intel Xeon yoki AMD EPYC bilan jihozlangan standart server quvvatlarida ishga tushirish urinishlari ko'pincha muvaffaqiyatsizlikka uchraydi. Muammo bu protsessorlarning «yomon» ekanligida emas. Muammo CPU arxitektura dizayni ketma-ket mantiq uchun optimallashtirilgan — neyrotarmoqlar esa massiv gomogen parallelizmni talab qiladi.

Takt chastotasi haqida mif: 5 GHz va 1.5 GHz

4.5 GHz li protsessor 1.5 GHz li tezlatgichdan tezroq ishlashi kerakdek tuyuladi. Biroq sun'iy intellekt davrida takt chastotasi hal qiluvchi omil bo'lishdan to'xtadi. Jismoniy cheklovlar — «energiya devori» (power wall) — chastotaning cheksiz o'sishini to'xtatdi. CPU tarmoqlanishni bashorat qilish va murakkab keshni boshqarishga ulkan resurslar sarflayotgan bo'lsa, GPU keng ko'lamli parallelizm yo'lidan boradi. 1.5 GHz dagi NVIDIA H100 ning 14 592 yadrosi 4 GHz dagi Xeon ning 64 yadrosini shunchaki bir vaqtda bajariladigan ish hajmi hisobiga mag'lub etadi.

Arxitektura jangi: CPU va GPU

Xususiyat	CPU (Intel Xeon Platinum 8480+)	GPU (NVIDIA H100)
Yadrolar soni	56 ta jismoniy yadro	14 592 CUDA-yadro
Maxsus bloklar	AVX-512, AMX	456 ta tenzor yadro (4-avlod)
Arxitektura fokusi	Kechikishni minimallashtirish (Latency)	O'tkazuvchanlikni maksimallashtirish
Xotira o'tkazuvchanligi	~300 GB/s (DDR5)	3.35 TB/s (HBM3)
Odatiy TDP	350 Vt	700 Vt

Xotira o'tkazuvchanligidagi farq hal qiluvchi omildir. Zamonaviy sun'iy intellekt modellari milliardlab parametrlarga ega bo'lib, ularni xotiradan doimiy o'qish kerak. CPU-serverlardagi DDR5 o'tkazuvchanligi «tor joy»ga aylanadi, GPU dagi HBM3 esa ma'lumot uzatish tezligini 10 baravar yuqori ta'minlaydi.

Sun'iy intellekt matematikasi: faqat matritsalar, faqat hardcore

Neyrotarmoq — bu odatiy tushunchadagi dasturiy kod emas. Bu gigant matematik obyekt. GPT-4 yoki Llama 3 ning barcha ishi oxir-oqibat kirish ma'lumotlari vektorlariga ulkan og'irlik matritsalarini ko'paytirishga keladi. Sun'iy intellektdagi asosiy hisoblash yuki — umumiy matritsalarni ko'paytirish (GEMM) operatsiyasi.

Zamonaviy NVIDIA GPU larda buning uchun tenzor yadrolari ajratilgan. Tenzor yadrosi — bu «tezlatgich ichidagi tezlatgich»: u bitta taktda ikkita 4×4 matritsani ko'paytirish va natijaga uchinchi matritsani qo'shish (fused multiply-add) qobiliyatiga ega. NVIDIA da FP16/BF16 operatsiyalardagi unumdorlik aql bovar qilmas 2000 TFLOPS ga yetadi — bu istalgan CPU dan yuzlab marta ko'p.

Raqamlardagi samaradorlik: benchmarklar

ResNet-50 ni o'qitishning klassik testida farq 30–60 martaga yetadi: CPU (32-64 yadro) sekundiga 20–50 ta rasmni qayta ishlaydi, GPU (NVIDIA) — 1200–1500 ta. Kuchli CPU klasterida bir hafta o'qitiladigan narsa UzCloud dagi bitta GPU tugunida bir necha soatda yakunlanadi.

Llama 3 inference tezligi

Model	Platforma	Tezlik (token/sek)	Xulosa
Llama 3 (8B)	High-end CPU	3–5	Chat uchun yaroqsiz
Llama 3 (8B)	NVIDIA GPU	150–250	Bir lahzalik javob
Llama 3 (70B)	High-end CPU	0.5–1	Tizim «osilib qoladi»
Llama 3 (70B)	NVIDIA GPU	25–50	Sanoat standarti

Iqtisodiyot: GPU byudjetni qanday tejaydi (OPEX)

GPU vattiga taxminan 70.1 gigaflops ta'minlaydi, faqat CPU ga asoslangan tizimlar esa vattiga taxminan 15.5 gigaflops beradi. Bir xil hajmdagi sun'iy intellekt ishini bajarish uchun CPU-ferma 4–5 baravar ko'p elektr energiya iste'mol qiladi. Bugungi kunda elektr energiya sun'iy intellekt infratuzilmasining TCO sidan 35% gacha tashkil etadi.

Bulutda GPU-quvvatlarni ijaraga olish (OpEx) o'z uskunasini sotib olishdan foydali: sun'iy intellekt davrida uskuna 18–24 oy ichida eskiradi. O'z uskunasi faqat doimiy yuklanish 70–80% dan oshganda foydali. GPU tugunlarini o'rnatish uchun (stoykaga 10 kVt gacha) suyuqlik bilan sovutishga ega maxsus DC kerak.

Sun'iy intellekt uchun UzCloud: Toshkentda arzon quvvat

O'zbekiston Respublikasi «Shaxsiy ma'lumotlar to'g'risida»gi Qonunning 27¹-moddasiga ko'ra, O'zbekiston fuqarolarining shaxsiy ma'lumotlari — biometrika, pasport ma'lumotlari, PINFL — mamlakat ichida saqlanishi va qayta ishlanishi kerak. UzCloud ma'lumotlarning to'liq lokalizatsiyasini ta'minlaydi va fintex, tibbiyot va davlat sektorida sun'iy intellektni qonuniy joriy etish imkonini beradi.

Xorijiy bulutlar bilan ishlashda ping 120–200 ms ni tashkil etadi. UzCloud quvvatlaridan foydalanganda TAS-IX ichida kechikish 1–2 ms ga tushadi — bu ovozli assistentlar, videotahlil va real vaqt tizimlari uchun muhim. Mahalliy bulut oldindan o'rnatilgan CUDA, PyTorch va TensorFlow steki bilan dolzarb NVIDIA tezlatgichlarini taqdim etadi.

Xulosa

«Kuchli protsessor ML-loyihani qutqaradi» degan illyuziya zamonaviy menejmentning eng qimmatga tushadigan xatolaridan biri. Sun'iy intellekt matematikasi — bu matritsalar va massiv parallelizm matematikasi. O'zbekiston sharoitida UzCloud kabi mahalliy GPU-bulutlardan foydalanish nafaqat texnik ustunlik, balki strategik zaruratga aylanmoqda: TAS-IX orqali eng yuqori unumdorlik, shaxsiy ma'lumotlar to'g'risidagi qonun doirasida yuridik xavfsizlik va bulutli iste'mol modeli hisobiga iqtisodiy moslashuvchanlik.