Language Model telah berkembang sejak GPT-2 dan pengguna kini dapat dengan mudah menerapkan LLM dalam aplikasi seperti LM Studio.
Bersama dengan AMD, alat seperti ini membuat AI dapat diakses oleh semua orang tanpa memerlukan pengetahuan coding atau teknis.
LM Studio didasarkan pada proyek llama.cpp yang merupakan kerangka kerja yang sangat populer untuk menyebarkan model bahasa dengan cepat.
Aplikasi ini dapat dipercepat hanya dengan menggunakan CPU. LM Studio menggunakan instruksi AVX2 untuk mempercepat LLM modern untuk CPU berbasis x86.
Perbandingan kinerja
AMD Ryzen™ AI mempercepat beban kerja dalam aplikasi berbasis llama.cpp seperti LM Studio untuk laptop x861. Perlu dicatat bahwa LLM secara umum sangat sensitif terhadap kecepatan memori.
Sebagai perbandingan, laptop Intel sebenarnya memiliki RAM yang lebih cepat yaitu 8533 MT/s sedangkan laptop AMD memiliki RAM 7500 MT/s.
Meskipun demikian, prosesor AMD Ryzen™ AI 9 HX 375 mencapai kinerja hingga 27% lebih cepat dibandingkan kompetitornya ketika melihat token per detik.
Sebagai referensi, token per detik atau tk/s adalah metrik yang menunjukkan seberapa cepat LLM dapat mengeluarkan token.
Prosesor AMD Ryzen™ AI 9 HX 375 dapat mencapai hingga 50,7 token per detik dalam Meta Llama 3.2 1b Instruct (kuantisasi 4-bit).
Sementara, metrik lain untuk membuat tolok ukur LLM lewat waktu untuk token pertama dengan mengukur latensi antara saat pengguna mengirim perintah dan waktu yang diperlukan model untuk mulai menghasilkan token.
Di sini kita melihat bahwa pada model yang lebih besar, prosesor AMD “Zen 5” berbasis Ryzen™ AI HX 375 bekerja hingga 3,5x lebih cepat dibandingkan prosesor pesaing yang sebanding.
Menggunakan Variable Graphics Memory (VGM)
Masing-masing dari tiga akselerator yang ada dalam CPU AMD Ryzen™ AI memiliki spesialisasi beban kerja dan skenario masing-masing yang unggul.
NPU berbasis arsitektur AMD XDNA™ 2 memberikan efisiensi daya yang luar biasa untuk AI persisten saat menjalankan beban kerja Copilot+, dan CPU memberikan cakupan luas serta kompatibilitas untuk alat dan kerangka kerja – iGPU-lah yang sering menangani tugas AI sesuai permintaan.
LM Studio dilengkapi port llama.cpp yang dapat mempercepat kerangka kerja menggunakan API Vulkan vendor-agnostic. Akselerasi di sini biasanya bergantung pada gabungan kemampuan perangkat keras dan optimalisasi driver untuk Vulkan API.
Mengaktifkan offload GPU di LM Studio menghasilkan peningkatan kinerja rata-rata sebesar 31% pada kinerja Meta Llama 3.2 1b Instruct dibandingkan dengan mode khusus CPU.
Model yang lebih besar seperti Mistral Nemo 2407 12b Instruct yang terikat bandwidth pada fase pembuatan token mengalami peningkatan rata-rata sebesar 5,1%.
Terlihat bahwa saat menggunakan llama.cpp versi berbasis Vulkan di LM Studio dan mengaktifkan GPU-offload, prosesor pesaing menunjukkan performa rata-rata yang jauh lebih rendah di semua model kecuali satu model yang diuji jika dibandingkan dengan mode khusus CPU.
Karena alasan ini dan dalam upaya menjaga perbandingan tetap adil, kami belum menyertakan kinerja GPU-offload Intel Core Ultra 7 258v di back-end Vulkan berbasis Llama.cpp LM Studio.
Prosesor AMD Ryzen™ AI 300 Series juga menyertakan fitur yang disebut Variable Graphics Memory (VGM). Biasanya, program akan menggunakan blok alokasi khusus sebesar 512 MB untuk iGPU ditambah blok memori kedua yang ditempatkan di bagian “bersama” RAM sistem.
VGM memungkinkan pengguna untuk memperluas alokasi 512 “khusus” hingga 75% dari RAM sistem yang tersedia. Kehadiran memori yang berdekatan ini secara signifikan meningkatkan throughput dalam aplikasi yang sensitif terhadap memori.
Setelah mengaktifkan VGM (16GB), ada peningkatan rata-rata lebih lanjut sebesar 22% dalam kinerja di Meta Llama 3.2 1b Instruct dengan total kecepatan rata-rata 60% lebih cepat, dibandingkan dengan CPU, menggunakan akselerasi iGPU bila dikombinasikan dengan VGM.
Bahkan model yang lebih besar seperti Mistral Nemo 2407 12b Instruct mengalami peningkatan kinerja hingga 17% jika dibandingkan dengan mode khusus CPU.
Perbandingan berdampingan: Mistral 7b Instruksikan 0.3
Meskipun laptop pesaing tidak menawarkan percepatan menggunakan Llama.cpp versi berbasis Vulkan di LM Studio, membandingkan kinerja iGPU menggunakan aplikasi Intel AI Playground pihak pertama (yang didasarkan pada IPEX-LLM dan LangChain) – dengan bertujuan untuk membuat perbandingan yang adil antara pengalaman LLM ramah konsumen terbaik yang tersedia.
Dengan menggunakan model yang disediakan dengan Intel AI Playground – yaitu Mistral 7b Instruct v0.3 dan Microsoft Phi 3.1 Mini Instruct.
Dengan menggunakan kuantisasi serupa di LM Studio, terlihat bahwa AMD Ryzen™ AI 9 HX 375 8,7% lebih cepat di Phi 3.1 dan 13% lebih cepat di Mistral 7b Instruct 0.3.
AMD percaya dalam memajukan batas AI dan menjadikan AI dapat diakses oleh semua orang. Hal ini tidak dapat terjadi jika kemajuan AI terkini dibatasi oleh hambatan teknis atau keterampilan coding yang sangat tinggi – itulah sebabnya aplikasi seperti LM Studio sangat penting.
Selain sebagai cara yang cepat dan mudah untuk menerapkan LLM secara lokal, aplikasi ini memungkinkan pengguna untuk merasakan model tercanggih segera setelah diluncurkan (dengan asumsi proyek llama.cpp mendukung arsitektur tersebut).
Akselerator AI AMD Ryzen™ menawarkan performa luar biasa dan mengaktifkan fitur seperti Variable Graphics Memory dapat menawarkan performa lebih baik lagi untuk kasus penggunaan AI. Semua ini digabungkan untuk memberikan pengalaman pengguna yang luar biasa untuk model bahasa pada laptop x86.
SF-Admin