Alibaba Cloud memperkenalkan sistem baru bernama Aegaeon yang diklaim mampu menekan penggunaan GPU secara signifikan dalam melayani model bahasa besar. Berdasarkan hasil uji coba internal selama beberapa bulan, sistem ini mampu mengurangi kebutuhan GPU hingga 82%. Temuan tersebut dipresentasikan dalam konferensi ilmiah ACM Symposium on Operating Systems (SOSP) 2025 yang berlangsung di Seoul, Korea Selatan.
Penelitian ini menunjukkan bahwa penyedia layanan cloud dapat memaksimalkan kapasitas chip yang sudah ada tanpa menambah jumlah perangkat keras. Hal ini menjadi penting di pasar seperti Tiongkok, di mana pasokan GPU terbaru Nvidia, termasuk seri H20, masih terbatas akibat kebijakan ekspor Amerika Serikat.
Berbeda dari inovasi yang berfokus pada pelatihan model, Aegaeon dirancang untuk meningkatkan efisiensi saat proses inferensi atau penggunaan model. Sistem ini berfungsi sebagai penjadwal yang mengoptimalkan pemakaian GPU ketika banyak model dijalankan secara bersamaan, terutama dalam situasi permintaan yang tidak menentu.
Alih-alih mengalokasikan satu GPU untuk satu model, Aegaeon membuat akses GPU menjadi virtual dan fleksibel. Proses kerja dibagi pada tingkat token, sehingga satu GPU bisa melayani beberapa model sekaligus. Pendekatan ini memungkinkan peningkatan kinerja keseluruhan hingga sembilan kali lipat dibandingkan sistem serverless tradisional.
Selama periode pengujian, sistem ini digunakan untuk mendukung berbagai model bahasa besar dengan ukuran hingga 72 miliar parameter. Jumlah GPU yang diperlukan menurun drastis, dari 1.192 unit menjadi hanya 213 unit. Tim yang mengerjakan penelitian ini berasal dari Universitas Peking dan divisi infrastruktur Alibaba, termasuk CTO Jingren Zhou.
Menurut laporan South China Morning Post, uji coba dilakukan menggunakan GPU Nvidia H20. GPU ini menjadi salah satu yang masih bisa dibeli oleh perusahaan di Tiongkok di tengah pembatasan ekspor dari Amerika Serikat. Meskipun rincian model yang digunakan tidak dijelaskan secara mendetail, hasilnya menunjukkan efisiensi luar biasa dalam skala besar.
Alibaba menjelaskan bahwa peningkatan efisiensi tersebut dicapai melalui dua pendekatan utama. Pertama, sistem ini menggabungkan beberapa model dalam satu GPU. Kedua, Aegaeon memakai teknik autoscaling berbasis token untuk menyesuaikan alokasi komputasi secara dinamis saat model menghasilkan output. Artinya, sumber daya tidak lagi disiapkan berdasarkan permintaan penuh di awal, melainkan dialokasikan secara real-time.
Dalam berbagai pengujian, Aegaeon terbukti mampu melampaui performa sistem lain seperti ServerlessLLM dan MuxServe. Kinerja efektifnya, yang disebut goodput, meningkat antara 1,5 hingga 9 kali lipat dibandingkan kedua pesaingnya.
Namun, belum jelas apakah hasil tersebut bisa diterapkan di luar ekosistem Alibaba Cloud. Peneliti tidak menjelaskan detail mengenai infrastruktur jaringan yang digunakan dalam pengujian. Alibaba sendiri diketahui memiliki jaringan eRDMA (Elastic RDMA) yang mendukung komunikasi berkecepatan tinggi antar GPU. Infrastruktur internal yang terintegrasi ini mungkin menjadi faktor penting dalam keberhasilan sistem Aegaeon.
Meski begitu, inovasi ini menarik perhatian penyedia layanan cloud besar di seluruh dunia. Dalam kondisi permintaan komputasi AI yang terus meningkat dan pasokan chip akselerator yang terbatas, sistem seperti Aegaeon bisa menjadi solusi menarik untuk meningkatkan efisiensi. Jika pendekatan ini terbukti berhasil di luar Alibaba Cloud, dampaknya bisa mengubah cara perusahaan mengelola sumber daya GPU secara global.
Sumber: Tomshardware
