Nvidia Akui Kesalahan Desain Chip AI Blackwell, TSMC Tidak Bersalah

Dimas Galih Windudjati

Nvidia baru-baru ini mengakui adanya kesalahan desain pada chip AI Blackwell mereka, yang menyebabkan rendahnya hasil produksi. CEO Nvidia, Jensen Huang, menegaskan bahwa kesalahan ini sepenuhnya tanggung jawab Nvidia dan bukan disebabkan oleh mitra produksi mereka, TSMC. Pernyataan ini sekaligus membantah rumor adanya ketegangan antara Nvidia dan TSMC.

Kesalahan desain pada chip Blackwell ini pertama kali terungkap beberapa bulan lalu. Menurut Huang, meskipun chip tersebut berfungsi, kesalahan desain menyebabkan hasil produksi yang rendah. Nvidia bekerja sama dengan TSMC untuk memperbaiki masalah ini dengan cepat. Huang menyatakan bahwa kesalahan ini sepenuhnya tanggung jawab Nvidia dan bukan disebabkan oleh TSMC.

Chip Blackwell B100 dan B200 menggunakan teknologi pengemasan CoWoS-L dari TSMC, yang mengandalkan interposer RDL dengan jembatan LSI untuk memungkinkan transfer data hingga 10 TB/s. Penempatan jembatan ini sangat krusial. Namun, ketidakcocokan dalam sifat ekspansi termal antara chiplet GPU, jembatan LSI, interposer RDL, dan substrat motherboard menyebabkan sistem melengkung dan gagal berfungsi. Nvidia harus memodifikasi lapisan logam atas dan bump silikon GPU untuk meningkatkan hasil produksi.

Meskipun Nvidia tidak mengungkapkan detail spesifik tentang perbaikan tersebut, mereka menyebutkan bahwa diperlukan masker baru. Masalah seperti ini bukan hal yang asing dalam dunia semikonduktor. Biasanya, perusahaan memperbaikinya dengan memodifikasi satu atau dua lapisan logam dan menyebutnya sebagai stepping baru.

Sebagai contoh, Intel’s Sapphire Rapids dilaporkan memiliki 500 bug dan perusahaan tersebut merilis sekitar selusin stepping untuk memperbaikinya. Setiap stepping baru memerlukan waktu sekitar tiga bulan untuk diselesaikan, termasuk mengidentifikasi masalah, memperbaikinya, dan memproduksi versi chip yang baru. Kecepatan Nvidia dan TSMC dalam memperbaiki chip Blackwell ini sangat mengesankan.

Chip Blackwell yang telah diperbaiki akan memasuki produksi massal pada akhir Oktober dan diharapkan mulai dikirimkan awal tahun depan. Namun, untuk memenuhi permintaan dari penyedia layanan cloud besar seperti AWS, Google, dan Microsoft, Nvidia masih harus mengirimkan beberapa chip Blackwell dengan hasil produksi rendah pada tahun 2024. Belum jelas berapa banyak chip Blackwell yang akan dikirimkan ke pusat data pada tahun 2024.

Pengakuan Nvidia atas kesalahan desain chip Blackwell menunjukkan transparansi dan tanggung jawab perusahaan dalam menghadapi masalah produksi. Kerja sama yang cepat dan efektif dengan TSMC menunjukkan komitmen kedua perusahaan untuk mengatasi tantangan teknis dan memenuhi permintaan pasar. Dengan perbaikan yang telah dilakukan, Nvidia siap untuk melanjutkan produksi dan pengiriman chip Blackwell untuk AI dan superkomputer, yang diharapkan dapat memenuhi kebutuhan industri teknologi yang terus berkembang.

Sumber: Tomshardware

Share This Article
Leave a comment

Leave a Reply

Your email address will not be published. Required fields are marked *