Anthropic Perkenalkan Claude AI 3.5 Sonnet Baru dan Haiku

Anthropic baru saja mengumumkan peluncuran dua model AI terbaru mereka, yaitu Claude 3.5 Sonnet yang lebih baru dan Claude 3.5 Haiku. Kedua model ini membawa peningkatan besar dalam kemampuan coding dan penggunaan komputer, menjanjikan revolusi dalam cara kita berinteraksi dengan teknologi.

Claude 3.5 Sonnet hadir dengan berbagai peningkatan dibandingkan pendahulunya. Salah satu peningkatan terbesar adalah dalam bidang coding, di mana model ini sudah memimpin pasar. Claude 3.5 Sonnet menunjukkan peningkatan performa yang signifikan pada berbagai benchmark industri. Misalnya, pada SWE-bench Verified, performanya meningkat dari 33,4% menjadi 49,0%, mengalahkan semua model yang tersedia secara publik, termasuk model reasoning seperti OpenAI o1-preview.

Selain itu, Claude 3.5 Sonnet juga menunjukkan peningkatan AI dalam tugas penggunaan alat agentic. Pada TAU-bench, performanya meningkat dari 62,6% menjadi 69,2% di domain ritel, dan dari 36,0% menjadi 46,0% di domain maskapai penerbangan yang lebih menantang. Peningkatan ini dicapai tanpa menambah biaya atau mengurangi kecepatan dibandingkan dengan model sebelumnya.

Claude 3.5 Haiku adalah generasi terbaru dari model AI tercepat Anthropic. Dengan biaya yang sama dan kecepatan yang mirip dengan Claude 3 Haiku, model ini menunjukkan peningkatan di semua aspek keterampilan. Claude 3.5 Haiku bahkan melampaui Claude 3 Opus, model terbesar dari generasi sebelumnya, pada banyak benchmark kecerdasan.

Model ini sangat kuat dalam tugas coding, dengan skor 40,6% pada SWE-bench Verified, mengalahkan banyak agen yang menggunakan model tercanggih yang tersedia secara publik, termasuk Claude 3.5 Sonnet dan GPT-4o. Dengan latensi rendah, peningkatan dalam mengikuti instruksi, dan penggunaan alat yang lebih akurat, Claude 3.5 Haiku sangat cocok untuk produk yang berhadapan langsung dengan pengguna, tugas sub-agen khusus, dan menghasilkan pengalaman yang dipersonalisasi dari volume data yang besar.

Salah satu fitur paling menarik dari Claude 3.5 Sonnet adalah kemampuan penggunaan komputer yang baru diperkenalkan dalam versi beta publik. Fitur ini memungkinkan Claude untuk menggunakan komputer seperti manusia—melihat layar, menggerakkan kursor, mengklik tombol, dan mengetik teks. Meskipun masih dalam tahap awal dan kadang-kadang canggung serta rentan kesalahan, kemampuan ini diharapkan akan berkembang pesat seiring waktu.

Beberapa perusahaan seperti Asana, Canva, Cognition, DoorDash, Replit, dan The Browser Company sudah mulai mengeksplorasi kemungkinan ini. Misalnya, Replit menggunakan kemampuan Claude 3.5 Sonnet dalam penggunaan komputer dan navigasi UI untuk mengembangkan fitur kunci yang mengevaluasi aplikasi saat sedang dibangun untuk produk Replit Agent mereka.

Anthropic bekerja sama dengan US AI Safety Institute (US AISI) dan UK Safety Institute (UK AISI) untuk melakukan pengujian pra-peluncuran model Claude 3.5 Sonnet. Mereka juga mengevaluasi risiko bencana dan menemukan bahwa Standar ASL-2, seperti yang diuraikan dalam Kebijakan Skala Bertanggung Jawab mereka, tetap sesuai untuk model ini.

Sumber: Anthropic