Oleh: Abhas Ricky, Chief Business Officer and GM of Applied AI
Era kecepatan dan akses sedang berakhir. Apa yang menggantikan era tersebut kelak akan menjadi penentu korporasi mana yang keluar sebagai pemenang dan siapa yang tereliminasi.
Selama dua tahun terakhir, strategi AI enterprise hanya digerakkan oleh satu dorongan utama: menjadi yang tercepat dalam mencapai garda terdepan teknologi. Jalur yang paling umum dipilih hampir selalu sama: akun public cloud, API key dari OpenAI, atau Anthropic, dan kesiapan menanggung biaya demi mengejar kecepatan. Insting ini memicu gelombang eksperimentasi yang luar biasa, namun kini mulai mulai membentur dinding pembatas.
Gartner memperkirakan belanja AI global akan mencapai US$2,52 triliun pada 2026, naik 44% dibandingkan tahun sebelumnya, dengan US$1,37 triliun di antaranya dialokasikan khusus untuk infrastruktur AI. Di Asia Tenggara, investasi AI mengalami pertumbuhan tahunan sebesar 25%, dengan total investasi AI akan melampaui US$110 miliar pada 2028. Bahkan, pada pertengahan 2025, Gartner menyatakan bahwa AI untuk pengadaan telah memasuki fase “Trough of Disillusionment”, sebuah fase di mana scaling akan ditentukan oleh kepastian laba atas investasi yang terukur, bukan lagi sekadar proyek percontohan yang bersifat visioner. Fokus tekanan kini telah bergeser, bukan lagi tentang seberapa cepat korporasi dapat meluncurkan uji coba sistem AI, melainkan apakah mereka mampu menjaga keberlanjutannya, punya tata kelola, serta memitigasi risiko di fase produksi.
Dari akses ke model-model tercanggih menuju ekonomi inferensi
Kita sedang bergerak dari era AI 1.0, di mana akses ke model-model paling mutakhir menjadi faktor pembeda yang utama, menuju era AI 2.0, di mana aspek ekonomi inferensi, data gravity, latensi, dan kontrol menjadi penentu hasil akhir. Meski harga token telah merosot sekitar sepuluh kali lipat setiap tahun sejak 2021, tetapi total pengeluaran AI di sebagian besar perusahaan justru meningkat, bukan menurun, karena model yang semakin canggih mendorong munculnya alur kerja yang lebih ambisius.
Anthropic, OpenAI, dan Mistral kini mulai membedakan penawaran mereka, memisahkan model penalaran kelas flagship dan model utilitas berbiaya rendah, karena pelanggan enggan membayar harga premium untuk setiap tugas. Survei McKinsey State of AI 2025 mengonfirmasi pola ini — meski adopsi AI semakin meluas, tetapi dampak transformatif dalam skala besar masih sulit diwujudkan oleh sebagian besar organisasi. Pertanyaan yang kini diajukan para CIO bukan lagi model mana yang terbaik, melainkan beban kerja mana yang harus dieksekusi di platform mana, dengan biaya berapa, dan di bawah otoritas kebijakan siapa.
Ujian “Next Best Action”
Ambil contoh kasus perusahaan yang sudah sangat familiar: sebuah bank yang mengeksekusi the next best action, baik melalui aplikasi, interaksi di kantor cabang, atau rekomendasi call center yang disajikan dalam hitungan milidetik berdasarkan konteks pelanggan secara real-time. Bank-bank terbaik yang bekerja sama dengan kami membuktikan bahwa personalisasi pada layer ini dapat meningkatkan pendapatan sebesar 5–15%. Salah satu bank global yang bekerja sama dengan kami meluncurkan asisten AI yang telah menyelesaikan lebih dari 1,5 juta pertanyaan pelanggan hanya dalam tahun pertama operasionalnya.
Namun, perhitungan matematis dalam inferensi tidak kenal kompromi. Satu keputusan mandiri yang diambil oleh sistem berbasis agen dapat memicu lima hingga dua puluh panggilan model, masing-masing mengusung beban context window sendiri. Selisih harga antara US$0,50 dan US$3,30 per satu juta input token — yang tampak sangat sepele dalam demo satu kali interaksi — menjadi faktor penentu apakah fitur tersebut akan menghasilkan margin positif atau diam-diam menguras modal di tengah ratusan juta interaksi pelanggan.
Analisis terbaru menunjukkan bahwa perusahaan yang menjalankan satu model kelas atas/premium untuk setiap jenis tugas, akan mengalami pembengkakan pengeluaran sebesar 40-85% untuk biaya inferensi. Decagon, setelah merombak ulang arsitekturnya ke dalam open source multi-model stack, yang berjalan di atas infrastruktur NVIDIA Blackwell, berhasil memangkas biaya per voice query hingga enam kali lipat. Next best action kini bukan lagi sekadar keputusan pemasaran; ini adalah keputusan ekonomi per unit, yang ditentukan secara presisi pada setiap token yang diarahkan.
Kedaulatan Menjadi Strategi
Perdebatan antara public cloud dan private AI kini bukan lagi persoalan ideologi — melainkan sangat bergantung pada jenis workload, dan geopolitik kini ikut memainkan peran.
Kewajiban regulasi untuk sistem berisiko tinggi dalam EU AI Act akan mulai diberlakukan secara penuh pada Agustus 2026, dengan ancaman denda hingga €35 juta atau 7% dari total omzet global tahunan perusahaan; Prancis dan Jerman pun mulai mengarahkan kebijakan pengadaan sektor publik nasional mereka ke Mistral dan sovereign stack berbasis open-weight.
Di Asia, regulasi AI berkembang dengan pendekatan yang sangat berbeda-beda. Model AI Governance Framework di Singapura dan perangkat pengujian IMDA telah menjadi acuan regional. Di Asia Timur, Jepang melalui AI Promotion Act menerapkan aturan sektoral di atas panduan sukarela, sementara AI Basic Act di Korea Selatan mengamanatkan kewajiban kepemilikan asuransi tanggung gugat (liability insurance) bagi sistem berisiko tinggi.
Sementara itu, India meluncurkan sovereign LLM pada AI Impact Summit Februari 2026 dan mengalokasikan US$1,25 miliar untuk project IndiaAI Mission, dengan implementasi bertahap DPDP Act hingga 2027. Gerakan akselerasi open-source yang dikomandoi oleh Tiongkok, pemberlakuan UU PDP di Indonesia, serta pendekatan sektoral Australia yang pragmatis, kian melengkapi peta regulasi yang sangat beragam — dan 96% organisasi di APAC berencana meningkatkan investasi AI mereka, yang sebagian besar dieksekusi melalui infrastruktur hybrid. Arsitektur AI yang hanya bergantung pada platform cloud tunggal dan yurisdiksi tunggal kini telah menjelma menjadi sebuah liabilitas struktural yang berisiko tinggi.
Kerja sama hybrid inference kami dengan NVIDIA, serta pergeseran yang lebih luas menuju AI on-premise untuk workload yang diawasi ketat regulasi, merupakan respons langsung terhadap kondisi tersebut.
Keunggulan Kompetitif Sejati Ada di Atas Model
Pelajaran paling sulit dalam 18 bulan terakhir adalah bahwa komoditisasi model sama sekali tidak mengurangi kompleksitas enterprise, melainkan hanya memindahkannya. Kehadiran model open-weight dari Mistral ataupun DeepSeek memang berhasil memangkas biaya eksperimentasi, namun beban orkestrasi, tata kelola, evaluasi, serta integrasi sistem kini justru bergerak naik ke lapisan atas stack dan harus dipikul oleh pihak pembeli.
Dinamika yang sama kini mulai terlihat dalam physical AI dan defense tech (teknologi pertahanan). Perusahaan seperti Physical Intelligence, Figure AI, dan Skild AI mendorong implementasi model fondasi robotika ke lingkungan pabrik, pusat-pusat pemenuhan logistik, dan rumah tangga, di mana aspek latensi, kedaulatan, dan residensi data jauh lebih penting dibanding skor benchmark. Di sisi lain, World Labs besutan Fei-Fei Li sedang membangun lapisan kecerdasan spasial (spatial intelligence) — yaitu model dunia (world models) yang mampu mempersepsikan dan bernalar dalam ruang 3D — yang akan menjadi jangkar bagi generasi penerus industrial digital twins. Palantir dan Anduril bahkan membangun keseluruhan lini bisnis mereka berdasarkan asumsi bahwa control plane, bukan modelnya, yang merupakan keunggulan kompetitif jangka panjang yang sesungguhnya.
Para pemimpin enterprise seharusnya mulai mengukur metrik ekonomi per unit untuk setiap tugas yang bernilai guna, beban operasional per agen yang diimplementasikan, serta proporsi biaya inferensi yang dialokasikan untuk infrastruktur penopang tata kelola di sekelilingnya. Rasio tersebut umumnya berkisar di angka 1:5 atau bahkan lebih buruk.
Apa Selanjutnya bagi Bank, Telco, dan Pabrik
Pergeseran arsitektur kedua kini mulai hadir: mekanisme sub-quadratic attention. Pendekatan yang diusung oleh DeepSeek, Google, dan Cartesia berhasil memangkas biaya penalaran untuk konteks panjang (long-context) secara drastis hingga beberapa kali lipat. Bahkan hasil uji benchmark terbaru menunjukkan adanya pengurangan biaya hingga 100–300 kali lipat dengan tetap mempertahankan tingkat akurasi yang setara.
Bagi bank besar, hal ini mentransformasi pemodelan risiko seluruh portofolio, deteksi pola fraud lintas dekade, dan prosedur kepatuhan Know-Your-Customer (KYC) lintas yurisdiksi, menjadi operasi satu kali proses, mengeliminasi solusi yang mengharuskan data dipecah dan dipanggil secara terfragmentasi atau dipotong-potong (chunked retrieval workarounds).
Bagi perusahaan telekomunikasi, operasional jaringan berbasis agen, predictive maintenance, dan penalaran rekam jejak perjalanan pelanggan multi-tahun, kini menjadi strategi yang sangat layak secara ekonomi dalam skala implementasi massal.
Bagi perusahaan manufaktur, simulasi operasional pabrik secara menyeluruh dan prediksi gangguan rantai pasok kini beralih dari proses komputasi terjadwal secara berkala (periodic batch jobs) berkala menjadi proses penalaran yang berjalan secara berkelanjutan dan real-time.
Arsitektur yang akan memenangkan persaingan bukanlah arsitektur yang sekadar menawarkan harga token termurah. Arsitektur yang akan keluar sebagai pemenang adalah arsitektur yang mampu menempatkan proses komputasi sedekat mungkin dengan lokasi data, beroperasi di bawah yurisdiksi yang tepat, dan didukung oleh tata kelola yang kuat. Berkelanjutan, berdaulat, terkendali — itulah triad baru yang jadi pilar penentu. Perusahaan yang mulai membangunnya sekarang akan menentukan arah lanskap bisnis pada dekade berikutnya.














