AI Agent AutoGLM Berjalan Di Perangkatmu
Waktu itu, saya pernah diskusi tentang sebuah pertanyaan sederhana namun cukup menarik di bahas : "Jika AI itu bisa jadi asisten, apa bisa AI mengangkat telepon terus ngerjain tugas dari awal hingga akhir tanpa perlu kita operasikan ya ?"
Kebetulan baru kemarin di salah satu server discord z.ai membagikan link terkait AutoGLM. Di situ saya merasa terkesan. Ini nih ke depan bakal keren banget.
Mimpi yang Terdengar Mustahil
Mari kita jujur. Selama bertahun-tahun, AI hanya bisa berbicara. Ia hidup di dalam chat box, menjawab pertanyaan, membantu menulis email, dan berbagai tugas text-based lainnya. Tapi ada satu hal yang tidak bisa dilakukannya: menggerakkan tangan.
Bayangkan saat kami ingin AI melakukan sesuatu yang konkret, seperti:
- Membuka aplikasi delivery makanan, memilih makanan, dan checkout tanpa campur tangan manusia
- Mengelola notifikasi di cloud phone, merespons komentar, dan memproses like secara otomatis
- Menangani workflow sales, customer service, dan attendance—pekerjaan-pekerjaan repetitif yang membuat semua orang ingin menjerit
Semua itu terasa seperti mimpi yang tidak masuk akal. Bagaimana bisa AI "melihat" layar smartphone, "memahami" apa yang ia lihat, dan kemudian "bertindak" dengan presisi?
Itulah visi AutoGLM: mengajarkan AI seni "Device Agency"—kemampuan untuk menggunakan perangkat seperti manusia.
Awal Chaos, Akhirnya Kontrol
Bayangkan Anda sedang mengajarkan seorang anak kecil untuk menggunakan smartphone. Pertama kali, ia mungkin akan mengetuk-ngetuk layar secara acak. Kadang ia tekan tombol yang salah, atau terjebak dalam satu layar karena tidak tahu harus tekan apa selanjutnya.
Itulah yang dialami AutoGLM di awal.
Tim AutoGLM memulai dari nol pada April 2023. Saat itu, kebanyakan orang belum benar-benar tahu apa itu Large Language Models, dan mereka dengan berani mengajukan pertanyaan: "Bagaimana cara mengajarkan AI untuk 'melihat' dan 'bertindak' pada smartphone?"
Dari "Ketukan Acak" ke "Sentuhan Presisi"
Di versi awal, sistem hanya memahami perintah dasar seperti "tap" atau "swipe". Hasilnya? Bencana. AI akan melakukan operasi yang tidak masuk akal, terjebak dalam infinite loop, atau seperti anak kecil yang bingung di antara terlalu banyak pilihan.
Tim kemudian menghabiskan hampir satu tahun untuk:
- Memetakan setiap jenis kegagalan yang mungkin terjadi—seperti ahli asuransi yang mempertimbangkan segala kemungkinan risiko. Mereka tidak hanya mencatat "gagal," tapi menggali lebih dalam: mengapa gagal? Di mana tepatnya sistem terganggu?
- Membangun sebuah framework lengkap untuk kemampuan penggunaan phone—sebuah "buku panduan universal" tentang cara berinteraksi dengan perangkat. Framework ini mencakup semua aksi fundamental: klik, scroll, ketik, ambil screenshot, dan memahami UI.
- Mengajarkan model untuk "menguraikan" perintah natural language menjadi urutan operasi yang stabil—seperti melatih seseorang untuk mengubah cerita panjang menjadi langkah-langkah konkret yang bisa diulangi.
- Menangani "gesekan lingkungan"—alias dunia nyata yang berantakan. Koneksi internet yang lambat, pop-up yang tidak terduga, overlay iklan yang mengganggu. Semua itu adalah musuh sistem berbasis AI, dan mereka harus belajar mengatasi semuanya.
Perjalanan panjang ini berbuah manis pada 25 Oktober 2024, ketika AutoGLM pertama kali berhasil menyelesaikan operasi penuh pada perangkat nyata dengan stabil. Industri pun mengatakan: ini adalah "AI Agent pertama di dunia dengan kemampuan Phone Use yang sesungguhnya".
Bayangkan rasanya mencapai milestone itu. Setelah berbulan-bulan debugging, iterasi, dan "mengapa tidak berhasil juga," tiba-tiba—berhasil.
Momen Emas: AI Mengirim "Angpao" Pertama
Kisah ini semakin menarik di November 2024.
AutoGLM melakukan sesuatu yang belum pernah ada dalam sejarah manusia: mengirimkan "angpao" (hadiah uang digital) pertama yang diotomatisasi oleh AI.
Ini bukan script. Ini bukan API internal yang dipanggil. Ini adalah AI benar-benar:
- Melihat layar banking app
- Memahami konteks (di mana tombol, apa yang harus dilakukan)
- Mengklik satu per satu, navigasi melalui interface dengan lancar
- Menyelesaikan transaksi
Membaca cerita ini, saya teringat saat pertama kali saya berhasil membuat fitur kompleks bekerja. Ada rasa kepuasan yang tidak bisa dijelaskan. Tapi ini lebih dari itu—ini adalah bukti nyata bahwa "interaksi manual pada smartphone akhirnya bisa diserahkan sepenuhnya kepada AI".
Leveling Up: AutoGLM 2.0 dan Dunia Cloud
Pada 2025, tim melakukan pivot yang cerdas.
Mereka memvalidasi apa yang disebut "scaling laws of Reinforcement Learning"—sebuah konsep yang menyatakan bahwa semakin banyak data dan lingkungan yang AI pelajari, semakin baik performanya. Mereka memperkenalkan tiga algoritma baru:
- MobileRL (untuk mobile devices)
- ComputerRL (untuk desktop/web)
- AgentRL (untuk AI agents umum)
Dengan algoritma-algoritma ini, AutoGLM bisa belajar dari ribuan lingkungan virtual secara bersamaan. Bayangkan seperti melatih seribu robot sekaligus, masing-masing belajar dari pengalaman yang berbeda.
Tapi ada keputusan desain yang lebih penting lagi: mereka memindahkan Agent ke cloud.
Mengapa penting? Karena alasan security dan kontrol.
Bayangkan memberikan smartphone berteknologi AI kepada setiap orang. Teknologi ini bisa mengakses chat pribadi, data bank, dan semua informasi sensitif lainnya. Mengerikan, bukan?
Solusi AutoGLM: letakkan AI dalam "sandbox virtual" yang terisolasi di cloud. Di sini:
- Setiap aksi bisa diputar ulang, diaudit, dan bahkan diintervensi
- Data sensitif pengguna tetap terlindungi di perangkat fisik
- Tim bisa mengawasi dan membatasi apa yang boleh dilakukan AI
Ini adalah wisdom dari pengalaman—mereka tahu bahwa sebelum AI belajar menjadi terlalu powerful, harus ada guardrail yang solid.
Mengapa Membuka Source-nya?
Di sini ceritanya menjadi lebih dalam lagi.
Setelah 32 bulan penelitian dan pengembangan, tim memutuskan untuk membuka source AutoGLM. Keputusan ini tidaklah sederhana—ada tiga alasan filosofis yang mendalam:
1. Satu Perusahaan Tidak Cukup
"AI Phone" sudah menjadi trend. Tapi bayangkan kalau kemampuan "Phone Use" ini hanya di tangan beberapa perusahaan teknologi besar. Apa jadinya?
- Inovasi developer akan tergantung pada apakah platform tersebut membuka API
- Perangkat paling penting dalam hidup kita akan menjadi "Walled Garden"—taman terkurung yang dikontrol orang lain
Dengan open source, kemampuan ini menjadi fondasi publik yang bisa dibangun siapa saja. Seperti bagaimana HTTP atau TCP/IP menjadi pondasi internet yang terbuka untuk semua.
2. Privacy dan Kontrol Kembali ke Pengguna
Teknologi "Phone Use" akan menyentuh hal-hal paling sensitif: chat pribadi, data pembayaran, album foto, sistem enterprise. Tim AutoGLM dengan jelas mengatakan: "Kami tidak ingin hal-hal ini berada di tangan kami".
Melalui open source dan deployment pribadi, setiap enterprise dan developer bisa:
- Menjalankan AI Agent di infrastruktur mereka sendiri
- Menjamin data tetap dalam kontrol penuh mereka
- Melakukan audit dan compliance sesuai regulasi setempat
Singkatnya: teknologi terbuka untuk ekosistem, tapi data dan privacy selamanya milik pengguna.
3. Membuka Era Baru Agent
32 bulan adalah perjalanan yang panjang. Banyak pit fall, banyak iterasi, banyak framework yang ditulis ulang. Pengetahuan ini berharga dan pantas digunakan kembali oleh komunitas.
Tim bermimpi melihat:
- Developer yang membangun "AI-Native phones" berdasarkan AutoGLM
- Researcher yang ekstrak satu module untuk menulis paper atau ciptakan algoritma baru
- Individu developer yang ubah demo menjadi passion project untuk niche scenario
Mereka ingin setiap orang bisa memiliki Mobile Agent mereka sendiri.
Apa yang Bisa Anda Dapatkan Sekarang?
Jangan bayangkan bahwa open sourcing AutoGLM hanya berupa dokumentasi kosong atau pseudocode.
Mereka membagikan paket lengkap "ready-to-use":
- Pre-trained Core Models & Inference Code — Model yang sudah dilatih, siap pakai
- Framework "Phone Use" & Toolchain — Arsitektur lengkap untuk memahami dan berinteraksi dengan UI
- Demo yang Runnable — 50+ aplikasi China yang bisa langsung dicoba
- Android Adaptation Layer — Code untuk integrate ke platform Android
- Dokumentasi & Quick Start — Panduan langkah-demi-langkah
Semuanya di-release dengan lisensi MIT (models) dan Apache-2.0 (code), hosted di GitHub. Artinya, Anda bebas menggunakannya, memodifikasi, bahkan menggantinya dengan sesuatu yang sama sekali berbeda.
Menjelang Dekade Agent
Membaca tentang AutoGLM, saya teringat pada satu kutipan dari Andrej Karpathy (ex-Tesla):
Kita tidak hanya menghadapi "Year of the Agent," tapi "Decade of the Agent"
Artinya, sesuatu yang besar sedang bergerak di bawah permukaan. 2025 mungkin baru awal. Di masa depan, AI Agent akan menjadi semacam "Jarvis"—asisten digital yang benar-benar bisa mengerti apa yang Anda inginkan dan melakukannya.
Dan AutoGLM? Mereka baru saja memberi dunia satu blok bangunan penting untuk mewujudkan mimpi itu.
Refleksi Personal
Setelah membaca perjalanan 32 bulan AutoGLM, ada satu lesson yang menggugah hati:
Mimpi besar dimulai dengan pertanyaan sederhana.
"Bisakah AI mengangkat telepon?" Pertanyaan ini sederhana, tapi jawabannya mengubah cara kita berpikir tentang teknologi dan kemampuan AI.
Sama halnya dalam development. Sering kali kita terjebak pada "bagaimana cara coding ini?" padahal yang lebih penting adalah "apa yang sebenarnya ingin kita capai?" Ketika kita jelas tentang tujuan, barulah solusi teknis menjadi lancar.
Tim AutoGLM tidak hanya membangun teknologi. Mereka membangun visi—bahwa AI seharusnya hidup di dunia nyata, bukan hanya di chat box. Dan dengan membuka source, mereka mengatakan: "Mari kita wujudkan visi ini bersama-sama."
Di era AI ini, mungkin itu yang paling berharga dari semuanya—bukan hanya teknologi, tapi komunitas dan semangat kolaborasi untuk membangun masa depan yang lebih baik.
Selamat malam, dunia AI. Era Agent sudah dimulai. 🚀
Sumber : https://xiao9905.github.io/AutoGLM/blog.html
Comments ()