Google baru saja meluncurkan aplikasi baru yang mungkin tidak diminta oleh siapa pun, tetapi semua orang ingin mencobanya. Aplikasi bernama AI Edge Gallery, yang diluncurkan secara diam-diam pada 31 Mei, membawa kecerdasan buatan langsung ke smartphone Anda—tanpa perlu koneksi internet, tanpa berbagi data dengan server besar milik perusahaan teknologi.

Aplikasi eksperimental ini dirilis di bawah lisensi Apache 2.0, yang memungkinkan siapa saja untuk menggunakannya untuk hampir semua tujuan. Saat ini, aplikasi ini tersedia di GitHub, mulai untuk platform Android, dengan versi iOS yang akan segera menyusul.

Aplikasi ini menjalankan model seperti Gemma 3n sepenuhnya offline, memproses segala hal mulai dari analisis gambar hingga penulisan kode hanya dengan menggunakan perangkat keras ponsel Anda. Yang mengejutkan, kinerjanya sangat baik.

Aplikasi ini, yang tampaknya ditujukan terutama untuk pengembang saat ini, mencakup tiga fitur utama: AI Chat untuk percakapan, Ask Image untuk analisis visual, dan Prompt Lab untuk tugas satu kali seperti menulis ulang teks.

Pengguna dapat mengunduh model dari platform seperti Hugging Face, meskipun pilihan yang tersedia masih terbatas pada format seperti Gemma-3n-E2B dan Qwen2.5-1.5 B.

Pengguna Reddit segera mempertanyakan kebaruan aplikasi ini, membandingkannya dengan solusi yang sudah ada seperti PocketPal. Beberapa pengguna juga mengemukakan kekhawatiran tentang keamanan, meskipun hosting aplikasi ini di GitHub resmi Google memitigasi klaim pemalsuan. Hingga saat ini, belum ada bukti mengenai malware yang terdeteksi.

Kami telah menguji aplikasi ini di Samsung Galaxy S24 Ultra, mengunduh baik model Gemma 3 terbesar maupun terkecil yang tersedia. Setiap model AI adalah file mandiri yang menyimpan semua 'pengetahuannya'—anggap saja ini sebagai mengunduh cuplikan terkompresi dari semua yang dipelajari model selama pelatihan, alih-alih database fakta raksasa seperti aplikasi Wikipedia lokal. Model Gemma 3 terbesar yang tersedia dalam aplikasi ini berukuran sekitar 4,4 GB, sementara yang terkecil sekitar 554 MB.

Setelah diunduh, tidak diperlukan data lebih lanjut—model berjalan sepenuhnya di perangkat Anda, menjawab pertanyaan dan melakukan tugas hanya dengan menggunakan apa yang telah dipelajari sebelum dirilis.

Bahkan pada inferensi CPU dengan kecepatan rendah, pengalaman yang didapat setara dengan apa yang ditawarkan GPT-3.5 saat peluncuran: tidak terlalu cepat dengan model-model besar, tetapi tetap dapat digunakan. Model Gemma 3 1B yang lebih kecil mencapai kecepatan lebih dari 20 token per detik, memberikan pengalaman yang mulus dengan akurasi yang dapat diandalkan di bawah pengawasan.

Ini sangat penting ketika Anda offline atau menangani data sensitif yang lebih baik tidak dibagikan dengan algoritma pelatihan Google atau OpenAI, yang menggunakan data Anda secara default kecuali Anda memilih untuk tidak ikut serta.

Inferensi GPU pada model Gemma terkecil memberikan kecepatan pengisian yang mengesankan lebih dari 105 token per detik, sementara inferensi CPU dikelola dengan kecepatan 39 token per detik. Output token—seberapa cepat model menghasilkan respons setelah berpikir—mencapai sekitar 10 token per detik pada GPU rata-rata dan tujuh pada CPU.

Kemampuan multimodal berfungsi dengan baik selama pengujian. Selain itu, tampaknya inferensi CPU pada model yang lebih kecil menghasilkan hasil yang lebih baik dibandingkan inferensi GPU, meskipun ini mungkin bersifat anekdot; namun ini telah diamati dalam berbagai pengujian.

Misalnya, selama tugas visi, model pada inferensi CPU dengan akurat memperkirakan usia saya dan istri saya dalam foto percobaan: akhir 30-an untuk saya, dan akhir 20-an untuk dia. Inferensi GPU yang seharusnya lebih baik malah salah menebak usia saya, mengira saya masih di usia 20-an (saya akan lebih memilih "informasi" ini dibandingkan kebenarannya).

Model-model dari Google dilengkapi dengan sensor yang berat, tetapi jailbreak dasar bisa dicapai dengan usaha minimal. Berbeda dengan layanan terpusat yang melarang pengguna karena upaya penghindaran, model lokal tidak melaporkan kembali tentang permintaan Anda, sehingga bisa menjadi praktik baik untuk menggunakan teknik jailbreak tanpa risiko berlangganan atau meminta informasi dari model yang tidak dapat diberikan oleh versi yang disensor.

Dukungan model pihak ketiga tersedia, tetapi agak terbatas. Aplikasi ini hanya menerima file .task, bukan format .safetensor yang diterima luas yang didukung oleh pesaing seperti Ollama. Ini secara signifikan membatasi model yang tersedia, dan meskipun ada cara untuk mengonversi file .safetensor ke .task, tidak semua orang dapat melakukannya.

Pemrosesan kode berfungsi dengan baik, meskipun model khusus seperti Codestral akan menangani tugas pemrograman lebih efektif dibandingkan Gemma 3. Sekali lagi, harus ada versi .task untuk itu, tetapi ini bisa menjadi alternatif yang sangat efektif.

Untuk tugas-tugas dasar, seperti merumuskan ulang, merangkum, dan menjelaskan konsep, model-model ini unggul tanpa mengirim data ke server Samsung atau Google. Jadi, tidak ada kebutuhan bagi pengguna untuk memberikan akses kepada perusahaan teknologi besar ke input, keyboard, atau clipboard mereka, karena perangkat keras mereka sendiri menangani semua pekerjaan yang diperlukan.

Jendela konteks 4096 token terasa terbatas menurut standar 2025, tetapi cocok dengan apa yang merupakan norma hanya dua tahun lalu. Percakapan mengalir dengan alami dalam batasan tersebut. Dan ini mungkin merupakan cara terbaik untuk mendefinisikan pengalaman tersebut.

Dengan mempertimbangkan bahwa Anda menjalankan model AI di smartphone, aplikasi ini akan memberikan pengalaman yang mirip dengan apa yang ditawarkan ChatGPT awal dalam hal kecepatan dan akurasi teks—dengan beberapa keunggulan seperti multimodalisme dan pemrosesan kode.

Tetapi mengapa Anda ingin menjalankan versi yang lebih lambat dan lebih rendah dari AI favorit Anda di ponsel, yang memakan banyak penyimpanan dan membuat segala sesuatu lebih rumit daripada sekadar mengetik di ChatGPT.com?

Kemampuan privasi tetap menjadi fitur utama. Misalnya, pekerja kesehatan yang menangani data pasien, jurnalis di lapangan, atau siapa pun yang berurusan dengan informasi rahasia kini dapat mengakses kemampuan AI tanpa data meninggalkan perangkat mereka.

“Tanpa internet diperlukan” berarti teknologi ini bekerja di daerah terpencil atau saat bepergian, dengan semua respons dihasilkan hanya dari pengetahuan model yang ada saat itu dilatih. Penghematan biaya cepat terakumulasi. Layanan AI cloud mengenakan biaya per penggunaan, sementara model lokal hanya memerlukan daya pemrosesan ponsel Anda. Bisnis kecil dan penggemar dapat bereksperimen tanpa biaya berkelanjutan. Jika Anda menjalankan model secara lokal, Anda dapat berinteraksi dengannya sebanyak yang Anda mau tanpa mengonsumsi kuota, kredit, atau langganan, dan tanpa biaya tambahan.

Peningkatan latensi terasa jelas. Tidak ada perjalanan pulang-pergi ke server berarti respons lebih cepat untuk aplikasi real-time, seperti chatbot atau analisis gambar. Ini juga berarti chatbot Anda tidak akan pernah down.

Secara keseluruhan, untuk tugas-tugas dasar, ini bisa lebih dari cukup untuk pengguna mana pun, dengan versi gratis dari ChatGPT, Claude, Gemini, Meta, Reka, dan Mistral memberikan cadangan yang baik saat diperlukan komputasi lebih berat.

Tentu saja, ini tidak akan menjadi pengganti chatbot favorit Anda yang terhubung ke internet dalam waktu dekat. Ada beberapa tantangan awal dalam adopsi.

Kekhawatiran tentang daya tahan baterai tetap ada, terutama dengan model-model yang lebih besar; kompleksitas pengaturan mungkin menghalangi pengguna yang tidak teknis; variasi model jauh lebih sedikit dibandingkan penawaran cloud, dan keputusan Google untuk tidak mendukung model .safetensor (yang mencakup hampir 100% dari semua LLM yang ditemukan di internet) sangat mengecewakan.

Namun, rilis eksperimental Google ini menunjukkan pergeseran dalam filosofi penerapan AI. Alih-alih memaksa pengguna untuk memilih antara AI yang kuat dan privasi, perusahaan ini menawarkan keduanya, meskipun pengalaman tersebut belum sepenuhnya optimal.

AI Edge Gallery menghadirkan pengalaman yang mengejutkan halus untuk rilis alpha. Optimisasi Google menunjukkan penciptaan antarmuka pengguna yang mungkin merupakan yang terbaik untuk menjalankan model AI secara lokal.

Menambahkan dukungan .safetensor akan membuka ekosistem besar dari model yang sudah ada, mengubah aplikasi yang baik ini menjadi alat penting bagi pengguna AI yang peduli dengan privasi.