Pentingnya Melestarikan Konten Manusia di Era AI: Menelusuri Masalah yang Muncul dari Kontaminasi Konten Digital
Artikel ini tersedia secara eksklusif untuk pelanggan Business Insider. Bergabunglah dan mulai membaca sekarang.
Di era pasca-nuklir, para ilmuwan menyadari sebuah masalah yang aneh: baja yang diproduksi setelah tahun 1945 terkontaminasi. Ledakan bom atom telah menginfus atmosfer dengan radioaktivitas, yang mengkontaminasi logam tersebut.
Akibatnya, sebagian besar baja menjadi tidak berguna untuk peralatan presisi seperti detektor Geiger dan sensor yang sangat akurat. Solusinya? Menyelamatkan baja tua dari kapal perang yang tenggelam sebelum perang, yang terletak jauh di dasar lautan, jauh dari radiasi nuklir. Material ini, yang dikenal sebagai baja latar belakang rendah, menjadi sangat berharga karena kemurniannya dan kelangkaannya.
Beranjak ke tahun 2025, sebuah cerita serupa sedang terungkap — bukan di bawah laut, tetapi di seluruh internet.
Sejak peluncuran ChatGPT pada akhir 2022, konten yang dihasilkan AI telah meledak di berbagai blog, mesin pencari, dan media sosial. Dunia digital semakin dipenuhi dengan konten yang tidak ditulis oleh manusia, tetapi disintesis oleh model dan chatbot. Dan sama seperti radiasi, konten ini sulit dideteksi oleh orang biasa, bersifat meresap, dan mengubah lingkungan tempat ia berada.
Fenomena ini menimbulkan masalah yang sangat rumit bagi peneliti dan pengembang AI. Sebagian besar model AI dilatih menggunakan dataset besar yang diambil dari internet. Secara historis, hal itu berarti belajar dari data manusia: yang berantakan, penuh wawasan, bias, puitis, dan terkadang brilian. Namun, jika AI saat ini dilatih menggunakan teks yang dihasilkan AI di masa lalu, yang juga dilatih menggunakan konten AI dari minggu lalu, maka model berisiko terjebak dalam diri mereka sendiri, mengencerkan orisinalitas dan nuansa dalam apa yang disebut sebagai "kolaps model".
Dengan kata lain: Model AI seharusnya dilatih untuk memahami cara berpikir manusia. Jika mereka sebagian besar dilatih berdasarkan keluaran mereka sendiri, mereka mungkin hanya akan meniru diri mereka sendiri. Seperti menyalin fotokopi, setiap generasi menjadi sedikit lebih buram sampai nuansa, penyimpangan, dan kebaruan yang nyata menghilang.
Hal ini membuat konten yang dihasilkan manusia, sebelum tahun 2022, menjadi lebih berharga karena mengakar pada model AI, dan masyarakat secara umum, dalam kenyataan yang sama, menurut Will Allen, wakil presiden di Cloudflare, yang mengoperasikan salah satu jaringan terbesar di internet.
Ini menjadi sangat penting ketika model AI menyebar ke bidang teknis, seperti kedokteran, hukum, dan pajak. Ia ingin dokternya bergantung pada konten yang berdasarkan penelitian yang ditulis oleh para ahli manusia dari uji coba manusia yang nyata, bukan sumber yang dihasilkan oleh AI, misalnya.
"Data yang memiliki hubungan dengan kenyataan selalu sangat penting dan akan menjadi semakin penting di masa depan," kata Allen. "Jika Anda tidak memiliki kebenaran dasar tersebut, segalanya menjadi jauh lebih rumit."
Masalah Paul Graham
Paul Graham (kiri) menemukan dirinya mencari konten pra-AI untuk mencari tahu bagaimana cara mengatur suhu oven pizza. Joe Corrigan/Getty Images untuk AOL
Ini bukan sekadar teori. Masalah sudah muncul di dunia nyata.
Hampir setahun setelah peluncuran ChatGPT, investor ventura Paul Graham menggambarkan pencarian online untuk mengetahui suhu yang tepat untuk mengatur oven pizza. Ia mendapati dirinya memeriksa tanggal konten untuk menemukan informasi yang lebih tua yang tidak merupakan "umpan SEO yang dihasilkan AI," katanya dalam sebuah pos di X.
Malte Ubl, CTO dari startup AI Vercel dan mantan insinyur pencarian Google, membalas, mengatakan bahwa Graham sedang menyaring internet untuk konten yang "pra-kontaminasi AI."
"Analogi yang saya gunakan adalah baja latar belakang rendah, yang dibuat sebelum uji coba nuklir pertama," ujar Ubl.
Matt Rickard, mantan insinyur Google lainnya, sepakat. Dalam sebuah pos blog pada Juni 2023, ia menjelaskan bahwa dataset modern semakin terkontaminasi.
"Model AI dilatih menggunakan internet. Semakin banyak konten itu diproduksi oleh model AI," jelas Rickard. "Keluaran dari model AI relatif tidak terdeteksi. Menemukan data pelatihan yang tidak diubah oleh AI akan semakin sulit."
Versi digital dari baja latar belakang rendah
Cloudflare anggota dewan John Graham-Cumming adalah seorang pelestari data yang dihasilkan manusia. Tyler Miller/Sportsfile untuk Web Summit via Getty Images
Jawaban, beberapa orang berpendapat, terletak pada pelestarian versi digital dari baja latar belakang rendah: data yang dihasilkan oleh manusia sebelum ledakan AI. Anggaplah ini sebagai fondasi digital internet, yang diciptakan bukan oleh mesin tetapi oleh orang-orang dengan niat dan konteks.
Salah satu pelestari tersebut adalah John Graham-Cumming, anggota dewan Cloudflare dan CTO perusahaan tersebut.
Proyeknya, LowBackgroundSteel.ai, mencatat dataset, situs web, dan media yang ada sebelum tahun 2022, tahun di mana ChatGPT memicu ledakan konten AI generatif. Misalnya, ada Arctic Code Vault GitHub, sebuah arsip perangkat lunak sumber terbuka yang terkubur di tambang batubara yang tidak terpakai di Norwegia. Ini diarsipkan pada Februari 2020, sekitar setahun sebelum ledakan pengkodean yang dibantu AI dimulai.
Inisiatif Graham-Cumming adalah upaya untuk mengarsipkan konten yang mencerminkan web dalam bentuk mentahnya, yang ditulis oleh manusia, tidak terkontaminasi oleh pengisi yang dihasilkan LLM dan limbah yang dioptimalkan untuk SEO.
Sumber lain yang ia sebutkan adalah "wordfreq," sebuah proyek untuk melacak frekuensi kata yang digunakan secara online. Ahli bahasa Robyn Speer mengelola proyek ini, tetapi menghentikannya pada tahun 2021.
"Generative AI telah mencemari data," tulisnya dalam pembaruan 2024 di platform pengkodean GitHub.
Hal ini mengubah data internet sehingga menjadi kurang dapat diandalkan sebagai panduan tentang bagaimana manusia menulis dan berpikir. Speer mengutip satu contoh yang menunjukkan bagaimana ChatGPT terobsesi dengan kata "delve" dengan cara yang tidak pernah dilakukan orang. Ini menyebabkan kata tersebut muncul jauh lebih sering di internet dalam beberapa tahun terakhir. (Contoh terbaru adalah kecintaan ChatGPT pada em dash — jangan tanya kenapa!)
Kenyataan Bersama Kita
Seperti yang dijelaskan oleh Allen dari Cloudflare, model AI yang dilatih sebagian dengan konten sintetis dapat mempercepat produktivitas dan menghilangkan kebosanan dari pekerjaan kreatif dan tugas lainnya. Ia adalah penggemar dan pengguna reguler ChatGPT, Google's Gemini, dan chatbot lainnya seperti Claude.
Dan seperti halnya data yang dihasilkan manusia, analogi terhadap baja latar belakang rendah tidaklah sempurna. Para ilmuwan telah mengembangkan cara berbeda untuk memproduksi baja yang menggunakan oksigen murni.
Namun, Allen menegaskan, "Anda selalu ingin tetap terhubung dengan tingkat kebenaran tertentu."
Taruhannya melampaui kinerja model. Mereka menjangkau ke dalam struktur kenyataan bersama kita. Sama seperti para ilmuwan mempercayai baja latar belakang rendah untuk pengukuran yang presisi, kita mungkin akan bergantung pada konten pra-AI yang dilestarikan dengan cermat untuk menilai keadaan pikiran manusia yang sebenarnya — untuk memahami bagaimana kita berpikir, bernalar, dan berkomunikasi sebelum era mesin yang meniru kita.
Internet murni telah hilang. Syukurlah, beberapa orang menyimpan salinannya. Dan seperti penyelam yang menyelamatkan baja dari dasar laut, mereka mengingatkan kita: Melestarikan masa lalu mungkin satu-satunya cara untuk membangun masa depan yang dapat dipercaya.