Sebuah penelitian terbaru dari AI Disclosures Project mempertanyakan sumber data yang digunakan OpenAI untuk melatih model bahasa besar (LLM) mereka. Temuan mengungkapkan bahwa model GPT-4o dari OpenAI menunjukkan pengenalan kuat terhadap konten berbayar dan materi berhak cipta dari buku-buku O’Reilly Media.
Transparansi Data dalam Pelatihan AI
Proyek yang dipimpin oleh teknolog Tim O’Reilly dan ekonom Ilan Strauss ini bertujuan mengatasi dampak sosial negatif dari komersialisasi AI dengan mendorong transparansi korporasi dan teknologi. Laporan kerja mereka membandingkan kurangnya keterbukaan dalam industri AI dengan standar pengungkapan finansial yang berperan penting dalam pasar sekuritas.
Metodologi Penelitian
Tim peneliti menggunakan 34 buku berhak cipta O’Reilly Media yang diperoleh secara legal untuk menyelidiki kemungkinan pelatihan model OpenAI tanpa izin. Mereka menerapkan metode serangan inferensi keanggotaan DE-COP untuk menguji kemampuan model membedakan antara teks asli karya manusia dan versi yang diparafrasekan oleh LLM.
Temuan Utama
- GPT-4o menunjukkan pengenalan kuat terhadap konten berbayar O’Reilly dengan skor AUROC 82%, sementara GPT-3.5 Turbo hanya mencapai sedikit di atas 50%
- Kemampuan pengenalan GPT-4o lebih baik pada konten non-publik (82%) dibanding sampel yang tersedia bebas (64%)
- GPT-3.5 Turbo justru lebih baik mengenali sampel buku yang tersedia publik (64% vs 54%)
- Model lebih kecil GPT-4o Mini tidak menunjukkan pengetahuan tentang konten O’Reilly (AUROC sekitar 50%)
Pelanggaran akses mungkin terjadi melalui basis data LibGen, karena semua buku O’Reilly yang diuji tersedia di sana.
Peneliti juga mencatat bahwa meskipun LLM generasi baru lebih mampu membedakan bahasa manusia dan mesin, hal ini tidak mengurangi efektivitas metode klasifikasi data.
Implikasi dan Rekomendasi
Studi ini mengidentifikasi potensi bias temporal akibat perubahan bahasa seiring waktu. Untuk mengatasinya, peneliti menguji dua model (GPT-4o dan GPT-4o Mini) yang dilatih dengan data periode sama.
Meski bukti spesifik untuk OpenAI dan buku O’Reilly, temuan ini mencerminkan masalah sistemik penggunaan data berhak cipta. Penggunaan data pelatihan tanpa kompensasi dikhawatirkan menurunkan kualitas dan keragaman konten internet seiring menyusutnya aliran pendapatan bagi pencipta konten profesional.
Ketentuan pertanggungjawaban yang mendorong transparansi korporasi dalam mengungkapkan asal-usul data mungkin menjadi langkah penting menuju pasar komersial untuk lisensi dan remunerasi data pelatihan.
Persyaratan pengungkapan dalam EU AI Act dinilai dapat memicu siklus standar pengungkapan positif jika diterapkan dengan tepat. Penting bagi pemegang hak kekayaan intelektual mengetahui kapan karya mereka digunakan untuk pelatihan model.
Pasar Lisensi yang Berkembang
Di tengah bukti penggunaan data ilegal, muncul pasar di mana pengembang model AI membayar konten melalui kesepakatan lisensi. Perusahaan seperti Defined.ai memfasilitasi pembelian data pelatihan dengan memperoleh persetujuan penyedia data dan menghilangkan informasi identitas pribadi.
Dengan menganalisis 34 buku proprietary O’Reilly Media, penelitian ini memberikan bukti empiris bahwa OpenAI kemungkinan melatih GPT-4o menggunakan data berhak cipta yang tidak tersedia untuk publik.