Selama bertahun -tahun, target telah membahas secara internal penggunaan karya hak cipta yang diperoleh melalui cara yang dipertanyakan secara hukum untuk melatih model kecerdasan buatan perusahaan, menurut dokumen peradilan yang diungkapkan pada hari Kamis.

Dokumen -dokumen itu diajukan oleh penggugat di Kadrey v. Meta, salah satu dari banyak perselisihan hak cipta yang perlahan -lahan mendaftar melalui sistem peradilan Amerika Serikat. Terdakwa, tujuan, menyatakan bahwa model pelatihan dalam pekerjaan yang dilindungi IP, khususnya buku, adalah “untuk penggunaan yang adil.” Penggugat, yang termasuk penulis Sarah Silverman dan Ta-Nehisi Coates, tidak setuju.

Bahan -bahan sebelumnya yang diajukan dalam gugatan itu menuduh bahwa Meta Mark Zuckerberg CEO Dia memberi tim meta OK untuk melatih konten dengan hak cipta Dan? Meta menghentikan pembicaraan lisensi data pelatihan AI dengan editor buku. Tetapi presentasi baru, yang sebagian besar menunjukkan bagian -bagian dari obrolan kerja internal antara target yang digunakan, melukis citra paling jelas tentang bagaimana tujuan mungkin menggunakan data hak cipta untuk melatih model mereka, termasuk model di perusahaan. Keluarga Api.

Dalam obrolan, target yang digunakan, termasuk Melanie Kambadur, manajer senior tim peneliti model, membahas model pelatihan tentang karya -karya yang tahu bahwa mereka dapat tegang secara hukum.

“(M) dan pendapatnya akan (dalam baris ‘meminta pengampunan, bukan untuk izin’): kami mencoba untuk memperoleh buku dan meningkatkannya kepada para eksekutif untuk melakukan panggilan,” tulis Xavier Martinet, sebuah tujuan penelitian insinyur, dalam obrolan 2023, Menurut presentasi. “(T) Itulah sebabnya mereka membangun gen generasi gen ini untuk (sic): jadi kita bisa kurang berisiko.”

Martinet mengangkat gagasan membeli buku elektronik dengan harga eceran untuk membangun set pelatihan alih -alih mengurangi perjanjian lisensi dengan editor buku individu. Setelah anggota personalia lain mengatakan bahwa menggunakan materi yang tidak sah dan dengan hak cipta bisa menjadi alasan untuk tantangan hukum, Martinet berlipat ganda, dengan alasan bahwa “satu miliar startup mungkin sudah menggunakan buku bajak laut untuk pelatihan.

“Maksud saya, kasus terburuk: kami menemukan bahwa akhirnya baik -baik saja, sementara start up (sic) (sic) hanya bajak laut banyak buku tentang BitTorrent,” tulis Martinet, Martinet menulis, Menurut presentasi. “(M) dan 2 sen lagi: Cobalah memiliki perjanjian dengan editor secara langsung membutuhkan waktu lama …”

Dalam obrolan yang sama, Kambadur, yang menunjukkan bahwa meta sedang dalam percakapan dengan platform perumahan dokumen Scribd “dan lainnya” untuk mendapatkan lisensi, memperingatkan bahwa saat menggunakan “data yang tersedia untuk umum” untuk pelatihan model akan memerlukan persetujuan, Meta Pengacara Meta menjadi “kurang konservatif” yang telah berada di masa lalu dengan persetujuan seperti itu.

“Ya, kita pasti perlu mendapatkan lisensi atau persetujuan pada data yang tersedia untuk umum,” kata Kambadur, Menurut presentasi. “(D) Ifferte sekarang adalah bahwa kita memiliki lebih banyak uang, lebih banyak pengacara, lebih banyak bantuan biskuev, kemampuan untuk mempercepat/mengintensifkan dengan kecepatan, dan pengacara sedikit kurang konservatif dalam persetujuan.”

Pembicaraan libgen

Dalam obrolan kerja lain yang dikirimkan dalam presentasi, Kambadur mungkin menganalisis Libgen, “agregator tautan” yang menyediakan akses ke tempat kerja dengan hak cipta para editor, sebagai alternatif dari sumber data yang dapat dilis oleh Meta.

Libgen telah digugat beberapa kali, ia diperintahkan untuk menutup dan mendenda puluhan juta dolar karena pelanggaran hak cipta. Salah satu rekan Kambadur menanggapi dengan tangkapan layar Dari hasil pencarian Google untuk libgen yang berisi fragmen “Tidak, Liben tidak legal”.

Beberapa pembuat keputusan dalam tujuan tampaknya memiliki kesan bahwa tidak menggunakan libgen untuk pelatihan model dapat secara serius merusak daya saing tujuan dalam karier AI, Menurut presentasi.

Dalam email yang ditujukan kepada Wakil Presiden Meta AI, Joelle Pineau, Sony Theakinh, direktur manajemen produk di lini finish, yang disebut model AI Generasi Terakhir (SOTA) dan kategori referensi.

Theakinh juga menggambarkan “mitigasi” dalam email yang bertujuan membantu mengurangi paparan hukum meta, termasuk penghapusan data libgen “dengan jelas ditandai sebagai bajakan/dicuri” dan sama sekali tidak mengutip penggunaan secara publik. “Kami tidak akan menyebarkan penggunaan set data libgge yang digunakan untuk berlatih,” seperti katanya.

Dalam praktiknya, mitigasi ini melibatkan penyisir melalui file libgen untuk kata -kata seperti “dicuri” atau “bajak laut”, Menurut presentasi.

Di dalam Obrolan kerjaKambadur tersebut Tim tujuan AI itu juga menyetel model untuk “menghindari indikasi risiko IP”, yaitu, mengkonfigurasi model untuk menolak menjawab pertanyaan seperti “mereproduksi tiga halaman pertama ‘Harry Potter dan The Sorcerer’s Stone’ atau” Tell Me Buku-buku apa yang dilatihnya. “

Presentasi berisi wahyu lain, yang menyiratkan target itu Mungkin ada data Reddit Untuk beberapa jenis pelatihan model, mungkin meniru perilaku aplikasi pihak ketiga yang disebut Pemindahan. Khususnya, reddit pepatah Pada bulan April 2023, ia berencana untuk mulai menagih perusahaan AI untuk mengakses data untuk pelatihan model.

Di dalam Obrolan Maret 2024Chaya Nayak, direktur manajemen produk AI ORD generatif Meta, mengatakan bahwa target kepemimpinan sedang mempertimbangkan “dibatalkan” keputusan masa lalu tentang set pelatihan, termasuk keputusan untuk tidak memastikan bahwa model perusahaan akan memiliki data pelatihan yang cukup.

Nayak berarti bahwa pelatihan set data dari bagian pertama meta: publikasi Facebook dan Instagram, teks yang ditranskripsi dari video di platform target Tujuan bisnis Pesan: Itu tidak cukup. “(W) membutuhkan lebih banyak data,” tulisnya.

Penggugat di Kadrey v. Meta telah memodifikasi keluhan mereka beberapa kali sejak kasus ini disajikan di Pengadilan Distrik Amerika Serikat untuk Distrik Utara California, Divisi San Francisco, pada tahun 2023. Tuduhan terakhir yang menempatkan, di antara klaim lainnya, dirujuk dilintasi. Buku bajak laut tertentu dengan buku -buku dengan hak cipta yang tersedia untuk lisensi untuk menentukan apakah masuk akal untuk mengikuti perjanjian lisensi dengan editor.

Dalam tanda seberapa tinggi tujuan mempertimbangkan taruhan hukum, perusahaan telah ditambahkan Dua perampokan dari Mahkamah Agung firma hukum Paul Weiss ke tim pembelaannya dalam kasus ini.

Meta tidak segera menanggapi permintaan komentar.

Source link