Press ESC to close

Tembikai.comTembikai.com Sumber Informasi Teknologi AI Malaysia

Mengenali World Models: Langkah Besar Seterusnya dalam Dunia AI

World models, atau juga dikenali sebagai world simulators, kini semakin popular dan disebut-sebut sebagai gelombang teknologi AI yang seterusnya.

Tokoh AI terkenal, Fei-Fei Li melalui World Labs, telah berjaya mengumpul dana sebanyak $230 juta untuk membina large world models. Malah, DeepMind juga telah mengambil salah seorang pencipta video generator OpenAI, iaitu Sora, bagi membangunkan teknologi world simulators. (Sora baru sahaja dilancarkan — ini antara ulasan awalnya.)

Tapi… apa sebenarnya benda ni?

World models ini sebenarnya diinspirasikan daripada cara manusia membentuk kefahaman tentang dunia sekeliling. Otak manusia akan menukar maklumat dari deria kepada satu bentuk model mental yang bantu kita faham dan jangka apa yang berlaku di sekeliling kita — semuanya tanpa kita sedar pun.

Sebagai contoh, dalam satu kajian oleh David Ha dan Jürgen Schmidhuber, mereka bandingkan dengan pemain besbol. Pemukul hanya ada beberapa milisaat untuk bertindak balas terhadap bola yang sedang meluncur ke arah mereka — masa yang terlalu singkat untuk otak proses secara sedar. Tapi disebabkan mereka sudah “rasa” dan “faham” ke mana bola akan pergi, otot mereka akan bertindak secara automatik — semuanya berdasarkan model dalaman yang terbentuk dari pengalaman.

“Bagi pemain profesional, semuanya berlaku tanpa mereka fikir panjang,” tulis mereka. “Otot mereka bertindak tepat pada masanya, selaras dengan jangkaan daripada internal model mereka. Mereka boleh bertindak balas terhadap masa depan tanpa perlu bayangkan semua kemungkinan terlebih dahulu.”

Dan inilah aspek bawah sedar yang menjadikan world models dilihat sebagai kunci kepada kecerdasan setaraf manusia.

Bagaimana AI “Faham” Dunia?

Walaupun idea ni bukan baru, tapi ia semakin mendapat perhatian — terutamanya dalam bidang generative video.

Masalah utama video yang dijana AI sekarang ialah ia selalunya nampak pelik atau menakutkan. Kadang-kadang, lengan akan berpintal atau badan watak bercantum secara aneh.

Contohnya, model biasa mungkin boleh teka bahawa bola keranjang akan melantun — tapi ia tak tahu kenapa bola itu melantun. Tapi kalau world model faham asas fizik kenapa bola melantun, ia boleh hasilkan simulasi yang lebih masuk akal.

Untuk capai kefahaman ni, world models dilatih menggunakan pelbagai jenis data — gambar, audio, video, dan teks — supaya ia boleh “belajar” cara dunia sebenar berfungsi dan apa kesan sesuatu tindakan.

Runway Gen-3
Contoh video dari model generatif Gen-3 oleh Runway. Kredit Imej: Runway

“Penonton jangka dunia dalam video bergerak seperti dunia sebenar mereka,” kata Alex Mashrabov, bekas ketua AI Snap dan CEO Higgsfield. “Kalau bulu jatuh seberat batu atau bola boling terbang ke udara, memang nampak pelik. Dengan world model yang mantap, kita tak perlu ajar satu-persatu — model tu sendiri akan tahu cara benda bergerak secara logik.”

Tapi video realistik hanyalah permulaan. Pakar seperti Yann LeCun dari Meta percaya bahawa world models suatu hari nanti boleh bantu AI buat perancangan dan ramalan dalam dunia sebenar dan digital.

Dalam satu ceramah, LeCun berikan contoh bagaimana model boleh faham konsep “dari bilik kotor ke bilik bersih” dan merancang langkah seperti vakum lantai, basuh pinggan, dan buang sampah — bukan sebab pernah lihat video yang sama, tapi sebab ia faham logik di sebalik perubahan itu.

“Kita perlukan mesin yang faham dunia, ada ingatan, naluri, dan common sense — yang boleh rancang dan bertindak seperti manusia,” kata LeCun. “Tapi AI hari ini masih belum sampai tahap tu.”

Walaupun kita mungkin perlu tunggu 10 tahun lagi untuk sampai ke tahap itu, hari ini world models sudah boleh simulasi fizik asas.

OpenAI Sora Minecraft
Sora mengawal pemain dalam Minecraft dan menjana dunia di sekeliling. Kredit Imej: OpenAI

Dalam blog OpenAI, mereka kata Sora mampu mensimulasi tindakan seperti pelukis melukis atas kanvas. Malah, ia juga boleh simulate permainan video — seperti menjana UI dan dunia ala Minecraft.

Masa depan nanti, world models mungkin boleh cipta dunia 3D secara automatik — untuk permainan, fotografi maya, dan banyak lagi, kata Justin Johnson dari World Labs dalam podcast a16z.

“Kita dah boleh buat dunia maya yang interaktif, tapi kosnya ratusan juta dan ambil masa bertahun-tahun. Dengan world models, kita boleh dapat dunia 3D yang penuh warna dan interaktif dengan cepat,” katanya.

Cabaran Besar

Tapi semua ini bukannya mudah. Ada banyak cabaran teknikal yang perlu diatasi.

Latihan dan operasi world models perlukan kuasa komputer yang jauh lebih tinggi berbanding model AI sedia ada. Kalau model bahasa boleh jalan di telefon pintar moden, Sora pula perlukan ribuan GPU untuk latihan dan operasi — terutamanya bila digunakan secara meluas.

Dan seperti model AI lain, world models juga boleh hallucinate atau bias. Kalau dilatih dengan video dari bandar Eropah yang cerah, mungkin ia tak pandai gambarkan bandar di Korea dalam musim salji — atau buat dengan cara yang salah.

Mashrabov kata kekurangan data latihan yang pelbagai akan buat isu ni makin teruk.

“Kita pernah lihat model yang hanya bagus hasilkan wajah dari satu jenis bangsa. Latihan untuk world model perlu luas, tapi dalam masa sama spesifik — supaya AI betul-betul faham konteks,” katanya.

CEO Runway, Cristóbal Valenzuela, juga kata kekangan data dan kejuruteraan buat model hari ini sukar faham cara manusia atau haiwan berkelakuan. Model perlu ada peta dunia yang konsisten, dan tahu cara berinteraksi dalam dunia itu.

OpenAI Sora
Contoh video yang dijana oleh Sora. Kredit Imej: OpenAI

Tapi kalau semua cabaran ini berjaya diatasi, Mashrabov percaya world models boleh jadi jambatan kukuh antara AI dan dunia sebenar — bukan saja dalam penciptaan dunia maya, tapi juga dalam bidang robotik dan keputusan pintar.

Malah, ia boleh menjadikan robot hari ini lebih bijak.

Sekarang, robot masih terbatas sebab mereka tak “sedar” akan dunia sekeliling atau tubuh mereka sendiri. Tapi dengan bantuan world model, mereka boleh ada tahap kesedaran itu — sekurang-kurangnya secara asas.

Sumber: Techcrunch »