Menjadikan AI lebih berguna kepada semua
AI telah menjadi tumpuan hidup saya, seperti kebanyakan rakan-rakan penyelidik saya. Sejak memprogram AI untuk permainan komputer dari usia remaja, dan sepanjang kerjaya saya sebagai penyelidik neurosains yang cuba memahami cara otak berfungsi, saya sentiasa percaya bahawa jika kita boleh mencipta mesin yang lebih pintar, kita boleh memanfaatkannya untuk setiap individu dengan cara yang luar biasa.
Menjanjikan dunia yang dikuasai AI secara bertanggungjawab menjadi pendorong usaha kami di Google DeepMind. Sejak sekian lama, kami menanam keinginan untuk membina generasi baru model AI, diilhamkan oleh cara manusia memahami dan berinteraksi dengan dunia. AI yang bukan sekadar perisian pintar, namun lebih kepada sesuatu yang berguna dan intuitif – pembantu atau penolong yang berkemahiran tinggi.
Hari ini, kami menapak selangkah lebih dekat kepada visi ini dengan Gemini, model yang berkebolehan tinggi dan paling umum yang pernah kami cipta.
Gemini adalah hasil daripada usaha kolaboratif skala besar oleh pasukan di seluruh Google, termasuk rakan-rakan kami di Google Research. Ia dibina dari bawah ke atas untuk menjadi multimodal, bermakna ia boleh merangkumi dan memahami dengan lancar, beroperasi dan menggabungkan pelbagai jenis maklumat termasuk teks, kod, audio, imej, dan video.
Gemini juga merupakan model kami yang paling fleksibel setakat ini – ia mampu berfungsi dengan cekap dari pusat data ke peranti mudah alih. Keupayaan canggih ini akan meningkatkan cara organisasi dan perusahaan membina dan menskala dengan AI.
Kami telah mengoptimumkan Gemini 1.0, versi pertama kami, untuk tiga saiz yang berbeza:
• Gemini Ultra – model terbesar dan berkebolehan tinggi untuk tugasan yang kompleks.
• Gemini Pro – model terbaik kami untuk pelbagai jenis tugasan.
• Gemini Nano — model kami yang paling cekap untuk tugasan pada peranti.
Prestasi tercanggih
Kami telah menguji model Gemini kami secara rapi dan menilai prestasinya dalam melaksanakan pelbagai tugas. Dari imej semulajadi, audio, dan video kepada penalaran matematik, prestasi Gemini Ultra melebihi hasil terkini pada 30 daripada 32 tanda aras akademik yang digunakan secara meluas dalam penyelidikan dan pembangunan model bahasa besar (LLM).
Dengan skor sebanyak 90.04%, Gemini Ultra adalah model pertama yang melebihi pakar manusia dalam MMLU (Pemahaman Bahasa Berbilang Tugas), yang menggunakan gabungan 57 mata pelajaran seperti matematik, fizik, sejarah, undang-undang, perubatan, dan etika untuk menguji kedua-dua pengetahuan dunia dan keupayaan menyelesaikan masalah.
Pendekatan tanda aras baru kami kepada MMLU membolehkan Gemini menggunakan keupayaan penalaran untuk berfikir secara lebih teliti sebelum menjawab soalan-soalan yang sukar, yang membawa kepada peningkatan ketara daripada hanya menggunakan pemahaman dasar.
Gemini mengatasi prestasi terkini pada pelbagai penanda aras termasuk teks dan pengekodan.
Gemini Ultra juga mencapai skor tertinggi 59.4% pada tanda aras MMMU baru, yang terdiri daripada tugas-tugas multimodal merangkumi domain yang berbeza yang memerlukan penalaran terancang. Dengan tanda aras imej yang kami uji, Gemini Ultra menjangkau model terdahulu, tanpa bantuan daripada sistem pengenalan watak objek (OCR) yang mengekstrak teks daripada imej untuk pemprosesan lebih lanjut.
Tanda aras ini menonjolkan multimodaliti asli Gemini dan menunjukkan tanda-tanda awal keupayaan penalaran Gemini yang lebih kompleks.
Lihat lebih lanjut dalam laporan teknikal Gemini kami.
Kebolehan Generasi Masa Depan
Sehingga kini, pendekatan standard untuk mencipta model multimodal melibatkan latihan komponen berasingan untuk modus yang berbeza dan kemudian mencantumnya bersama untuk menyerupai sebahagian daripada fungsi ini. Model-model ini kadangkala bagus dalam melaksanakan tugas-tugas tertentu, seperti menggambarkan imej, tetapi kurang berkebolehan dengan penalaran yang lebih konseptual dan kompleks.
Kami telah mereka Gemini untuk menjadi multimodal secara dasarnya, ia dilatih dari awal pada modus yang berbeza. Kemudian, kami menyesuaikannya dengan data multimodal tambahan untuk memperbaiki keberkesanan dengan lebih lanjut. Ini membantu Gemini untuk memahami dan berfikir secara lancar tentang semua jenis input dari bawah ke atas, jauh lebih baik daripada model multimodal yang sedia ada - dan keupayaannya adalah tercanggih dalam hampir setiap domain.
Ketahui lebih lanjut tentang keupayaan Gemini dan lihat bagaimana ia berfungsi.
Gemini menjangkau prestasi tercanggih pada pelbagai tanda aras multimodal.
Penalaran yang canggih
Kebolehan penalaran multimodal Gemini 1.0 yang canggih boleh membantu memahami maklumat tertulis dan visual yang kompleks. Ini menjadikannya sangat mahir dalam mendedahkan pengetahuan yang sukar untuk dibezakan di kalangan jumlah data yang besar.
Keupayaan luar biasa untuk mengekstrak cerapan daripada beratus-ratus ribu dokumen dengan membaca, menapis, dan memahami maklumat akan membantu membawa terobosan baru pada kelajuan digital dalam banyak bidang dari sains ke kewangan.
Memahami teks, imej, audio dan lebih lagi
Gemini 1.0 telah dilatih untuk mengenali dan memahami teks, imej, audio, dan lebih lagi pada masa yang sama, supaya ia lebih memahami maklumat nuansa dan boleh menjawab soalan yang berkaitan dengan topik yang rumit. Ini menjadikan ia pakar dalam menjelaskan penalaran dalam matematik dan fizik.
Pengekodan lanjutan
Versi pertama Gemini kami boleh memahami, menjelaskan, dan menghasilkan kod berkualiti tinggi dalam bahasa pengaturcaraan yang paling popular di dunia, seperti Python, Java, C++, dan Go. Keupayaan untuk berfungsi dalam pelbagai bahasa dan memahami maklumat yang kompleks menjadikannya salah satu model asas utama untuk pengekodan di dunia.
Gemini Ultra cemerlang dalam beberapa kriteria pengekodan, termasuk HumanEval, kriteria standard industri yang penting untuk tugas pengekodan, dan Natural2Code, kriteria pengekodan dataset kami sendiri.
Gemini juga boleh digunakan sebagai enjin untuk sistem pengekodan yang lebih maju. Dua tahun lalu, kami memperkenalkan AlphaCode, sistem generasi kod AI pertama untuk mencapai tahap prestasi kompetitif dalam pertandingan pengaturcaraan.
Menggunakan versi khusus Gemini, kami mencipta sistem generasi kod yang lebih maju, AlphaCode 2, yang cemerlang dalam menyelesaikan masalah pemprograman kompetitif yang melampaui kod untuk melibatkan matematik yang kompleks dan teori sains komputer.
Apabila dinilai pada platform yang sama dengan AlphaCode asal, AlphaCode 2 menunjukkan peningkatan besar, menyelesaikan hampir dua kali lebih banyak masalah, dan kami menganggarkan bahawa ia lebih baik daripada 85% peserta yang lain - meningkat sebanyak hampir 50% untuk AlphaCode. Apabila pengaturcara bekerjasama dengan AlphaCode 2 dengan mendefinisikan sifat-sifat tertentu untuk diikuti oleh sampel kod, ia berfungsi dengan lebih baik.
Kami gembira bahawa pengaturcaraan semakin menggunakan model AI yang berkebolehan tinggi sebagai alat kolaboratif yang boleh membantu mereka dalam menyelesaikan masalah, mencadangkan reka bentuk kod, dan membantu dengan pelaksanaan - supaya mereka boleh melancarkan aplikasi dan mereka bentuk perkhidmatan yang lebih baik, dengan lebih cepat.
Lihat lebih lanjut dalam laporan teknikal AlphaCode 2.
Lebih andal, boleh skala dan efisien
Kami melatih Gemini 1.0 pada infrastruktur kami yang dioptimumkan oleh AI menggunakan Unit Pemprosesan Tensor (TPU) v4 dan v5e yang direka oleh Google. Dan ia direka untuk menjadi model yang paling andal dan boleh skala untuk melatih, dan yang paling efisien untuk berkhidmat.
Pada TPU, Gemini berfungsi lebih cepat daripada model terdahulu, yang lebih kecil dan kurang berkemampuan. Pemecut AI yang direka khas ini merupakan nadi produk bertenaga AI Google yang berkhidmat kepada berbilion pengguna seperti Search, YouTube, Gmail, Google Maps, Google Play dan Android. Ia juga telah membolehkan syarikat-syarikat di seluruh dunia untuk melatih model AI skala besar dengan kos yang efisien.
Hari ini, kami juga mengumumkan sistem TPU yang paling berkuasa, efisien dan boleh skala terkini, Cloud TPU v5p, yang direka untuk melatih model AI canggih. TPU generasi akan datang ini akan mempercepatkan pembangunan Gemini dan membantu organisasi dan perusahaan melatih model AI generatif berskala besar dengan lebih cepat, membolehkan produk dan keupayaan baru mencapai pelanggan dengan lebih pantas.
Siri pemecut superkomputer awan AI TPU v5p dalam pusat data Google.
Dibina dengan tanggungjawab dan keselamatan pada terasnya
Di Google, kami komited untuk memajukan AI yang bertanggungjawab dalam semua yang kami lakukan. Berdasarkan Prinsip AI Google dan dasar keselamatan yang kukuh merentasi semua produk kami, kami menambah perlindungan baru untuk mempertimbangkan keupayaan multimodal Gemini. Pada setiap peringkat pembangunan, kami mempertimbangkan risiko yang berpotensi dan bekerja untuk menguji dan mengurangkannya.
Gemini mempunyai penilaian keselamatan yang paling komprehensif berbanding mana-mana model AI Google setakat ini, termasuk bias dan toksisiti. Kami telah melakukan penyelidikan baharu bagi risiko berpotensi seperti serangan siber, pemujukan, dan autonomi, dan telah menggunakan teknik pengujian lawan terbaik Google Research untuk membantu mengenal pasti isu keselamatan kritikal sebelum memperkenalkan Gemini.
Untuk mengenal pasti titik buta dalam pendekatan penilaian dalaman kami, kami akan bekerjasama dengan kumpulan pelbagai pakar luaran dan rakan kongsi untuk menguji tekanan model kami dalam pelbagai isu.
Untuk mendiagnosis isu keselamatan kandungan semasa latihan berperingkat Gemini dan memastikan outputnya mengikuti dasar kami, kami menggunakan tanda aras seperti Real Toxicity Prompts, set yang mengandungi 100,000 prom dengan tahap toksisiti yang berbeza dari web, yang dibangunkan oleh pakar di Allen Institute of AI. Maklumat lanjut mengenai kerja-kerja ini akan datang.
Untuk mengurangkan bahaya, kami membina klasifikasi keselamatan khusus untuk mengenal pasti, melabel, dan mengatur kandungan yang melibatkan keganasan atau stereotaip negatif, sebagai contoh. Digabungkan dengan penapis yang kukuh, pendekatan berlapis ini direka untuk menjadikan Gemini lebih selamat dan lebih inklusif untuk semua. Dan kami akan terus menangani cabaran yang diketahui untuk model seperti ketepatan fakta, pembumian, atribusi, dan pengesahan.
Tanggungjawab dan keselamatan akan sentiasa menjadi titik tengah dalam pembangunan dan pengenalan model kami. Ini adalah komitmen jangka panjang yang memerlukan pembinaan secara kolaboratif, jadi kami bekerjasama dengan industri dan ekosistem yang lebih luas untuk menentukan amalan terbaik dan menetapkan piawaian keselamatan melalui organisasi seperti MLCommons, Forum Model Frontier dan Dana Keselamatan AI, dan Kerangka Kerja AI Aman (SAIF), yang direka untuk membantu mengurangkan risiko keselamatan khusus untuk sistem AI di seluruh sektor awam dan swasta.
Di samping pembangunan Gemini, kami akan terus bekerjasama dengan penyelidik, kerajaan dan kumpulan masyarakat awam di seluruh dunia.
Membuat Gemini Tersedia untuk Dunia
Gemini 1.0 kini dilancarkan di pelbagai produk
Gemini Pro dalam produk Google
Kami membawa Gemini kepada berbilion orang melalui produk Google.
Mulai hari ini, Bard akan menggunakan versi Gemini Pro yang disesuaikan untuk penalaran yang lebih maju, perancangan, pemahaman, dan banyak lagi. Ini adalah kemaskini terbesar kepada Bard sejak ia dilancarkan, menjadikan Bard dengan Gemini Pro salah satu model percuma yang berkebolehan tinggi.
Ia akan tersedia dalam bahasa Inggeris di lebih 180 negara dan wilayah, dan kami merancang untuk memperluaskan kepada modus yang berbeza dan menyokong bahasa dan lokasi baru dalam bulan-bulan akan datang.
Kami juga akan membawa Gemini ke Pixel. Pixel 8 Pro ialah telefon pintar pertama yang direka untuk menjalankan Gemini Nano, yang menyokong ciri-ciri baru seperti Summarize dalam aplikasi Recorder, dan akan dilancarkan menerusi Smart Reply dalam Gboard, bermula dengan WhatsApp, dengan lebih banyak aplikasi mesej yang akan datang bermula tahun depan. Ketahui lebih lanjut dalam catatan blog Pixel kami.
Dalam bulan-bulan akan datang, Gemini akan tersedia dalam lebih banyak produk dan perkhidmatan kami seperti Search, Ads, Chrome dan Duet AI.
Membina dengan Gemini
Mulai 13 Disember, organisasi dan perusahaan boleh mengakses Gemini Pro melalui API Gemini dalam Google AI Studio atau Vertex AI.
Google AI Studio ialah alat pembangun berasaskan web percuma untuk memprototaip dan melancarkan aplikasi secara pantas dengan kunci API. Apabila tiba masanya untuk platform AI yang diuruskan sepenuhnya, Vertex AI membolehkan penyesuaian Gemini dengan kawalan data penuh dan manfaat daripada ciri-ciri Google Cloud tambahan untuk keselamatan perusahaan, privasi, dan pentadbiran data dan pematuhan.
Pembangun Android juga akan dapat membina dengan Gemini Nano, model yang paling cekap untuk tugasan pada peranti, melalui AICore. AICore ialah keupayaan sistem baru yang tersedia dalam Android 14, bermula pada peranti Pixel 8 Pro. Daftar untuk pratonton awal.
Akan datang, Gemini Ultra
Untuk Gemini Ultra, kami dalam proses menyelesaikan pemeriksaan kepercayaan dan keselamatan yang meluas, termasuk pemantauan pasukan merah oleh pihak-pihak luar yang dipercayai, dan menyempurnakan model menggunakan penyesuaian halus dan pembelajaran penguatkuasaan daripada maklum balas manusia (RLHF) sebelum menjadikannya tersedia secara meluas.
Sebagai sebahagian daripada proses ini, kami akan menjadikan Gemini Ultra tersedia untuk pelanggan, organisasi, rakan kongsi, dan pakar keselamatan dan tanggungjawab untuk percubaan awal dan maklum balas sebelum memperkenalkan kepada organisasi dan perusahaan awal tahun depan.
Pada awal tahun depan, kami juga akan melancarkan Bard Advanced, pengalaman AI baharu yang memberi anda akses kepada model dan keupayaan terbaik kami, bermula dengan Gemini Ultra.
Zaman Gemini: Membolehkan Masa Depan Inovasi
Ini merupakan tonggak penting dalam pembangunan AI, dan permulaan era baru bagi kami di Google kerana kami terus berinovasi dengan pesat dan memajukan keupayaan model kami secara bertanggungjawab.
Kami telah mencapai kemajuan besar pada Gemini setakat ini dan kami bekerja keras untuk memperluaskan lagi keupayaan untuk versi akan datang, termasuk kemajuan dalam perancangan dan memori dan meningkatkan tetingkap konteks untuk memproses lebih banyak maklumat untuk memberikan respons yang lebih baik.
Kami gembira dengan kemungkinan dunia yang menakjubkan dikuasai oleh AI secara bertanggungjawab - masa depan inovasi yang akan meningkatkan kreativiti, memperluaskan pengetahuan, memajukan sains, dan mengubah cara berbilion orang hidup dan bekerja di seluruh dunia.