Rabu, 15 Mei 2024

Google I/O 2024: I/O untuk generasi baharu

Nota pengarang: Di bawah adalah merupakan transkrip kenyataan Sundar Pichai di I/O 2024 yang telah disunting, disesuaikan untuk merangkumi lebih banyak perkara yang diumumkan di atas pentas. Lihat semua pengumuman dalam koleksi kami.

Google kini berada sepenuhnya dalam era Gemini kami.

Sebelum kami bermula, saya ingin renungkan saat ini. Kami telah melabur dalam AI selama lebih daripada satu dekad — dan berinovasi sepanjang perjalanannya: penyelidikan, produk, infrastruktur, dan kami akan berbincang mengenainya pada hari ini.

Namun, kami masih dalam fasa awal dalam peralihan platform AI. Kami dapat melihat pelbagai peluang pada masa hadapan, untuk para pencipta, untuk para pembangun, untuk syarikat permulaan, untuk semua. Membantu memacu peluang-peluang tersebut merupakan tujuan era Gemini kami. Jadi, mari kita mula.


Era Gemini

Setahun lalu di atas pentas I/O, kami telah berkongsi rancangan kami untuk Gemini: sebuah model canggih yang dibina dengan sifat multimodal dari mula, yang boleh berfungsi dengan teks, imej, video, kod, dan lebih lagi. Ia menandakan langkah yang besar untuk menukarkan sebarang kemasukan kepada sebarang keluaran – “I/O” untuk generasi baharu.

Sejak itu, kami telah memperkenalkan model-model Gemini pertama, yang juga merupakan model yang paling berkebolehan setakat ini. Mereka menunjukkan prestasi mantap pada setiap penanda aras multimodal. Dua bulan kemudian, kami memperkenalkan Gemini 1.5 Pro, yang meraih satu kejayaan besar dalam konteks panjang. Ia boleh menjalankan 1 juta token dalam pengeluaran secara konsisten, lebih daripada mana-mana model asas berskala besar yang lain.

Kami ingin semua orang untuk menerima manfaat daripada kebolehan Gemini. Jadi, kami telah berusaha dengan pantas untuk berkongsi kemajuan ini dengan anda semua. Hari ini, lebih daripada 1.5 juta pembangun menggunakan model Gemini merentas alatan kami. Anda sedang menggunakannya untuk menyahpepijat kod, mendapatkan cerapan baharu dan membina aplikasi AI generasi seterusnya.

Kami juga telah membawa keupayaan Gemini ke produk-produk kami dengan cara yang hebat. Kami akan menunjukkan contoh-contoh merentas Search, Photos, Workspace, Android dan banyak lagi pada hari ini.

Perkembangan produk

Hari ini, kesemua 2 billion pengguna produk kami menggunakan Gemini.

Dan kami juga telah memperkenalkan pengalaman baharu, termasuk secara mudah alih, di mana orang ramai boleh terus berinteraksi dengan Gemini melalui aplikasi yang kini tersedia di Android dan iOS. Dan melalui Gemini Advanced yang memberikan akses kepada model-model kami yang paling berkebolehan. Lebih daripada satu juta orang telah mendaftar untuk mencubanya dalam masa tiga bulan sahaja, dan ia terus menunjukkan momentum yang kuat.

Memperluaskan Gambaran Keseluruhan AI dalam Search

Salah satu transformasi yang paling menarik dengan Gemini adalah dalam Google Search.

Pada tahun lalu, kami telah menjawab berbilion pertanyaan sebagai sebahagian daripada Search Generative Experience kami. Orang ramai menggunakannya untuk mencari dengan cara baharu, dan bertanya pelbagai jenis soalan baharu, pertanyaan yang lebih panjang dan kompleks, malah mencari menggunakan gambar dan mendapatkan hasil terbaik yang ditawarkan oleh laman-laman web.



Kami telah menguji pengalaman ini di luar Labs. Dan kami berasa teruja untuk melihat bukan sahaja peningkatan dalam penggunaan Search, tetapi juga peningkatan dalam kepuasan pengguna.

Saya berbangga untuk mengumumkan bahawa kami akan mula melancarkan pengalaman yang baharu ini, AI Overviews, kepada semua di Amerika Syarikat pada minggu ini. Dan kami akan melancarkannya di lebih banyak negara pada masa hadapan.

Terdapat begitu banyak inovasi yang berlaku dalam Search. Terima kasih kepada Gemini, kami boleh mencipta pengalaman carian yang lebih hebat, termasuk dalam produk-produk kami.

Memperkenalkan Ask Photos

Salah satu contoh ialah Google Photos, yang kami lancarkan hampir sembilan tahun yang lalu. Sejak itu, orang ramai telah menggunakannya untuk menyusun kenangan mereka yang paling penting. Itu bermakna lebih daripada 6 bilion gambar dan video dimuat naik setiap hari.

Dan orang ramai suka menggunakan Photos untuk mencari merentas kehidupan mereka. Dengan Gemini, kami akan memudahkan proses tersebut.

Katakan anda sedang membayar di stesen letak kereta, tetapi anda tidak dapat ingat nombor plat lesen. Sebelum ini, anda boleh mencari Photos dengan kata kunci dan tatal melalui banyak gambar untuk mencari plat lesen. Kini, anda boleh bertanya kepada Photos. Ia mengetahui kereta yang sering muncul, ia mengenal pasti yang mana satu milik anda, dan memberitahu anda nombor plat lesen.

Dan Ask Photos boleh membantu anda mencari kenangan anda dalam cara yang lebih mendalam. Sebagai contoh, anda mungkin sedang mengenang peristiwa penting awal anak perempuan anda, Lucia. Kini, anda boleh bertanya kepada Photos: “Bila Lucia belajar untuk berenang?”

Dan anda boleh membuat susulan dengan sesuatu yang lebih kompleks: "Tunjukkan saya perkembangan renang Lucia."

Dalam contoh ini, Gemini melangkaui carian mudah, mengenali konteks yang berbeza - daripada melakukan pusingan di dalam kolam, bersnorkel di lautan, kepada teks dan tarikh pada sijil renangnya. Dan Photos mengumpul semuanya bersama-sama dalam satu ringkasan, jadi anda benar-benar boleh mendapatkan semuanya, dan menghidupkan kembali kenangan yang menakjubkan sekali lagi. Kami akan melancarkan Ask Photos pada musim panas ini, dengan lebih banyak keupayaan akan datang.




Dengan Ask Photos, anda boleh mencari gambar dan video anda dalam cara yang lebih mendalam.

Mendapat lebih banyak pengetahuan dengan multimodaliti dan konteks panjang

Mendapat pengetahuan merentas format merupakan sebab mengapa Gemini bersifat multimodal dari mula. Ia adalah satu model, dengan semua modaliti terbina dalamnya. Jadi bukan sahaja ia memahami setiap jenis kemasukan - ia juga mencari hubungan antara mereka.

Multimodaliti mengembangkan soalan yang boleh kami ajukan dan jawapan yang akan kami dapatkan secara radikal. Konteks panjang membolehkan kami untuk mendapat lebih banyak maklumat: beratus-ratus halaman teks, audio atau video panjang, keseluruhan repo kod...atau, jika anda mahu, kira-kira 96 ​​menu Cheesecake Factory.

Untuk menu sebanyak itu, anda memerlukan satu juta tetingkap konteks token, kini boleh dilakukan dengan Gemini 1.5 Pro. Para pembangun telah menggunakannya dengan cara yang sangat menarik.




Kami telah melancarkan Gemini 1.5 Pro dengan konteks panjang dalam pratonton sejak beberapa bulan lalu. Kami telah membuat satu siri peningkatan kualiti merentas terjemahan, pengekodan dan penaakulan. Anda akan melihat kemaskini ini dalam model itu mulai hari ini.

Kini, saya teruja untuk mengumumkan bahawa kami akan menawarkan versi Gemini 1.5 Pro yang dipertingkat ini kepada semua pembangun di seluruh dunia. Selain itu, hari ini, Gemini 1.5 Pro dengan 1 juta konteks kini tersedia secara langsung untuk para pengguna Gemini Advanced. Ini boleh digunakan dalam 35 bahasa.

Berkembang kepada 2 juta token dalam pratonton peribadi

Satu juta token membuka pelbagai kemungkinan baharu. Ia menarik, tetapi saya rasa kita boleh mendorong diri kita untuk pergi lebih jauh.

Jadi hari ini, kami mengembangkan tetingkap konteks kepada 2 juta token, dan menyediakannya untuk para pembangun dalam pratonton peribadi.

Ia sungguh mengagumkan untuk mengenang dan melihat betapa banyak kemajuan yang telah kami capai dalam tempoh beberapa bulan. Dan ini mewakili langkah seterusnya dalam perjalanan kami ke arah matlamat utama konteks tak terhingga.

Membawa Gemini 1.5 Pro ke Workspace

Setakat ini, kami telah membincangkan dua kemajuan teknikal: multimodaliti dan konteks panjang. Masing-masing berkuasa secara bersendirian. Tetapi bersama-sama, mereka membolehkan keupayaan yang lebih mendalam, dan lebih banyak kecerdasan.

Ini menjadi nyata dengan Google Workspace.

Orang ramai sentiasa mencari kandungan e-mel mereka dalam Gmail. Kami sedang berusaha untuk menjadikannya lebih hebat dengan Gemini. Jadi sebagai contoh, sebagai ibu bapa, anda ingin sentiasa dimaklumkan tentang perkara yang berlaku di sekolah anak anda. Gemini boleh membantu anda dengan perkara ini.

Kini, kita boleh mengarah Gemini untuk meringkaskan semua e-mel terbaru daripada pihak sekolah. Ia mengenal pasti e-mel yang berkaitan dan juga menganalisis lampiran, seperti PDF. Anda akan mendapat ringkasan mengenai perkara utama dan item tindakan. Mungkin anda sedang bercuti minggu ini dan tidak dapat menghadiri mesyuarat PIBG. Rakaman mesyuarat berdurasi satu jam. Jika ia daripada Google Meet, anda boleh meminta Gemini untuk memberikan ringkasan kepada anda. Terdapat kumpulan ibu bapa yang mencari sukarelawan dan anda tidak sibuk pada hari itu. Jadi sudah tentu, Gemini boleh merangkakan balasan untuk anda.

Terdapat banyak contoh lain cara ia boleh memudahkan hidup kita. Gemini 1.5 Pro tersedia hari ini di Workspace Labs. Aparna berkongsi perkara ini dengan lebih lanjut.

Keluaran audio dalam NotebookLM

Kita baru sahaja melihat contoh dengan keluaran teks. Tetapi dengan model multimodal, kita boleh melakukan lebih banyak lagi.

Kami sedang memacu kemajuan, dengan lebih banyak lagi yang akan datang. Audio Overviews dalam NotebookLM menzahirkan kemajuan tersebut. Ia menggunakan Gemini untuk mengambil bahan sumber anda dan menjana perbualan audio yang diperibadikan dan interaktif.

Inilah peluang yang ada dengan multimodaliti. Tidak lama lagi, anda akan dapat mencampur dan memadankan kemasukan dan keluaran. Inilah yang kami maksudkan apabila kami mengatakan ia adalah I/O untuk generasi baharu. Tetapi bagaimana jika kita boleh pergi dengan lebih jauh?

Pergi lebih jauh dengan AI Agents

Langkah seterusnya dalam memacu kemajuan ini merupakan salah satu peluang yang kita dapat lihat dengan AI Agents. Saya menganggapnya sebagai sistem pintar yang mempamerkan keupayaan penaakulan, perancangan dan ingatan, dapat "memikirkan" beberapa langkah ke hadapan, dan bekerja merentas perisian dan sistem, semuanya untuk menyelesaikan sesuatu bagi pihak anda, dan yang paling penting, di bawah pengawasan anda.

Kami masih di peringkat awal, tetapi izinkan saya untuk menunjukkan jenis kes penggunaan yang kami sedang berusaha keras untuk selesaikan buat anda.

Mari mula dengan membeli belah. Ia agak seronok untuk membeli-belah sepasang kasut, tetapi ia tidak seronok untuk memulangkannya apabila saiznya tidak sesuai.

Bayangkan Gemini boleh melakukan semuanya untuk anda:
Mencari resit di peti masuk anda…
Mencari nombor pesanan daripada e-mel anda…
Mengisi borang pulangan…
Malah menjadualkan pengambilan oleh UPS.

Itu lebih mudah, bukan?

Mari kita ambil contoh lain yang lebih rumit.

Katakan anda baharu berpindah ke Chicago. Anda boleh bayangkan Gemini dan Chrome bekerjasama untuk membantu anda melakukan beberapa perkara untuk bersedia - menyusun, menaakul, mensintesis bagi pihak anda. Contohnya, anda perlu menerokai bandar itu dan mencari perkhidmatan berdekatan -- daripada perkhidmatan cucian kering kepada pejalan kaki anjing. Dan anda perlu mengemas kini alamat baharu anda merentas berpuluh-puluh laman web.

Gemini boleh menjalankan tugas ini dan akan meminta anda untuk maklumat lanjut apabila diperlukan — supaya anda sentiasa dalam kawalan.

Bahagian itu adalah sangat penting -- semasa kami membuat prototaip untuk pengalaman ini, kami memikirkan cara untuk melakukannya dengan cara yang tertutup, selamat dan berfungsi untuk semua orang.

Ini ialah kes penggunaan yang mudah tetapi ia memberi anda gambaran yang baik tentang jenis masalah yang ingin kami selesaikan, dengan membina sistem pintar yang berfikir ke hadapan, menaakul dan merancang — semuanya bagi pihak anda.

Apa maknanya untuk misi kami

Kuasa Gemini — dengan multimodaliti, konteks panjang dan ejen — membawa kami lebih dekat kepada matlamat utama kami: menjadikan AI berguna untuk semua orang.

Kami melihat ini sebagai cara kami akan membuat kemajuan yang paling besar terhadap misi kami: Mengatur maklumat dunia merentas setiap kemasukan, menjadikannya boleh diakses melalui sebarang keluaran dan menggabungkan maklumat dunia, dengan maklumat di dunia ANDA, dalam cara yang benar-benar berguna untuk anda.

Melakukan sesuatu yang berbeza sama sekali

Untuk merealisasikan potensi penuh AI, kita perlu melakukan sesuatu yang berbeza sama sekali. Pasukan Google DeepMind telah bekerja keras dalam hal ini.

Kami telah melihat begitu banyak keseronokan sekitar 1.5 Pro dan tetingkap konteksnya yang panjang. Tetapi kami juga mendengar daripada para pembangun bahawa mereka mahukan sesuatu yang lebih pantas dan lebih menjimatkan kos. Jadi esok, kami akan memperkenalkan Gemini 1.5 Flash, model ringan yang dibina untuk skala. Ia dioptimumkan untuk tugasan yang mementingkan kependaman rendah dan kos. 1.5 Flash akan tersedia dalam AI Studio dan Vertex AI pada hari Selasa.

Memandang lebih jauh ke hadapan, kami sentiasa mahu membina satu ejen universal yang berguna dalam kehidupan seharian. Projek Astra, menunjukkan pemahaman multimodal dan keupayaan perbualan masa nyata.



Kami juga telah membuat kemajuan dalam penjanaan video dan imej dengan Veo dan Imagen 3, dan memperkenalkan Gemma 2.0, model terbuka generasi seterusnya dari kami untuk inovasi AI yang bertanggungjawab. Baca lebih lanjut daripada Demis Hassabis.

Infrastruktur untuk era AI: Memperkenalkan Trillium

Latihan model terkini memerlukan banyak kuasa pengkomputeran. Permintaan industri untuk pengiraan ML telah meningkat faktor sebanyak 1 juta dalam tempoh enam tahun yang lalu. Dan setiap tahun, ia meningkat sepuluh kali ganda.

Google dibina untuk ini. Selama 25 tahun, kami telah melabur dalam infrastruktur teknikal bertaraf dunia, daripada perkakasan canggih yang memperkasakan Search, kepada unit pemprosesan tensor tersuai kami yang memperkasakan kemajuan AI kami.

Gemini telah dilatih dan berkhidmat sepenuhnya pada TPU generasi keempat dan kelima kami. Dan syarikat AI terkemuka lain, termasuk Anthropic, telah melatih model mereka pada TPU juga.

Hari ini, kami teruja untuk mengumumkan TPU generasi ke-6 kami, yang dipanggil Trillium. Trillium ialah TPU kami yang paling berprestasi tinggi dan paling cekap setakat ini, memberikan peningkatan 4.7x ganda dalam prestasi pengiraan setiap cip berbanding generasi sebelumnya, TPU v5e.
 
Kami akan menyediakan Trillium kepada pelanggan Cloud kami pada akhir tahun 2024.

Di samping TPU kami, kami berbangga untuk menawarkan CPU dan GPU untuk menyokong sebarang beban kerja. Itu termasuk pemproses Axion baharu yang kami umumkan bulan lepas, CPU berasaskan Arm tersuai pertama kami yang menyampaikan prestasi terkemuka industri dan kecekapan tenaga.

Kami juga berbangga kerana dapat menjadi salah satu penyedia Cloud pertama yang menawarkan GPU Blackwell termaju Nvidia, tersedia pada awal tahun 2025. Kami bertuah kerana mempunyai perkongsian yang telah lama terjalin dengan NVIDIA, dan teruja untuk membawa keupayaan terobosan Blackwell kepada pelanggan kami.

Cip merupakan bahagian asas sistem hujung ke hujung bersepadu kami. Daripada perkakasan dan perisian terbuka yang dioptimumkan prestasi kepada model penggunaan yang fleksibel. Ini semua disatukan dalam AI Hypercomputer kami, seni bina superkomputer terobosan.

Perniagaan dan pembangun menggunakannya untuk menangani cabaran yang lebih kompleks, dengan kecekapan lebih daripada dua kali ganda berbanding dengan hanya membeli perkakasan dan cip mentah. Sebahagian kemajuan AI Hypercomputer kami dapat direalisasikan kerana pendekatan kami terhadap penyejukan cecair di pusat data kami.

Kami telah melakukan perkara ini selama hampir sedekad, lama sebelum ia menjadi sesuatu yang canggih dalam industri kami. Dan hari ini jumlah kapasiti armada kami yang digunakan untuk sistem penyejukan cecair adalah hampir 1 Giga Watt dan kian berkembang — iaitu hampir 70 kali ganda kapasiti mana-mana armada lain.

Asas ini ialah skala rangkaian kami, yang menghubungkan infrastruktur kami secara global. Rangkaian kami menjangkau lebih daripada 2 juta batu gentian daratan dan dasar laut: lebih 10 kali (!) jangkauan penyedia awan terkemuka seterusnya.

Kami akan terus membuat pelaburan yang diperlukan untuk memajukan inovasi AI dan menyampaikan keupayaan terkini.




Bab Search yang paling menarik setakat ini

Salah satu bidang pelaburan dan inovasi kami yang terbaik adalah dalam produk asas kami, Search. 25 tahun yang lalu, kami mencipta Search untuk membantu orang ramai memahami gelombang maklumat dalam talian.

Dengan setiap peralihan platform, kami telah menyampaikan penemuan untuk membantu menjawab soalan anda dengan lebih baik. Pada alat mudah alih, kami mendedahkan jenis soalan dan jawapan baharu — menggunakan konteks, kesedaran lokasi dan maklumat masa nyata yang lebih baik. Dengan kemajuan dalam pemahaman bahasa semula jadi dan visi komputer, kami membolehkan cara baharu untuk mencari, dengan suara atau dengung untuk mencari lagu kegemaran baharu anda; atau dengan imej bunga yang anda lihat semasa berjalan. Dan kini anda juga boleh Bulatkan untuk Cari kasut baharu yang hebat yang mungkin anda ingin beli. Beli sahaja, anda sentiasa boleh pulangkannya!

Sudah tentu, Search di Era Gemini akan membawa perkara ini ke tahap yang baharu, menggabungkan kekuatan infrastruktur kami, keupayaan AI terkini, standard tinggi kami untuk kualiti maklumat dan pengalaman berdekad-dekad kami yang menghubungkan anda dengan kekayaan web. Hasilnya ialah produk yang berfungsi untuk anda.

Google Search ialah AI generatif pada skala rasa ingin tahu manusia. Dan ini merupakan bab Search kami yang paling menarik. Baca lebih lanjut mengenai era Gemini Search daripada Liz Reid.

Pengalaman Gemini yang lebih bijak

Gemini adalah lebih daripada sebuah chatbot; ia direka untuk menjadi pembantu peribadi anda yang berguna yang boleh membantu anda menangani tugas yang rumit dan mengambil tindakan bagi pihak anda.

Berinteraksi dengan Gemini sepatutnya berasa seperti anda sedang berbual dengan seseorang dalam cara yang intuitif. Oleh itu, kami mengumumkan pengalaman Gemini baharu yang membawa kami lebih dekat kepada visi yang dipanggil Live yang membolehkan anda mengadakan perbualan mendalam dengan Gemini menggunakan suara anda. Kami juga akan membawa 2 juta token ke Gemini Advanced akhir tahun ini, membolehkan anda untuk memuat naik dan menganalisis fail yang sangat padat seperti video dan kod panjang. Sissie Hsiao berkongsi lebih banyak lagi.

Gemini untuk Android

Dengan berbilion pengguna Android di seluruh dunia, kami teruja untuk memperkenalkan pengalaman Gemini yang lebih bersepadu di peringkat sistem pengendalian. Sebagai pembantu AI baharu anda, Gemini sedia membantu anda pada bila-bila masa, di mana sahaja. Dan kami telah memasukkan model Gemini ke dalam Android, termasuk model terbaharu pada peranti kami: Gemini Nano dengan Multimodaliti, yang memproses teks, imej, audio dan pertuturan untuk membolehkan pengalaman baharu sambil mengekalkan maklumat peribadi pada peranti anda. Semua berita Android di sini.

Pendekatan bertanggungjawab kami terhadap AI

Kami terus mendekati peluang AI dengan keberanian dan rasa teruja. Kami juga memastikan kami melakukannya dengan penuh bertanggungjawab. Kami sedang membangunkan teknik canggih yang kami namakan sebagai red-teaming berbantukan AI, yang memanfaatkan kemenangan permainan Google DeepMind seperti AlphaGo. Selain itu, kami telah mengembangkan inovasi penanda air teknikal kami seperti SynthID dalam dua teks dan video modaliti baharu, jadi kandungan yang dijana AI lebih mudah dikenal pasti. James Manyika berkongsi lebih banyak lagi.

Mencipta masa hadapan bersama

Semua ini menunjukkan kemajuan penting sambil kami mengambil pendekatan yang berani dan bertanggungjawab untuk menjadikan AI berguna untuk semua orang.

Kami telah mengutamakan AI dalam pendekatan kami untuk satu tempoh masa yang lama. Kepimpinan penyelidikan kami sepanjang dekad-dekad yang lalu telah mempelopori banyak penemuan moden yang menggerakkan kemajuan AI, untuk kami dan untuk industri. Selain itu, kami mempunyai:

  • Infrastruktur terkemuka dunia yang dibina untuk era AI
  • Inovasi termaju dalam Search, kini dikuasakan oleh Gemini
  • Produk yang membantu pada skala yang luar biasa — termasuk 15 produk dengan setengah bilion pengguna
  • Dan platform yang membolehkan semua orang — rakan kongsi, pelanggan, pencipta dan anda semua — mencipta masa hadapan.

Kemajuan ini hanya dapat direalisasikan dengan komuniti pembangun kami yang luar biasa. Anda menjadikan semua ini realiti, melalui pengalaman dan aplikasi yang anda bina setiap hari. Jadi, kepada semua orang di Shoreline dan berjuta-juta lagi yang menonton di seluruh dunia, mari kita memandang ke hadapan dan mencipta kemungkinan bersama-sama.




Google I/O 2024: An I/O for a new generation


Editor’s note: Below is an edited transcript of Sundar Pichai’s remarks at I/O 2024, adapted to include more of what was announced on stage. See all the announcements in our collection.

Google is fully in our Gemini era. 

Before we get into it, I want to reflect on this moment we’re in. We’ve been investing in AI for more than a decade — and innovating at every layer of the stack: research, product, infrastructure, and we’re going to talk about it all today.

Still, we are in the early days of the AI platform shift. We see so much opportunity ahead, for creators, for developers, for startups, for everyone. Helping to drive those opportunities is what our Gemini era is all about. So let’s get started.


The Gemini era 

A year ago on the I/O stage we first shared our plans for Gemini: a frontier model built to be natively multimodal from the beginning, that could reason across text, images, video, code, and more. It marks a big step in turning any input into any output — an “I/O” for a new generation. 

Since then, we introduced the first Gemini models, our most capable yet. They demonstrated state of the art performance on every multimodal benchmark. Two months later, we introduced Gemini 1.5 Pro, delivering a big breakthrough in long context. It can run 1 million tokens in production, consistently, more than any other large-scale foundation model yet.

We want everyone to benefit from what Gemini can do. So we’ve worked quickly to share these advances with all of you. Today more than 1.5 million developers use Gemini models across our tools. You’re using it to debug code, get new insights, and build the next generation of AI applications.

We’ve also been bringing Gemini’s breakthrough capabilities across our products, in powerful ways. We’ll show examples today across Search, Photos, Workspace, Android and more.

Product progress

Today, all of our 2-billion user products use Gemini. 

And we’ve introduced new experiences too, including on mobile, where people can interact with Gemini directly through the app, now available on Android and iOS. And through Gemini Advanced which provides access to our most capable models. Over one million people have signed up to try it in just three months, and it continues to show strong momentum.

Expanding AI Overviews in Search

One of the most exciting transformations with Gemini has been in Google Search.

In the past year, we’ve answered billions of queries as part of our Search Generative Experience. People are using it to Search in entirely new ways, and asking new types of questions, longer and more complex queries, even searching with photos, and getting back the best the web has to offer. 


We’ve been testing this experience outside of Labs. And we’re encouraged to see not only an increase in Search usage, but also an increase in user satisfaction.

I’m excited to announce that we’ll begin launching this fully-revamped experience, AI Overviews, to everyone in the U.S. this week. And we’ll bring it to more countries soon.

There’s so much innovation happening in Search. Thanks to Gemini we can create much more powerful search experiences, including within our products. 

Introducing Ask Photos 

One example is Google Photos, which we launched almost nine years ago. Since then, people have used it to organize their most important memories. Today that amounts to more than 6 billion photos and videos uploaded every single day.

And people love using Photos to search across their life. With Gemini we’re making that a whole lot easier.

Say you’re paying at the parking station, but you can't recall your license plate number. Before, you could search Photos for keywords and then scroll through years’ worth of photos, looking for license plates. Now, you can simply ask Photos. It knows the cars that appear often, it triangulates which one is yours, and tells you the license plate number. 

And Ask Photos can help you search your memories in a deeper way. For example, you might be reminiscing about your daughter Lucia’s early milestones. Now, you can ask Photos: “When did Lucia learn to swim?”

And you can follow up with something even more complex: “Show me how Lucia’s swimming has progressed.” 

Here, Gemini goes beyond a simple search, recognizing different contexts - from doing laps in the pool, to snorkeling in the ocean, to the text and dates on her swimming certificates. And Photos packages it all up together in a summary, so you can really take it all in, and relive amazing memories all over again. We’re rolling out Ask Photos this summer, with more capabilities to come.


With Ask Photos you can search your photos and videos in deeper ways. 


Unlocking more knowledge with multimodality and long context

Unlocking knowledge across formats is why we built Gemini to be multimodal from the ground up. It’s one model, with all the modalities built in. So not only does it understand each type of input - and finds connections between them. 

Multimodality radically expands the questions we can ask, and the answers we’ll get back.
Long context takes this a step further, enabling us to bring in even more information:
hundreds of pages of text, hours of audio or an hour of video, entire code repos…or, if you want, roughly 96 Cheesecake Factory menus. 

For that many menus, you’d need a one million token context window, now possible with Gemini 1.5 Pro. Developers have been using it in super interesting ways.


We’ve been rolling out Gemini 1.5 Pro with long context in preview over the last few months. We’ve made a series of quality improvements across translation, coding and reasoning. You’ll see these updates reflected in the model starting today.

Now I’m excited to announce that we’re bringing this improved version of Gemini 1.5 Pro to all developers globally. In addition, today Gemini 1.5 Pro with 1 million context is now directly available for consumers in Gemini Advanced. This can be used across 35 languages.

Expanding to 2M tokens in private preview

One million tokens is opening up entirely new possibilities. It’s exciting, but I think we can push ourselves even further.

So today, we’re expanding the context window to 2 million tokens, and making it available for developers in private preview. 

It's amazing to look back and see just how much progress we've made in a few months. And this represents the next step on our journey towards the ultimate goal of infinite context.

Bringing Gemini 1.5 Pro to Workspace

So far, we’ve talked about two technical advances: multimodality and long context. Each is powerful on its own. But together, they unlock deeper capabilities, and more intelligence.

This comes to life with Google Workspace. 

People are always searching their emails in Gmail. We’re working to make it much more powerful with Gemini. So for example, as a parent, you want to stay informed about everything that’s going on with your child’s school. Gemini can help you keep up.

Now we can ask Gemini to summarize all recent emails from the school. In the background, it’s identifying relevant emails, and even analyzing attachments, like PDFs. You get a summary of the key points and action items. Maybe you were traveling this week and couldn’t make the PTA meeting. The recording of the meeting is an hour long. If it’s from Google Meet, you can ask Gemini to give you the highlights.There’s a parents group looking for volunteers, and you’re free that day. So of course, Gemini can draft a reply.

There are countless other examples of how this can make life easier. Gemini 1.5 Pro is available today in Workspace Labs. Aparna shares more.

Audio outputs in NotebookLM

We just looked at an example with text outputs.  But with a multimodal model, we can do so much more.

We’re making progress here, with more to come. Audio Overviews in NotebookLM shows the progress. It uses Gemini to take your source materials and generate a personalized and interactive audio conversation. 

This is the opportunity with multimodality. Soon you’ll be able to mix and match inputs and outputs. This is what we mean when we say it’s an I/O for a new generation. But what if we could go even further?

Going further with AI Agents

Taking this even further is one of the opportunities we see with AI Agents. I think about them as intelligent systems that show reasoning, planning, and memory, are able to “think” multiple steps ahead, and work across software and systems, all to get something done on your behalf, and most importantly, under your supervision.

We are still in the early days, but let me show you the kinds of use cases we’re working hard to solve.

Let’s start with shopping. It’s pretty fun to shop for shoes, and a lot less fun to return them when they don’t fit.

Imagine if Gemini could do all the steps for you:
Searching your inbox for the receipt … 
Locating the order number from your email…
Filling out a return form… 
Even scheduling a UPS pickup.  

That’s much easier, right?

Let’s take another example that’s a bit more complex. 

Say you just moved to Chicago. You can imagine Gemini and Chrome working together to help you do a number of things to get ready - organizing, reasoning, synthesizing on your behalf. 
For example, you’ll want to explore the city and find services nearby -- from dry cleaners to dog walkers. And you’ll have to update your new address across dozens of websites.

Gemini can work across these tasks and will prompt you for more information when needed — so you are always in control.

That part is really important -- as we prototype these experiences we’re thinking hard about how to do it in a way that’s private, secure and works for everyone.

These are simple use cases but they give you a good sense of the types of problems we want to solve, by building intelligent systems that think ahead, reason, and plan — all on your behalf.

What it means for our mission

The power of Gemini — with multimodality, long context and agents — brings us closer to our ultimate goal: making AI helpful for everyone.

We see this as how we’ll make the most progress against our mission: Organizing the world’s information across every input, making it accessible via any output, and combining the world’s information, with the information in YOUR world, in a way that’s truly useful for you. 

Breaking new ground 

To realize the full potential of AI, we’ll need to break new ground. The Google DeepMind team has been hard at work on this. 

We’ve seen so much excitement around 1.5 Pro and its long context window. But we also heard from developers that they wanted something faster and more cost effective. So tomorrow, we’re introducing Gemini 1.5 Flash, a lighter-weight model built for scale. It’s optimized for tasks where low latency and cost matter most. 1.5 Flash will be available in AI Studio and Vertex AI on Tuesday. 

Looking further ahead, we’ve always wanted to build a universal agent that will be useful in everyday life. Project Astra, shows multimodal understanding and real time conversational capabilities.


We’ve also made progress on video and image generation with Veo and Imagen 3, and introduced Gemma 2.0, our next generation of open models for responsible AI innovation. Read more from Demis Hassabis. 

Infrastructure for the AI era: Introducing Trillium 

Training state of the art models requires a lot of computing power. Industry demand for ML compute has grown by a factor of 1 million in the last six years. And every year, it increases tenfold.

Google was built for this. For 25 years, we’ve invested in world-class technical infrastructure,
From the cutting-edge hardware that powers Search, to our custom tensor processing units that power our AI advances.

Gemini was trained and served entirely on our fourth and fifth generation TPUs. And other leading AI companies, including Anthropic, have trained their models on TPUs as well.

Today, we’re excited to announce our 6th generation of TPUs, called Trillium. Trillium is our most performant and most efficient TPU to date, delivering a 4.7x improvement in compute performance per chip over the previous generation, TPU v5e.
 
We’ll make Trillium available to our Cloud customers in late 2024.

Alongside our TPUs, we’re proud to offer CPUs and GPUs to support any workload.
That includes the new Axion processors we announced last month, our first custom Arm-based CPU that deliver industry-leading performance and energy efficiency.

We’re also proud to be one of the first Cloud providers to offer Nvidia’s cutting edge Blackwell GPUs, available in early 2025. We’re fortunate to have a longstanding partnership with NVIDIA, and are excited to bring Blackwell’s breakthrough capabilities to our customers.

Chips are a foundational part of our integrated end-to-end system. From performance-optimized hardware and open software to flexible consumption models. This all comes together in our AI Hypercomputer, a groundbreaking supercomputer architecture.

Businesses and developers are using it to tackle more complex challenges, with more than twice the efficiency relative to just buying the raw hardware and chips. Our AI Hypercomputer advancements are made possible in part because of our approach to liquid cooling in our data centers.  

We’ve been doing this for nearly a decade, long before it became state of the art for the industry. And today our total deployed fleet capacity for liquid cooling systems is nearly 1 Giga Watt and growing — that’s close to 70 times the capacity of any other fleet. 

Underlying this is the sheer scale of our network, which connects our infrastructure globally.  Our network spans more than 2 million miles of terrestrial and subsea fiber: over 10 times (!) the reach of the next leading cloud provider.

We will keep making the investments necessary to advance AI innovation and deliver state-of- the-art capabilities.


The most exciting chapter of Search yet

One of our greatest areas of investment and innovation is in our founding product, Search. 25 years ago we created Search to help people make sense of the waves of information moving online.

With each platform shift, we’ve delivered breakthroughs to help answer your questions better.
On mobile, we unlocked new types of questions and answers — using better context, location awareness, and real-time information. With advances in natural language understanding and computer vision we enabled new ways to search, with a voice, or a hum to find your new favorite song; or with an image of that flower you saw on your walk. And now you can even Circle to Search those cool new shoes you might want to buy. Go for it, you can always return them!

Of course, Search in the Gemini Era will take this to a whole new level, combining our infrastructure strengths, the latest AI capabilities, our high bar for information quality, and our decades of experience connecting you to the richness of the web. The result is a product that does the work for you. 

Google Search is generative AI at the scale of human curiosity. And it’s our most exciting chapter of Search yet. Read more about the Gemini era of Search from Liz Reid.

More intelligent Gemini experiences 

Gemini is more than a chatbot; it’s designed to be your personal, helpful assistant that can help you tackle complex tasks and take actions on your behalf.

Interacting with Gemini should feel conversational and intuitive. So we’re announcing a new Gemini experience that brings us closer to that vision called Live that allows you to have an in-depth conversation with Gemini using your voice. We’ll also be bringing 2M tokens to Gemini Advanced later this year, making it possible to upload and analyze super dense files like video and long code. Sissie Hsiao shares more.

Gemini for Android

With billions of Android users worldwide, we're excited to introduce an even more integrated Gemini experience at the operating system level. As your new AI assistant, Gemini is here to help you anytime, anywhere. And we've incorporated Gemini models into Android, including our latest on-device model: Gemini Nano with Multimodality, which processes text, images, audio, and speech to unlock new experiences while keeping information private on your device. All of the Android news here.

Our responsible approach to AI

We continue to approach the opportunity AI boldly, with a sense of excitement. We’re also making sure we do it responsibly. We’re developing a cutting-edge technique we call AI-assisted red teaming, that draws on Google DeepMind's gaming breakthroughs like AlphaGo. Plus, we’vw expanded our technical watermarking innovations like SynthID in two new modalities text and video, so AI-generated content is easier to identify. James Manyika shares more.

Creating the future together

All of this shows the important progress as we take a bold and responsible approach to making AI helpful for everyone.

Before we wrap, I have a feeling that someone out there might be counting how many times we’ve mentioned AI today. And I assume we’ll add a few more before we’re done.

This tally is more than just a punchline. It reflects something much deeper. We’ve been AI first in our approach for a long time. Our decades of research leadership have pioneered many of the modern breakthroughs that power AI progress, for us and for the industry. On top of that we have:

  • World-leading infrastructure built for the AI era 
  • Cutting-edge innovation in Search, now powered by Gemini
  • Products that help at extraordinary scale — including 15 products with half a billion users
  • And platforms that enable everyone — partners, customers, creators, and all of you —  to invent the future. 

This progress is only possible because of our incredible developer community. You are making it real, through the experiences and applications you build every day. So, to everyone here in Shoreline and the millions more watching around the world, here’s to the possibilities ahead and creating them together.