Google I/O 2024,谷歌全方位對標OpenAI


在2024年5月14日舉行的Google I/O大會上,Google CEO Sundar Pichai帶來了一場關於AI未來的精彩演講。

Pichai宣佈,我們已全面進入“Gemini時代”,這標誌着AI技術的又一次重大飛躍。
以下是對這場演講的全面報道,涵蓋了Google在AI領域的最新進展和未來願景。
|Gemini時代的開啓
Google的Gemini項目自一年前首次亮相以來,已經取得了顯著的進展。
Gemini是一個前沿的模型,從一開始就被設計爲原生多模態,能夠跨文本、圖像、音頻、視頻、代碼等多種格式進行推理。
ImageFX,基於Imagen 3模型的文生圖
MusicFX,基於Lyria模型的文生音頻
VideoFX,基於Veo模型的文生成視頻
這標誌着將任何輸入轉換爲任何輸出的能力,爲新一代的“輸入/輸出(I/O)”鋪平了道路。
目前,超過150萬開發者正在使用Gemini模型,它們被應用於代碼調試、獲取新見解以及構建下一代AI應用。
Google的各種產品,包括搜索、照片、工作空間、Android等,都在以強大的方式融合Gemini的突破性能力。
AI繪本《愛麗絲漫遊仙境》
| 全新的搜索方式
Google搜索是公司最重要的投資和創新領域之一,也是Gemini帶來的最激動人心的變革之一。
隨着平臺的轉變,Google交付了幫助更好回答問題的突破性進展。
現在,Google搜索結合了基礎設施的優勢、最新的AI能力、對信息質量的高標準,以及數十年連接用戶與網絡豐富內容的經驗。
Gemini不僅是一個聊天機器人;它被設計成一個個人、有幫助的助手,可以幫助你處理複雜任務,並代表你採取行動。
Google宣佈了一個新的Gemini體驗,名爲Live,允許你通過語音與Gemini進行深入對話。
過去一年中,Google搜索通過生成式AI體驗回答了數十億次查詢,用戶現在可以使用更長、更復雜的查詢,甚至可以通過照片進行搜索。
|Ask Photos:照片搜索
Google Photos也迎來了新功能“Ask Photos”,它利用Gemini的能力,使得用戶可以更深入地搜索他們的記憶。
例如,在支付停車費用時,假如記不清自己的車牌號碼,可以簡便地請求查看車輛牌照的照片,無需費時在手機相冊中翻找衆多圖片。
例如,用戶可以詢問照片中的特定事件或回憶,Gemini能夠識別不同的上下文,從泳池中的游泳到海邊的浮潛,再到游泳證書上的文字和日期,並將所有信息彙總成一個摘要。
Gemini 1.5 Pro長文本處理
Gemini 1.5 Pro的長文本處理能力,使得開發者能夠處理大量的信息,如數百頁的文本、數小時的音頻或視頻,甚至是整個代碼庫。
Google正在將這個改進版的Gemini 1.5 Pro推向全球開發者,並在Gemini Advanced中直接向消費者提供,支持35種語言。
Google正在將上下文窗口擴展到200萬token,併爲開發者提供私人預覽。這是朝着無限上下文目標邁出的下一步。
學習助手LearnLM的推出
以及文字轉語音的Illuminate
下一代 Gemma 2將於 6 月推出,旨在以最有用的開發人員規模提供行業領先的性能。


|Gemini工作空間
Google Workspace也將利用Gemini的多模態和長文本處理能力,使得用戶能夠更智能地搜索電子郵件,總結關鍵點和行動項,甚至自動生成回覆。
例如,身爲家長,若想全面掌握孩子在學校的動態,可以通過在Gmail中配置Gemini功能,讓它智能篩選出與學校相關的所有郵件,並高效地爲你提煉出核心信息。
假如你未能參加公司會議,但手頭有一段長達一小時的會議錄音,那麼Gemini能迅速發揮作用,爲你提煉出會議的關鍵要點和重要內容。
NotebookLM展示了多模態模型的潛力,它使用Gemini 1.5 Pro將原始材料轉化爲個性化的、互動式的音頻對話。
比如在教學上,Notebook這一工具爲學生和教師帶來了幫助,它能夠將左側的各種資料作爲基礎輸入,隨後自動編織成一場富有個性、深入淺出的科學探討會,促進了雙方的互動與學習效率。
|AI Agent的發展
AI Agent是Google看重的下一個機會,它們是能夠展示推理、規劃和記憶的智能系統。
Project Astra 展示了多模態理解和實時對話功能。
比如解決簡化購物和退貨流程。
以及幫助用戶在搬到新城市時更輕鬆地適應。
可以幫你探索身邊城市,輕鬆尋獲各類服務,無論是乾洗需求還是寵物散步,一切盡在掌握。
|Gemini在Android上的整合
隨着全球數十億Android用戶,Google對更深入地將Gemini整合到用戶體驗感到興奮。作爲新AI助手,Gemini隨時準備幫助大家。
Google已將Gemini模型整合到Android中,包括最新的設備模型:具有多模態能力的Gemini Nano,它處理文本、圖像、音頻和語音,同時在設備上保持信息私密。
負責任的AI方法
Google繼續大膽而興奮地探索AI的機會,同時也確保以負責任的方式進行。
Google正在開發一種尖端技術,稱爲AI輔助紅隊,借鑑了Google DeepMind在遊戲領域的突破,如AlphaGo,以改進模型。
此外,Google還擴展了SynthID,這是一種水印工具,使AI生成的內容更容易被識別,現已擴展到兩種新的形式:文本和視頻。
所有這些進展都表明,Google在採取大膽和負責任的方法使AI對每個人都有所幫助方面取得了重要進展。
Google長期以來一直採用AI優先的方法,數十年的研究領導地位開創了許多推動AI進步的現代突破,不僅爲自己,也爲整個行業。
Google I/O 2024的演講不僅展示了Google在AI領域的雄心,也向世界展示了一個由AI驅動的未來,其中多模態交互和個性化智能助手將成爲我們日常生活的一部分。
ImageFX:https://aitestkitchen.withgoogle.com/tools/image-fx
MusicFX:https://aitestkitchen.withgoogle.com/tools/music-fx
VideoFX:https://aitestkitchen.withgoogle.com/tools/video-fx
illuminate:https://illuminate.withgoogle.com/
Infinite Wonderland:https://infinitewonderland.withgoogle.com/
Search:https://labs.google.com/search
Gemini:https://gemini.google.com/
免費福利:掃碼即可加入【AI交流羣】,免費領取【AI大禮包】