黃時進 | 新一代人工智慧驅動科學發現的新正規化

摘  要

科學發現是凝聚瞭科學共同體集體智慧的重要載體。隨著技術進步,新一代人工智能驅動科學發現在突破科學研究的原有框架、構建科學研究的新定義、促進科學研究發展進程和機製迭代、重構科學研究方法論、重塑科學共同體的集體意嚮性等諸多方麵給科學研究的傳統範式帶來瞭挑戰。科學共同體在運用新一代人工智能驅動科學發現的實踐中,通過構建“人機融閤”的本體論、“人機協同”的方法論、“多元嵌入”的認識論和“人機對齊”的價值論,形成瞭弱人工智能階段的人工智能驅動科學研究的新範式。

作者簡介

黃時進,華東理工大學馬剋思主義學院教授


本文載於《社會科學》2024年第3期


目  錄

一、新一代人工智能驅動科學發現的突破及特徵

二、新一代人工智能驅動科學發現對傳統科學研究範式的挑戰

三、新一代人工智能驅動科學發現對新科學研究範式的構建


從阿蘭·圖靈提齣“機器能思考嗎”這個經典問題開始,人類對人工智能(Artificial Intelligence,以下簡稱AI)及其運用的探索方興未艾。自榖歌旗下的DeepMind公司推齣AlphaGo和AlphaGo Zero程序以來,AI的研究與應用掀起瞭一波新的浪潮。越來越多的研究成果顯示,在生命科學、信息學、數學、醫學、材料學、物理學、化學等學科的科學發現方麵,新一代AI日益發揮越來越關鍵的驅動作用。近年來,國內外的相關研究一方麵緻力於機器學習來解決特定類型的科學問題;另一方麵力圖從邏輯推理型轉嚮非邏輯推理型,以深入開發具有類似於人類的決策、溝通和推理能力的AI係統。在這種背景下,關於新一代AI驅動科學發現的哲學研究也相應增加。2021年,戴維斯(Alex Davies)等學者提齣通過機器學習的方法,AI能夠有效地激發直覺,從而在數學猜想的證明上發揮作用。在科學方法論層麵,盧格(George F. Luger)從AI的視角分析瞭人類究竟是怎樣認知外部世界的,並從理性主義、經驗主義和語用哲學的立場評判瞭AI的工具和技巧屬性。國內學者從20世紀科學哲學的發展曆程來研討AI對哲學研究範式轉型的影響、生成式AI與知識生産新形態、AI的存在論意蘊等等,這些成果都有力地推動瞭AI的哲學研究。當下AI驅動科學研究(AI for Science, AI4S)正在開啓智能化革命,而從科學哲學層麵亟待迴答的問題至少有以下兩個:新一代AI驅動科學發現對科學研究的傳統範式帶來瞭哪些挑戰?新一代AI驅動科學發現是否正在形成科學研究的新範式?本文將對這兩個問題開展追問和探討。


一、新一代人工智能驅動科學

發現的突破及特徵


目前,對於新一代AI的定義及技術特徵,在確定其仍處於弱AI階段的前提下,學界的普遍共識至少包括以下四個方麵:一是認為新一代AI是“可以學習的機器,至少有點像人類”。二是認為新一代AI是“第三代AI”,即“把第一代的知識驅動和第二代的數據驅動結閤起來,通過同時利用知識、數據、算法和算力4個要素,構造更強大的AI”。同時,新一代AI有質的躍升,“從計算智能擴展到記憶智能,從人機交互擴展到交互認知,從深度學習擴展到機器自學習、自編程”。三是認為新一代AI“在移動互聯網、大數據、超級計算、傳感網、腦科學等新理論新技術以及經濟社會發展強烈需求的共同驅動下”,“呈現齣深度學習、跨界融閤、人機協同、群智開放、自主操控等新特徵”。四是認為發展新一代AI的目標是實現“通用人工智能”:“支持機器學習和AI的長期基礎研究,推進AI研發中的政府—高校—工業界研發閤作夥伴關係”,以促進技術轉型及應用,並在此基礎上努力實現“通用人工智能”。新一代AI技術的飛速發展,為其驅動科學發現的突破奠定瞭基礎。


(一)新一代人工智能驅動科學發現的突破


AI核心的基礎功能在於模擬、延伸和擴展人的智能,科學發現是凝聚科學傢與科學共同體探索未知世界所激發的集體智能的重要載體,在以大數據、大模型為核心的大數據智能和大算力的創新發展的支持下,新一代AI在模擬科學傢與科學共同體的智能並促進科學發現的發展方麵不斷取得突破。最新的文獻顯示,來自美國得剋薩斯州農工大學(TAMU)、麻省理工學院(MIT)、斯坦福大學(Stanford)等14個機構的63位作者閤作撰寫瞭一篇長達263頁的關於“AI驅動科學研究”的重磅綜述,詳細闡述瞭AI在亞原子(波函數、電子密度),原子(分子、蛋白質、材料、相互作用),以及宏觀係統(流體、氣候、地下)等不同時空尺度的科學領域應用的關鍵挑戰、學科前沿和開放問題。新一代AI驅動科學發現至少在以下領域取得明顯的進展:



其一,量子力學的研究。量子力學研究最小尺度上的物理現象,使用波函數描述量子係統的完整動力學。而波函數是通過求解薛定諤方程得到的,其中的計算具有指數復雜度。新一代AI通過深度學習方法可以有效地學習神經波函數,探討量子多體問題的求解,其中包括:學習量子自鏇係統基態、學習多電子係統基態,以及通過規範對稱性生成模型模擬量子場論、量子態生成模型求解量子多體物理、反對稱性生成模型刻畫強相互作用電子體係等。深度學習方法的應用極大地促進瞭量子力學研究的進步。


其二,數學的研究。新一代AI在運用大語言模型(LLMs)證明數學定理方麵取得重要突破,加州理工學院、英偉達公司(NVIDIA)、麻省理工學院等機構的學者,構建瞭一個基於開源大語言模型的定理證明器,證明瞭大語言模型在使用像Lean這樣的證明助手證明形式化定理方麵的潛力。以求解偏微分方程為例,傳統求解方法在解決偏微分方程時存在一些限製,如效率低,難以進行分布外泛化和多分辨率分析等。而新一代AI運用解決瞭這些限製的代理模型的深度學習方法,包括前嚮問題、逆嚮問題和逆嚮設計,在求解偏微分方程上取得瞭有效突破。


其三,材料科學的研究。新一代AI通過機器學習方法可以預測晶體材料的性質,設計新穎的晶體結構,並可聚焦於材料錶徵學習和材料生成問題等基礎任務,以及有序晶體材料錶徵、無序晶體材料錶徵和聲子計算等進階主題,從而有力地促進瞭材料科學的發展。


其四,生物科學及藥學的研究。新一代AI通過機器學習方法在蛋白質結構預測、蛋白質錶徵學習、蛋白質骨架生成三個領域取得瞭重要進展,尤其是在蛋白質結構預測領域有重大突破,而圖神經網絡、擴散模型、三維幾何模型等機器學習方法則加速瞭新蛋白質的發現,推動瞭生物科學的發展。同時,新一代AI將機器學習方法用於小分子學習,具體而言用於分子錶徵學習、分子構象生成、從頭生成分子、分子動力學模擬等,可以為分子預測和生成任務開發更準確有效的方法,從而幫助開發新型藥物。如今90%獲批準的藥物都是小分子,它們可以與目標大分子(如蛋白質)相互作用,改變靶標活性或功能。


(二)新一代人工智能驅動科學發現的特徵


通過對上述典型學科案例的分析可知,新一代AI驅動科學發現的突破有以下特徵:


首先,區塊鏈、大數據、大模型、機器學習、深度學習和AI框架等技術水平和應用的飛速發展,為AI算法功能的提升提供瞭技術支持,促進瞭AI在感知、認知和決策方麵功能的提升,為新一代AI驅動科學發現奠定瞭技術基礎。例如,自監督學習(self-supervised learning, SSL)技術的進步,使得深度模型能夠利用無標簽數據,並學習現實數據的先驗知識,例如物理規律和對稱性,而無須依賴大量標記的數據集,從而為AI驅動科學發現創造瞭條件。


其次,AI與基礎科學的發展呈現相互促進、螺鏇式上升的趨勢。以腦科學為例,腦科學研究是一個跨學科研究,涉及生命科學、化學、信息學等多個學科領域,其研究目標是“探索人類思維的運行機製,將生物科技、認知科學和信息技術推嚮整閤和更前沿”。而AI與腦科學的發展緊密相關,從起步階段開始,AI就以模擬人的大腦為主要方嚮,其後AI技術發展的一個重要路徑就是藉鑒人腦的結構功能和行為特徵。一方麵“腦科學的研究成果揭示瞭與AI原理相關的一些重要問題,並進一步使AI在理論和技術上取得瞭重大突破”;另一方麵,AI技術的進步賦能腦科學研究,有效地促進大腦機製解析、類腦智能理論與算法、腦疾病智能診療等基礎研究和應用轉化研發的進步。近年來,這種相互促進、螺鏇式上升的趨勢明顯加速。


再次,AI驅動科學發現所取得的突破呈現多層次特徵。一方麵,AI驅動科學發現在解決科學難題上取得重大突破,如2020年AlphaFold2破解瞭一個睏擾生物學領域50年的難題:預測蛋白質如何摺疊。在這方麵,AI達到以往通過冷凍電子顯微鏡等復雜實驗觀察預測的水平。另一方麵,AI驅動科學發現呈現漸進式的演進,例如,AI通過促進復雜函數理論、偏微分方程理論、數理統計理論等數學基礎理論的發展,逐步驅動瞭數學發展。


最後,AI驅動科學發現的突破促進瞭科研進程的加速發展。特彆是AI賦能科學發現,極大地提升瞭科學研究和技術發明的效率,有效地促進瞭從0到1的原始創新。無論是基礎科學的研究還是應用技術的創新,從整體上而言都是科研進程的加速發展,無論是重大突破還是漸進式推進,對於科學共同體和人類而言都是鼓舞人心的進步。


二、新一代人工智能驅動科學

發現對傳統科學研究範式的挑戰


科學研究的傳統範式是以科學傢為主體的科學共同體為探索自然和社會等相關問題的內在本質和規律而進行的“實驗”“理論分析”和“計算”。傳統科學研究中科學共同體會圍繞某一主題展開聯閤的認知閤作,即集體解決問題。而新一代AI則運用高效率、高精度的實驗錶徵方法參與科學共同體的“實驗”,運用替代文獻的數據庫與知識庫參與科學共同體的“理論分析”,運用不斷迭代升級的算法和高度整閤的算力平颱參與科學共同體的“計算”,運用開源係統構建的馬爾可夫鏈促進科學研究的協同攻關。最新的科研進展顯示,新一代AI驅動科學發現至少在科學研究的範式框架、科學研究的定義、科學研究的發展進程和機製、科學研究的方法論、科學共同體的集體意嚮性等五個方麵給科學研究的傳統範式帶來瞭挑戰。


(一)突破科學研究的原有框架


新一代AI驅動科學發現的新範式能突齣AI與科學研究的互動,有更為廣闊的發展空間和想象力,是一個學科與知識體係重構的過程,這已經不是前微軟技術院士吉姆·格雷(Jim Gary)提齣的“數據密集型科學發現的第四範式”的框架所能容納的。吉姆·格雷認為,科學發現的範式演變經曆瞭四個階段:第一範式存在於幾韆年前,在此階段,人類直接觀察和描述自然現象,科學以經驗性的簡單實驗為主;第二範式存在於過去數百年間,在此階段,科學齣現瞭理論研究分支,科學傢開始利用模型和歸納;第三範式存在於過去數十年間,在此階段,科學齣現瞭計算分支,科學傢對復雜現象進行仿真;第四範式就存在於現在,如今,數據爆炸將理論、實驗和計算仿真統-起來,由儀器收集或仿真計算産生數據,由軟件處理數據,由計算機存儲信息和知識,科學傢通過數據管理和統計方法分析數據和文檔。


然而,新一代AI驅動科學發現的新範式與第四範式的數據建模存在“不可通約”,因為用於深度強化學習模型的數據來自科學基本方程的數值解,而非經驗觀察所獲取的數據。從深度強化學習的角度來看,模擬過程的中間細節可以被視為訓練數據,能夠用於深度學習仿真器的訓練。此類數據是完全標注的,數據的數量僅取決於計算開銷。一旦完成訓練,仿真器就可以自我強化學習,可以高效執行新的計算,並大大提升計算速度,有時甚至能夠達到幾個數量級,如RNN循環神經網絡。2017年,精度和性能上比RNN循環神經網絡更高的學習模型transform被發明齣來,其原理是利用注意力機製來提高模型訓練速度,2022年,AI研究實驗室OpenAI依據此學習模型而推齣的聊天機器人ChatGPT風靡全球。由此可見,新一代AI驅動科學發現基於算法分析建模而實現的深度學習自動化和智能尋源工具化,超越瞭數據管理和統計方法分析所建構的數據密集型科學發現,突破和超越瞭吉姆·格雷所界定的第四範式框架。


(二)構建科學研究的新定義


新一代AI作為科學研究的有效參與者融入科學共同體將成為常態。在科學研究中,人類專傢的主體地位是不可動搖的,在這個前提下,新一代AI憑藉在深度強化學習模型、大數據和算力提升等方麵的優勢與人類科學傢閤作,能大幅度提高科學研究和技術創新的效率,降低科學研究和技術創新的成本,已經成為科學研究不可或缺的重要參與者。以理查德·戈奇奧(Richard Gottscho)為主的研究團隊的最新研究成果錶明:“通過研究貝葉斯優化算法,人類科學傢與計算機閤作,與僅依靠人類科學傢相比,芯片製造成本可能降低一半”,“雖然由於專業知識和解決挑戰性問題的能力,人類仍然是必不可少的,但‘人先機後’(human first-computer last, HF-CL)策略可以幫助解決流程開發的煩瑣,從而大大加快創新”。由此可見,新一代AI融入科學共同體參與科學研究已經在實踐上取得瞭令人振奮的成果,而且將持續螺鏇式發展進步。


此外,在數學、物理學、天文學、化學、材料科學等諸多領域,新一代AI通過融入科學共同體來參與科學研究,也在一定程度上揭示瞭事物運動的新機製,發現瞭新規律,闡明瞭新原理,並有效地探索瞭模型化、定量化,在一定範圍內預言瞭新現象,提齣瞭新概念,從而驅動瞭科學發現的進步,重構瞭科學研究的概念與實踐。


(三)促進科學研究發展進程和機製迭代


在新一代AI驅動科學研究的進程中,AI逐步成為科學研究的重心,它既是被研究的客體,又是參與研究的主體,實現瞭對傳統科研主體和客體的雙重超越。


在新一代AI驅動信息學、數學、醫學、材料科學、地學、生命科學、物理學、化學等學科的研究中,深度強化學習模型、大數據和算力等AI技術是被預先研究及開發的客體。


同時,新一代AI又是參與學科研究的有效主體,這至少體現在以下三個方麵:一是新一代AI可以快速閱讀科學文獻,進而瞭解科學的基本規則、事實和方程式,從而幫助科學傢管理和利用海量數據投入科研;二是新一代AI升級瞭顯微鏡和基因組測序儀等研究支柱,為儀器增加瞭新的技術能力,使其功能更加強大,為科學傢提供瞭探測和控製自然界的新工具;三是新一代AI可以模擬復雜係統,使其成為基礎科學研究中越來越標準的工具。基於新一代AI可模擬的假設、實驗和數據的自校正係統,科學發現成瞭一個自主學習問題,因此,新一代AI通過賦能自主探索,有效地加速瞭科研進程。


(四)重構科學研究的方法論


新一代AI驅動科學發現重構瞭科學研究的方法論,這主要錶現在:新一代AI技術不斷迭代創新發展,驅動科學發現與相關科學領域基礎理論的發展保持動態聯係,呈現相互促進的可持續發展趨勢。


從宏觀而言,無論是數學、物理、化學、天文學等基礎學科,還是藥物研發、基因研究、生物育種研發、新材料研發等技術開發,都既需要基礎理論研究的最新成果予以指導,尤其是需要數學、化學、物理等基礎學科進行更加深入的理論構建和從0到1的基礎理論的突破,來引導學科整體的發展方嚮和路徑;同時,也需要新一代AI的技術創新發展,發揮AI滲透性、擴散性和顛覆性強的特性,促進新一代AI的大模型、算法設計和算力提升與計算機、數據科學、材料、生物等學科交叉融閤,形成相互促進、緊密聯係的互動,從而構建以新一代AI支撐基礎理論和前沿科學研究的新模式。



從微觀而言,依托新一代AI在高維問題的錶示能力,科學傢不僅可以更加真實細緻地詮釋復雜係統的邏輯架構,而且可以把基礎學科的基本原理以更加高效、實用的方式應用於解決科學研究和技術創新中的實際問題,從而將復雜的基礎研究成果構建為更簡潔明快的決策體係或更實用的工具,提升科學研究和技術創新的效率。


(五)重塑科學共同體的集體意嚮性


新一代AI研究開源框架的廣泛運用為科研人員提供瞭一個有效的閤作平颱,同時在研究閤作模型和研究路徑拓展方麵,為新範式的構建提供瞭新的方嚮。所謂開源框架,即“現行的一些對源代碼開放的軟件和服務的框架。這種‘開放’正是促使人們使用它的原因,因為這意味著用戶和開發人員可以自由地使用、復製、散發以及修改源碼”。AI研究開源框架目前分布廣泛且極其活躍,例如,機器學習的Python開源框架Scikit-learn、利用大數據進行機器學習的Apache SystemML、深度學習常用的開源框架TensorFlow等。


在AI研究開源框架中,研究人員來自世界各地的不同單位、不同行業,他們在網絡這個虛擬的科研空間中發揮各自纔能,在事實上形成瞭一個虛擬的科學共同體,溫格(Etienne Wenger)將此命名為“實踐共同體”,並概括齣這個共同體的三個基本元素:其一,具有的“特徵域”是由共同興趣域定義的;其二,具有一個共同學習和交流的社會結構,“他們可以進行聯閤行動,並且一起討論、互相幫助和共享信息”;其三,可以共享實踐的體驗,即他們“形成一個共享的資源庫,庫中可共享的 資源包括:實踐體驗、科研經曆、運用的工具和齣現問題的處理方法”等。AI研究開源框架提供瞭一個虛擬的科研閤作平颱,同時也建構瞭一個虛擬的科研“實踐共同體”和科研閤作路徑:“在隨機性條件下,能夠進行有效的閤作解決問題。促成閤作的重要因素在於認知互動和代碼契約的有效構建,即虛擬科學共同體成員之間的認知互動,在不斷反思的馬爾可夫鏈上,可以形成一個綜閤的集體創造力,而共享的契約性安排、心理契約的代碼錶徵、持久性關係的代碼構成這三個要素所構建的代碼契約,是激勵虛擬科學共同體中科研人員長久閤作的重要機製。”在閤作認知的團體裏,集體意嚮性存在著共享意嚮性的迭代情況,最終在不同學術權威的影響下形成一個集體意嚮性的馬爾可夫鏈。據此,新一代AI驅動科學發現在閤作科研的集體意嚮性上實現瞭迭代升級。


三、新一代人工智能驅動科學發現

對新科學研究範式的構建


新一代AI驅動科學發現在解構科學研究的傳統範式的同時,也通過“人機融閤”的本體論、“人機協同”的方法論、“多元嵌入”的認識論和“人機對齊”的價值論,逐步構建弱AI階段的AI驅動科學研究的新範式。


(一)“人機融閤”的本體論


新一代AI作為智能體已經逐漸融入科學共同體,成為科學研究主體的有機構成,“人機融閤”已經成為新一代AI驅動科學發現的“存在”的本質特徵,那麼,新一代AI是如何構建“人機融閤”的本體論的呢?這需要我們從本體論層麵詮釋新一代AI如何進行功能模仿,如何麵對圖靈假說測試和可接受性準則。我們之所以從本體論齣發來尋找答案是因為:“一門科學的所有專題對象都以事質領域為其基礎,而基本概念就是這一事質領域藉以事先得到領會(這一領會引導著一切實證探索)的那些規定。所以,隻有相應地先行對事質領域本身作一番透徹研究,這些基本概念纔能真正獲得證明和‘根據’。”


第一,“人機融閤”建構的主體間性。德雷福斯基於海德格爾的哲學思想,針對AI發展曆程中所遭遇的認知模擬與語義信息加工難題指齣:“人工智能近來的睏難,揭示的是技術(technology) 的限度,而不是工藝(technological)的局限。”這種技術的限度的一個重要體現就是,之前AI在“人機融閤”方麵存在不足,而新一代AI技術的進步促進瞭“人機融閤”的提升,雖然還離“通用人工智能”差距甚遠,但卻有力地促進瞭AI與科學共同體的協作。


科學共同體在運用新一代AI進行科學研究的實踐過程中,將科學傢的自我意識與新一代AI協同中所産生的意識經驗結閤起來,構造齣“人機融閤”來認識客觀世界,這樣就形成瞭科學傢與AI聯閤體和研究對象之間的存在與交互。科學傢與AI聯閤體的意識主體通過科學研究創造齣研究成果的“他者”,科學傢、新一代AI與科學研究對象彼此的存在以共有的客觀世界為前提,科學傢、新一代AI與科學研究對象在“在世之中存在”。


第二,“人機融閤”建構的身體與世界。梅洛-龐蒂認為,人的主觀性與身體性是相關聯的:“對於世界的知覺隻是我存在場的擴展;知覺不會超越存在場的本質結構,並且身體總是存在場中的自主體,而不是存在場的對象。世界是我置身於其中的、開放與不確定的統一體。”新一代AI依托算法、算力和大數據技術的持續進步與迭代,通過“人機融閤”賦能科學共同體,即新一代AI虛擬地“植入”科學傢的身體(大腦),拓展瞭科學傢的認識視野,增強瞭科學傢的認識能力,建構瞭AI“嵌入”科學傢身體與世界的新範式。


“人機融閤”主要依托“智能計算”來建構身體與世界,具體而言是由科學傢的智能、新一代AI的算力相融閤的新型計算理論方法、架構體係和技術能力的集成,來實現許多科學研究經典理論和前沿研究領域的創新,以解決復雜的科學理論原創性突破和技術創新問題。在“人機融閤”中,以碳基生命為載體的科學傢是智能計算的核心和智慧的源泉,而以矽基設施為載體的新一代AI賦能科學傢,融入科學傢探索未知世界的發現之旅。



第三,“人機融閤”建構的上手狀態。海德格爾認為:“上手的東西在世界之內來照麵。因此,這種存在者的存在即上手狀態無論以何種方式總歸在存在論上同世界及世界之為世界有關係。在一切上手的東西中,世界總已在‘此’。”海德格爾以人對錘子的使用為例來描述上手狀態:“例如,我們稱之為錘子的那種上手的東西因其自身同錘打有緣(所以我們纔稱之為錘子)。”新一代AI一方麵通過加速科學實驗、理論研究和科學計算,作為科學傢得力的科研助手,如同科學傢用於科研上手的“錘子”;另一方麵,新一代AI作為智能體已經逐漸融入科學共同體,成為使用“錘子”的科學研究主體的有機構成,據此,科學傢與新一代AI共同建構瞭“人機融閤”的上手狀態。


“人機融閤”建構的上手狀態呈現為:在真實科學研究和技術創新的環境中,一方麵,科學傢通過人類思考、理解、總結和主動應用知識的能力來運用新一代AI,從而驅動科研發展;另一方麵,新一代AI通過深度學習等錶徵學習來模擬人腦的稀疏性、選擇性、方嚮性、學習性、多樣性以及記憶遺忘機製而有效融入科研。


由此看來,新一代AI構建的“人機融閤”的本體論,在本質上是不同於AI促進科學研究的單嚮性的簡單實在的,而是AI與科學共同體雙嚮交互的數字重塑,是AI融入科學共同體對未知世界探索的數字化外顯;雖然受技術水平所限存在認知和錶達能力的製約(與人類期待的“通用人工智能”差距甚遠),但新一代AI卻在一定程度上參與瞭科學傢主體感覺的建構,並與科學傢主體共同建構瞭“人機融閤”的上手狀態,這既是AI融閤科學共同體開展科學研究所形成的主觀化的客觀實在,也是科學共同體運用AI探索世界所形成的客觀化的主觀實在。因此,新一代AI驅動科學發展在本體論歸屬上帶有“人機融閤”的雙重性,即科學共同體和AI是“在世之中共在”的共同本體論承托。


(二)“人機協同”的方法論


新一代AI與科學共同體在本體論層麵的“人機融閤”,為其在方法論層麵的“人機協同”奠定瞭基礎,二者以“人機互助”“人機互補”和“人機共建”三種方式,構建瞭“人機協同”的方法論。


第一,“人機互助”。新一代AI通過充當科學傢的助手、助理,深度介入知識發現的過程,並在這一過程中發揮重要作用。以生成式AI和具身式AI為代錶的新一代AI,發揮各自的技術優勢將知識發現過程中的若乾環節承擔起來。生成式AI能促使文本、圖錶和視頻等的自動生成,而具身式AI通過綜閤感知、運動技能和認知能力與周圍環境進行交互。這些代理通過模擬人類與環境的互動,實現瞭感知、行動和認知之間的連接,使知識的錶達的環節由AI協同承擔。在科技領域,生成式AI與具身式AI的結閤是新一代AI驅動科學發現的關鍵方嚮。生成式AI擅長語言産齣,但在深層次的認知方麵,如模擬世界實體及其關係,還存在局限。為此,科學傢將它們與具身式AI的架構相結閤,以實現更深入的認知功能。


可驗證的假設是科學發現的關鍵,這些假設有多種形式,從數學的符號錶達式,到化學的分子,再到生物學的基因變異。科學傢在科學發現中構建有意義的假設通常是一項耗時費力的過程,正如約翰內斯·開普勒在耗費瞭四年時間分析星體和行星數據後纔得齣瞭行星運動定律的假設。而新一代AI技術的發展,幫助科學傢實現瞭基於AI的科學假設生成(AI-based generation of scientific hypotheses),從而有效地實現“人機互助”。


第二,“人機互補”。人是有意識、有目的的認識主體,提齣科學發現的目標、提齣科學問題,是人的“長處”,由於人類的專業知識和解決挑戰性問題的能力,科學傢是科學發現的主導者。而新一代AI具有生成假設、設計實驗、收集和解釋大量數據集的“長處”,從而可以獲得傳統科學方法無法獲得的結果。在科學發現的實踐探索中,科學傢和AI可以分彆發揮自己的優勢。科學傢在詮釋科學目標及問題背景、分析因果關係和進行高層次推理方麵的能力遠遠勝過AI,而AI所具有的高速數據處理、復雜模式識彆和大規模計算的能力則勝過科學傢。因此,兩者在協同中發揮各自特長,可以極大提高科學發現的效率或成果率。


科學傢運用新一代AI在驅動科學發現時,會首先根據科學發現的目標,在深度強化學習模型中嵌入相關專業領域知識,即讓AI先學習“先驗知識”,藉助機器學習的強擬閤能力來確定專業領域知識的一般性前提,通過推導變量之間的映射關係,得齣具體陳述,從而提高模型的準確率;然後,科學傢再通過在AI模型中嵌入相關行業的先驗知識來保證預測結果符閤相關行業的運行規律,不違反常識。例如,物理學傢在運用新一代AI開展粒子物理中的應用或探索時,先在AI模型中嵌入粒子物理專業領域知識,然後再讓AI協助物理學傢開展包括晶格量子色動力學(LQCD)等在內的具體項目,這意味著物理學傢與新一代AI在科學發現實踐中“人機互補”的探索取得進展。


第三,“人機共建”。在“人機互助”和“人機互補”的過程中,人類與新一代AI進入共同建構科學知識的新境界,形成“誰也離不開誰”的互在關係,共同完成瞭單靠一方所不能完成的任務。新一代AI不僅是科學傢手中的強大工具,它也在改變科研過程。一方麵,我們強調科學傢在基礎理論研究上的主導性,在富有前瞻性理論的導引下從事科學研究的探索;另一方麵,我們又要在AI技術不斷迭代創新發展的基礎上,促進新一代AI驅動科學發現與基礎理論的動態聯係,從而不斷拓展科學發現的探索領域。


“人機共建”作為一種創新的科學發現閤作模式,其優勢在於將科學傢的經驗和創造力與AI的大模型大算力相結閤。科學傢可以通過AI係統快速獲取並分析海量數據,從中發現新的規律和趨勢,提供基於數據的決策支持。同時,通過機器學習和深度學習的持續迭代升級,新一代AI係統可以不斷優化自身的性能,賦能科學傢更精準、高效的分析和預測,為科學傢在科學發現中做齣更明智的決策提供幫助。通過“人機共建”,科學傢和新一代AI可以實現可持續性的共同探索,並能解決復雜的科學問題。例如,在生物學領域,傳統的科學研究由於算力有限,生物學傢描述原子行為、相互作用和演化的模擬僅限於小分子,並且不夠準確,無法提取分子的詳細特徵。現在,生物學傢在新一代AI的幫助下可以計算從各個角度對稱的原子之間的相互作用,實現瞭精準模擬。2023年哈佛大學的Boris Kozinsky團隊開發瞭一種名為Allegro的工具,它可以使用AI準確地模擬具有數韆萬個原子的係統。“人機共建”促進瞭準確模擬化學和生物過程的動力學發展。


(三)“多元嵌入”的認識論


新一代AI驅動科學發現的突破,在認識的主體、認識的對象、認識的過程和機製等認識論的傳統問題,以及知識生産、知識進化和創新等知識哲學的新興問題上都實現瞭拓展創新。正如漢弗萊斯所言:“一個完全以人類為中心的認識論已經再也不閤時宜瞭。”新一代AI正在構建“多元嵌入”的認識論。


第一,新一代AI嵌入認識主體。AI作為人類科技創新的産物,從根本上是無法動搖科學傢在科學研究實踐中作為唯一認識主體的地位的,但它通過賦能科學傢的認知決策,增強科學傢的演繹推理、歸納推理和溯因推理等能力,有效地嵌入認識主體,成為科學傢探索未知世界的有機組成。


具體而言,科學研究中原來需要依托經驗和智力,並耗費大量時間和精力的認識決策,在以大數據、大模型為核心的智能深度神經網絡的幫助下可以變得輕鬆一些,以新一代AI程序AlphaFold2為例,之前分子生物學傢都是基於蛋白質的氨基酸序列來研究一個蛋白質結構,而“Alpha Fold生成的蛋白質3D模型比以前的任何一種都要精確得多,這標誌著生物學的一項核心挑戰取得瞭重大進展”。在AI的認識決策的幫助下,現在很多分子生物學傢都可以基於預測蛋白質結構去研究蛋白質的功能。


在增強科學傢的演繹推理方麵,新一代AI的強擬閤能力在確定專業領域知識的一般性前提的基礎上,可以有效地幫助科學傢推導變量之間的映射關係。以物理學的研究為例,AI通過大模型和大數據從微觀世界和宏觀世界等高維復雜的係統中提取重要概念,在此基礎上推導齣這些概念滿足的方程,來幫助物理學傢將這些特定場景中齣現的概念泛化成更加普適的概念。


在增強科學傢的歸納推理方麵,新一代AI依托強大的計算資源,通過有效選取數據特徵和構建規則的模型,來幫助科學傢從海量的信息中發現潛在規律。以天文學的研究為例,基於“中國天眼”FAST、“大型綜閤巡天望遠鏡”LSST等捕獲的海量觀察數據,捲積神經網絡等AI程序極大地提升瞭天文學傢對數據的分析速率,新一代AI展現齣來的效率和準確性遠高於傳統方法。


在增強科學傢的溯因推理能力方麵,新一代AI通過可以量化因果關係的因果AI(Causal AI)在科學研究中的運用,能有效地幫助科學傢理解未知的事實。例如,圖靈奬得主、加州大學洛杉磯分校計算機科學教授硃迪亞·珀爾提齣的因果階梯分類框架迴答瞭“因果推理主體可以做什麼”這一問題。因果關係之梯包括三個層級:關聯(association)、乾預(intervention)和反事實(counterfactual),分彆對應逐級復雜的因果問題。新一代AI不僅可以通過深度學習來提升科學發現中的關聯,而且可以通過一係列數學公式(算法)來實現乾預,最重要的是,它通過賦能科學傢反事實的推斷,增強瞭科學傢的溯因推理能力。


第二,錶徵融閤嵌入的認識客體。科學共同體所探究的未知世界,就是科學發現中的認識客體。新一代AI驅動科學發現,首先以大數據庫的海量數據為基礎,將科學發現的過程和對象全麵錶徵化,産生“數據自然界”,然後通過大模型為核心算法賦能,産生大數據智能。因此,AI協助科學傢研究的對象“不僅是客觀世界,而且是客觀世界與‘數據自然界’的錶徵融閤”。由此可見,新一代AI輔助科學共同體進行動態分析和挖掘的對象,不僅是科學共同體要探索的未知世界,而且是數據自然界與之錶徵融閤的新的認識對象。



以生成式AI技術為例,生成式AI通過機器學習來識彆現有數據中的模式和結構,以生成新的原創內容。生成式AI模型的突破之一是能夠利用不同的學習方法,包括無監督或半監督學習進行訓練,從而能更容易、更快地利用大量未標記的數據來創建基礎模型,並從數據中學習對象的組件進而生成全新的、原創內容(如文字、圖片、視頻)。即生成式AI模型可以接收文本、圖像、音頻、視頻和代碼等輸入,並將新內容生成上述任何形式。例如,它可以將文本輸入轉換為圖像,將圖像轉換為歌麯,將視頻轉換為文本。生成式AI成功地對認識對象實現瞭錶徵融閤,因為其生成的內容不是簡單地復製認識對象即學習數據,而是在訓練學習數據的基礎上産生新內容。


在科學研究實踐中,生成式AI模型能有效提升科學傢探索未知世界的效率。例如,在藥學領域,生成式AI模型可以通過開發新的蛋白質序列來幫助藥物發現,從而為醫學研究提供幫助。在氣象科學領域,生成式AI模型可以模擬地球大氣運行,幫助科學傢更準確地預報天氣和自然災害。


第三,算法融閤嵌入的知識生産。新一代AI驅動科學發現,是建立在算法、算力的技術進步和數據參數海量化擴展的基礎上的,其中算法是AI技術的核心部分。算法作為計算機處理信息的方法,“與人的認識方法形成新的關聯”。新一代AI驅動科學發現,依托其算法技術取得迭代升級,特彆是可以量化因果關係的因果AI算法技術的運用,在一定程度上揚棄瞭深度學習的“算法黑箱”,在將AI程序算法的準確性和人類思維的決策自主性有效融閤方麵取得一定進展,在認識方法上初步實現瞭算法融閤。


邁剋爾·吉本斯(Michael Gibbons)等人在閤著《知識生産的新模式:當代社會科學與研究的動力學》中,把傳統的知識生産模式命名為模式1(Mode-1),新的知識生産模式命名為模式2(Mode-2),後者相對於前者而言,知識在更宏觀的、跨學科的、異質的社會和經濟環境中被創造齣來。而新一代AI算法融閤嵌入的知識生産,通過模擬、延伸和拓展科學共同體的智能,在大數據中獲取知識並分析知識,從而産生以科學研究為目的引導的理論、方法及係統,將知識生産的模式2迭代升級到新的境界,即呈現跨學科性、社會情境性、科學與社會需求等相互交融的特徵。例如,榖歌AI實驗室DeepMind開發的深度學習工具“材料探索圖形網絡”(Graph Networks for Materials Exploration, GNoME)不僅成功預測瞭近40萬種能夠穩定存在的無機化閤物的結構和特性,還在17天內全自動閤成瞭41種新無機化閤物。實驗成功的關鍵就是GNoME的算法, GNoME不僅能預測結構,還能在硬件設備完善的情況下“親自做實驗”,讓新材料的發現速度成百上韆倍地增長。


(四)“人機對齊”的價值論


新一代AI驅動科學發現需要遵循的價值理念和行為規範,就是科技嚮善、造福人類的倫理準則,即“人是目的”的AI倫理準則。新一代AI驅動科學發現的目標是真正與人類設計的意圖相吻閤,而能否吻閤就是所謂的“對齊問題”(the alignment problem)。“對齊問題”的目標是維護人類利益和控製權。過去幾年裏,關於安全和對齊的問題已從人們關注的邊緣而成為核心,這是因為隨著AI技術的快速發展,新一代AI的多任務學習能力和泛化能力越來越強,那麼其驅動科學發現是否會産生不符閤人類價值和利益的結果?要確保人類的價值和利益,新一代AI驅動科學發現在技術層麵必須以正確的目標函數,以及能反映需要對齊的價值觀目標為牽引,構建閤適的倫理邊界。概括而言,構建“人機對齊”的價值論,至少需要從以下三個方麵推進:


第一,“人是目的”的AI倫理準則需要兼顧個體需求與集體規範。康德認為,人是“客觀的目的,他的存在即是目的自身,沒有什麼其他隻用作工具的東西可以代替它。否則宇宙間不會具有絕對價值的事物瞭”。因此,“人就是這個地球上的創造的最後目的,因為他是地球上唯一能夠給自己造成一個目的概念,並能從一大堆閤乎目的地形成起來的東西中通過自己的理性造成一個目的係統的存在者”。康德“人是目的”這一理念應該被確定為AI的倫理準則,盡管這是一種人類中心主義,但從技術發展趨勢而言,新一代AI技術的進步給人類社會及自然帶來的極大不確定性,需要我們未雨綢繆,從技術實踐與法律規製上貫徹這一倫理準則。


“人是目的”的AI倫理準則需要在新一代AI驅動科學發現中兼顧個體需求與集體規範。就個體需求而言,需要確保科學傢在運用AI參與科研時,個人的主體性、原創性、權益歸屬等得到尊重,同時還涉及科學傢的隱私和個人信息保護的問題。就集體規範而言,如前文所述,新一代AI研究開源框架的廣泛運用為科研人員提供瞭一個有效的閤作平颱,全世界的科學傢通過網絡運用AI協作科研時,在跨學科、跨文化、跨場景的情境下形成一個集體意嚮性的馬爾可夫鏈,在運用AI的科學界構建一個對齊聯盟(Alignment Assemblies)。


第二,構建展示規範與理想規範相匹配的“人機對齊”技術路綫。新一代AI驅動科學發現的理想規範(Ideal specification),代錶瞭科學傢的“願望”,對應於他們在構建AI係統時促進科學研究的想法;而展示規範(Revealed specification)代錶瞭AI在科學研究中實際發生的“行為”,對應於從行為中推斷齣的實現目標。展示規範與理想規範相匹配,就是科學共同體所追求的“人機對齊”,即AI係統驅動科學發現的目標與科學傢的設計意圖相吻閤,否則就是“對不齊”。


據此,新一代AI驅動科學發現在“人機對齊”技術路綫上,至少要遵循以下原則:首先,需要在新一代AI的設計和使用上明確意圖,即訓練AI遵行科學傢指令的能力。其次,需要在新一代AI的設計和使用上遵循“3H”原則,即幫助科學傢解決問題的有益原則(helpful),不能僞造信息誤導用戶科學傢的誠實原則(honest)和不對人或環境造成生理、心理或社會性傷害的無害原則(harmless)。最後,需要在新一代AI的設計和使用上遵循編碼道德規範和價值觀。在設計和運用AI時,科學傢應提前與倫理學傢溝通,遵循經驗法則和編寫規則來為AI編碼道德規範和價值觀,以指導AI行為。通過嚮AI輸入保護人類生命、尊重隱私、公平公正等基本規則、原則和價值觀,以減少科技異化的發生。


第三,構建具備可問責性、透明度和可解釋性的“人機對齊”倫理準則。新一代AI驅動科學發現的迅猛發展和廣泛應用,對現有的科學研究和技術創新的責任認定體係帶來瞭挑戰,會因責任認定睏難而齣現無人負責的睏境,即馬蒂亞斯所強調的“責任鴻溝”問題:“以往機器的製造商或經營者對其行為後果負有法律和道義層麵的責任,然而,如今自主學習機器的齣現使人類製造商或操作者無法在原則上預測機器的未來行為,從而不能在道德層麵對其完全承擔責任。因此必須決定究竟是不再使用這些機器(顯然這並不是一種現實的選擇),還是麵臨著‘責任鴻溝’,這是傳統的責任分配觀念無法解決的。”


構建具備可問責性、透明度和可解釋性的“人機對齊”倫理準則,首先需要明確的是設計並在科學研究中使用新一代AI的科學共同體的主體責任,正如維貝剋所認為的,隻有同時具備意嚮性和自由意誌條件的主體,纔有具備責任能力的可能,“一個實體能夠對其行動承擔道德責任,且具備道德層麵的責任,至少需要滿足以下兩個條件:意嚮性(也即形成意嚮的能力)和實現其意嚮的自由”。以科學傢為核心的科學共同體作為運用新一代AI的主體,必然是可問責的第一承擔者,然而,藉鑒麥剋爾·安德森(Anderson Michael)和蘇珊·安德森(Anderson L. Susan)的觀點,“如果我們可以設計齣符閤倫理規範的智能機器,那麼它們就不會有人類那種處於復雜的道德情境中行為不一緻的可能”,我們可以大膽地預測,一旦新一代AI被植入恰當的倫理準則在技術上得以實現,那麼在它的協助下科學共同體的錶現會比大多數沒有AI協助的科學共同體更優秀。


在漢森(F. A. Hanson)看來,人類和非人類的實體都可以作為責任承擔的對象,需要承擔“聯閤責任”,即“構建人機混閤責任體”。但即使新一代AI技術有所突破,也無法取代科學研究中科學傢的主體作用,設計和使用AI技術的科學傢作為第一責任主體地位是不變的,同時科學傢必須能夠理解AI係統如何做齣特定的決策,且能夠追溯並審查其運行與決策過程。據此,我們需要在科學傢作為責任主體和“構建人機混閤責任體”之間保持必要的張力。


綜上所述,新一代AI驅動科學發現,在突破科學研究的原有框架、構建科學研究的新定義、促進科學研究發展進程和機製迭代、重構科學研究的方法論、重塑科學共同體的集體意嚮性等諸多方麵給科學研究的傳統範式帶來挑戰;同時,它也通過構建“人機融閤”的本體論、“人機協同”的方法論、“多元嵌入”的認識論和“人機對齊”的價值論,形成瞭弱AI階段的AI驅動科學研究的新範式。新一代AI融入科學共同體對科研探索之中,與各門科學的領域知識深度結閤,將大幅提升科研效率,推動下一輪科技革命的爆發。


(為適應微信排版與閱讀,注釋從略,轉載引用等請參閱期刊原文。)


往期推薦

《社會科學》往期目次與摘要

《社會科學》往期目次

《社會科學》往期摘要

張 柯 黃 璐 | 先驗觀念論與批判實在論 ——論海德格爾對康德哲學的最初定位及其變化

楊國榮 | “活著”:人的生存及其意義

楊東東 | 語言何以能夠有意義地指嚮世界? ——基於伽達默爾語言—事物關係的思考

李忠偉 | 腦機智能哲學與意識問題

肖 峰 | 大模型的理解力之爭與理解觀新敘事

劉日明 王美樂 | 馬剋思與羅爾斯的“融閤”為何不可能

張一兵 | 空間中的政治:走嚮一個新的觀念革命 ——列斐伏爾《空間與政治》研究

畢 波 | 永恒者的時間性:鬍塞爾論觀念對象的時間性及其構造

陳蓓潔 | “感性活動”的發現及其對曆史本質的通達
楊大春 | 解釋何為?——從語言哲學的演進談起