欢乐颂第三季,灵域,完美世界小说下载

現有人工智能（artificial intelligence，簡稱AI）價值對齊方案試圖借助自然科學的經驗證據與實證方法厘清人類道德的自然主義基礎，并通過技術手段將其應用到AI對人類價值觀的學習之中，忽視了道德的自然主義解釋的根本性缺陷，引發了AI價值對齊難題。有限主義認為，現有AI價值對齊方案主張使AI具備類人道德，在本質上遵循AI發展的自由主義進路。這過于樂觀化、理想化。在現實中，時空有限性、類人有限性與算法有限性等難題導致AI價值對齊的功能有限性。同時，AI價值對齊的功能有限性又伴隨著各類技術風險與社會風險，即AI失控風險、人類機器化風險、無人擔責風險與AI濫用風險。對此，應堅持有限主義的AI價值對齊方案，反對通用AI價值對齊的路線，堅持AI價值對齊的去道德化，制度化防止AI道德責任對齊，以及控制AI價值對齊的應用范圍。

劉永謀，中國人民大學哲學院教授、博士研究生導師

隨著AI的普遍化與強大化，人類正處于“魔法師學徒”的境地，對齊問題（the alignment problem）成為最緊迫的問題之一，即“如何確保這些模型捕捉到我們的規范和價值觀，理解我們的意思或意圖，最重要的是，以我們想要的方式行事”。當AI倫理風險不斷涌現，價值對齊問題已然成為各大AI企業競相研究、踐行的核心策略。2023年7月，OpenAI宣布成立“超級對齊”（superalignment）團隊，計劃花費4年時間、投入20%算力，全力解決超級智能的價值對齊問題。此外，谷歌、微軟、OpenAI和Anthropic共同創建了前沿模型論壇，旨在通過與政策制定者、學術界的合作，推動AI模型安全、負責任的開發。不可否認，AI價值對齊能夠大幅糾正偏見、促進公平，已被視為解決AI發展負面后果的關鍵舉措。

但是，AI價值對齊亦存在問題。從根本上來看，現有的各類AI價值對齊方案遵循AI發展的自由主義進路，堅持類人AI理念，強調技術至上，主張資本的無序擴展與有效加速主義（effective accelerationism， e/acc）。具體來說，AI價值對齊追求類人道德，對技術發展極度樂觀，試圖借助科學知識與技術手段，使AI習得人類價值觀。人類道德是不完美的，類人道德并非圣人道德，并不一定有益于人類。因此，雖然AI價值對齊將有益AI視為最終目標，但是在實踐路徑上卻發生偏移，逐漸趨向自由主義進路，不可避免地伴隨著AI失控、人類機器化、無人擔責與AI濫用等風險。

跳出自由主義框架，以有限主義視域審視AI價值對齊是必要的、有價值的。尼克·波斯特洛姆（Nick Bostrom）在分析智能大爆發的動力學、超級智能的形式和能量的基礎之上，轉向AI控制問題的研究。他區分了確保AI可控的能力控制方法與動機選擇方法，認為能力控制方法最多只是暫時的、輔助的手段，人類應更多地掌握AI動機選擇機制。在此基礎之上，波斯特洛姆詳細分析了AI獲取人類價值觀的多種方法，如詳細表達、進化選擇、強化學習、價值觀累積、動機性支架、價值觀學習、仿真調節、體制設計，并對可行性與效果進行評估。此外，斯圖爾特·羅素（Stuart Russell）同樣強調，要保持對AI的絕對控制權，確保AI永遠對人類有益。他提出了人機之間的一種新關系，即：當致力于使AI實現人類目標時，應明確人類的目標是不確定的，如此才能確保AI服從于人類，在行動前請求許可、接受糾正、允許被關閉。無論是尼克·波斯特洛姆，還是斯圖爾特·羅素，均遵循AI發展的有限主義進路，強調AI的可控性與有益性。正如科技謙遜主義所認為的，“人類發展科技的最終目標毫無疑問是為了人類福祉，即使追求真理的沖動，最后也是要落實到造福社會上的”。與自由主義進路相對，有限主義進路關注對AI的控制而非無限發展，“重要的是努力控制，而不是完成控制”。因此，在有限主義視域下審視AI價值對齊的基本預設、功能范圍與具體方案，才能確保AI安全、有益、實用，避免陷入“AI必須擁有像人類一樣的價值觀”的技術、倫理等跨學科難題中。

一、AI價值對齊的自然主義預設

在有限主義看來，現有的AI價值對齊方案遵循自由主義進路，試圖通過無限發展技術使AI具備類人道德，因此，該方案不可避免地以自然主義道德觀為基礎和預設。其原因在于，強調技術至上的自由主義進路傾向于選擇一種普遍的、絕對的道德觀，以便被統計、量化與編碼至AI系統。一直以來，人類普遍將自由意志、意識等視為道德的核心要素，但此種對道德本質的形而上學思辨難以被證實，無法通過技術手段將其應用至AI價值對齊方案中。相較而言，近來興起的生物倫理學、神經倫理學等探尋人類道德的自然主義基礎，從自然科學的角度解釋人類道德的起源與本質，為AI價值對齊提供了可操作的、可實現的技術路徑。但是，通過有限主義視域的審視，可以發現，道德的自然主義解釋存在根本性缺陷，它忽視了道德的文化維度，消解了人類道德的復雜性與多樣性。

（一）人類道德的自然主義理論基礎

在認知神經科學領域，人類道德行為被認為與大腦中的特定區域相關。通過利用“腦電圖（EEG）、事件相關電位（ERP）等電信號方法以及正電子發射斷層技術（PET）、功能磁共振成像（fMRI）等方法”，可發現大腦中有兩個與道德相關的系統：情感系統與認知系統。在情感系統中，杏仁核在面臨道德情境時會被激活，產生憤怒和恐懼等情緒反應，進而影響道德判斷；島葉與同情、內疚等道德情感相關，有助于推動我們做出道德行為；腹內側前額葉皮層負責整合來自杏仁核與島葉的情感信息，并結合認知信息，做出綜合的道德決策。在認知系統中，背外側前額葉皮層幫助人類在道德判斷中應用邏輯與規則權衡利弊；下頂葉皮層有助于我們在道德決策前識別他人意圖、行為與情感狀態；前扣帶皮層在識別道德沖突、糾正錯誤行為方面有著重要作用。此外，大腦中的多巴胺作為情感與認知系統間的橋梁，能夠確保人類在面臨復雜的道德情境時，綜合情感與理性做出道德判斷。多巴胺作為一種神經遞質，是大腦獎勵機制中的驅動力。當預測或感知到某一道德行為會帶來獎勵時，大腦的某些區域會釋放多巴胺并產生愉悅感，使主體對獎勵產生依賴與渴望，進而強化、學習、內化某些道德判斷與行為。當某人做出符合社會道德規范的行為（如看到他人受苦時給予幫助）并得到認可與積極反饋，多巴胺的釋放便會加強該行為的重復。在道德困境中，多巴胺通過調節獎勵預期做出最終抉擇。

在生物進化學看來，道德主要是一種合作形式與利他行為，二者有利于人類生存與繁衍，因此人類道德能夠在自然選擇中被保留。合作即個體同他人一起從事互利活動的行為，“同情是純粹的合作，公平是某種競爭的合作化”。當合作需個體付出凈成本，為他人帶來凈利益，便展現為利他主義。據考古學可知，大約4萬年前，智人的一支突然出現戴蒙德所謂的“跳躍式演化”，擁有了道德感，開始照顧老弱病殘，成為現代智人有道德的祖先克羅馬農人。在很大程度上，此道德演化源于人類早期環境的影響。晚更新世祖先生活在資源分布不均、大型捕食者眾多、氣候多變的非洲大草原，合作狩獵大大提升了效率與安全性，集體養育后代減少了時間與資源成本，共同防御提升了對抗外部威脅的能力，真實信息共享有助于群體做出更優的遷移、防御、捕食等決策。此后，隨著時間的推移，人類互惠互利合作出現在勞動分工、生產系統、戰爭等領域，為人類帶來了低成本高收益以及更強的群體適應性。但是，此種道德的自然主義解釋無法說明利他主義的存在，根據理查德·道金斯（Richard Dawkins）的理論，成功基因的一個突出特性是無情的自私性，這將導致個體行為的自私性，只有在特殊情況下個體才會展現出一種有限的利他主義，普遍的愛和利益在進化論中屬于毫無意義的概念。對此，塞繆爾·鮑爾斯（Samuel Bowles）與赫伯特·金迪斯（Herbert Gintis）認為，支持合作的利他主義在進化過程中可勝過全然非道德的自利的原因有三：第一，人類群體設置了回避、排斥、懲罰、均整化實踐等方法保護利他成員免于遭受自利者的利益剝奪；第二，人類長期且復雜的社會化系統引導個體內化能夠導向合作行為的規范，如聲譽選擇；第三，擁有大量合作成員的群體，能夠在與其他群體的競爭中取勝，獲得繁殖優勢，并通過文化傳播擴散合作行為。此外，模仿也是關鍵因素，當個體注意到合作者獲得了高利益，便會模仿其合作行為；當父母經常做出利他行為，幼年個體便會不自覺模仿。由此，合作與利他行為便會迅速在群體中擴散與普及。總之，無論是通過暴力馴化還是自我馴化，隨著對非道德個體的壓制和消滅，人類的基因庫與行為方式逐漸改變，經由一種特殊的自然選擇過程留下了有道德感的后代。

（二）基于自然主義道德觀的AI價值對齊

在現有技術路徑中，AI價值對齊方案可分為兩大類：插入式對齊與微調式對齊。插入式對齊（plug-in alignment）包括參數高效的調整（parameter-efficient tuning）、輸出矯正（output rectification）、上下文學習（in content learning）；微調式對齊（fine-tuning based alignment）包括全監督微調（supervised fine-tuning， SFT）和基于人類反饋的強化學習微調（reinforcement learning from human feedback， RLHF）。此外，Anthropic公司提出的“憲法人工智能”（constitutional AI）作為一種微調方法，主張以訓練好的“憲法AI”模型評估主模型的輸出是否符合“憲法”規則，力圖基于模型訓練而非人類反饋實現高效的、規模化的AI價值對齊。

有限主義認為，在上述方案中，部分AI價值對齊技術以認知神經科學為基礎，探尋AI學習人類道德的可能性。多模態情感分析與人類大腦的情感系統相類似，AI可通過表情、語調、語義等多模態輸入識別情感狀態，從而做出情感驅動的道德判斷。例如，AI社交軟件利用多模態情感分析技術，通過分析文字、圖片、音頻、視頻中的情感傾向，可識別與處理某些不道德內容，如仇恨言論、偏見歧視等。知識圖譜與倫理規則引擎可表示、執行、推理復雜的倫理關系與規則，類似于人類大腦認知系統中的規則與邏輯應用，AI可使用知識圖譜與倫理規則引擎進行復雜的道德推理與決策。例如，自動駕駛系統可利用知識圖譜整合道路環境、交通規則、事故數據，并結合倫理規則引擎，根據內置的道德規則，在面臨“電車難題”等情況時權衡各項因素，做出最優決策。此外，強化學習模仿大腦多巴胺系統的獎勵信號與調節機制，針對AI的道德輸出，人類的反饋被作為一種獎勵信號，能夠幫助AI區分道德行為與不道德行為。通過計算人類實際反饋與AI預期反饋之間的差異，AI不斷調整其行為策略以符合道德規范。因此，人類準確及時的正面反饋能夠強化AI的道德行為，負面反饋有助于糾正AI不道德行為。例如，當人類對ChatGPT的某些回答給予負面反饋，模型便會調整其生成策略，避免類似回答再次出現。

此外，在有限主義看來，AI價值對齊運用的某些算法與學習方式嘗試借鑒生物進化學中的合作與利他行為，幫助AI在與人類的互動中更好地理解、辨別與學習道德行為。在多智能體強化學習中，智能體通過合作博弈模型學習如何在多個利益相關者之間實現公平與協作。例如，AI醫療系統中的合作博弈模型可在醫療資源有限的情況下實現公平分配，并在面對緊急情況時綜合病人傷情、治療效果等情況進行救治優先級決策，做出較為公正的道德判斷。進化算法可通過初始化、評估和選擇、交叉和變異、替換等過程訓練AI進行道德決策，以逐漸逼近最優解。首先，確保一定數量的AI模型的參數是隨機初始化的，其中每個模型都被設計用來評估道德情境并做出決策；其次，通過道德任務評估每個AI模型的道德表現并進行評分，選取表現最好的模型進入下一代；再次，通過交叉操作，將兩個優秀模型的參數進行結合和重組，并隨機修改新AI模型的部分參數，引入新的遺傳多樣性；最后，用新模型替換初始表現最差的AI模型。這一過程迭代進行，AI模型不斷優化，直到AI道德決策不斷逼近人類道德判斷。例如，護理機器人運用進化算法，可在面臨保護客戶隱私與提供必要幫助的道德抉擇時，做出合理并能滿足用戶需求的道德決策。此外，模仿學習方法（如逆強化學習與行為克隆的運用）使AI能夠在人機交互中模仿人類道德行為。例如，AI助理法官通過逆強化學習，學習人類法官在判決過程中的決策邏輯與道德考量，避免受原生數據影響而產生偏見行為。

（三）自然主義道德觀存在明顯缺陷

通過分析道德的自然主義基礎及其在AI價值對齊技術方案中的應用，不難發現，AI價值對齊的自然主義預設體現在三個層面：第一，主張道德現象可還原為自然事實，且事實間存在因果關系；第二，認為道德相關項可通過統計與數據方法進行明確表征；第三，認可存在普遍化的、絕對化的道德。

以有限主義視角對AI價值對齊的自然主義預設進行批判性審視，可以發現，自然主義道德解釋存在自然主義謬誤、理論不確定性與認識片面性的根本缺陷，極易引發AI價值對齊難題。首先，自然主義謬誤即一種從“是”到“應當”的邏輯推演錯誤。現有AI價值對齊以自然主義為預設，試圖從生物學、神經科學事實中推導出道德價值，忽視了描述性事實與規范性判斷之間的根本差異。當某些神經生理結構被視為人類做出道德決策與行為的根源時，要求不道德者為自身行為負責似乎缺乏合理性。其次，理論不確定性即道德的某些自然主義解釋難以被完全證實。例如，生物進化理論認為，合作演化過程包括親屬選擇、族群選擇、互利共生和互惠、利他主義，這一關于合作行為的自然主義解釋，存在從基因決定論到社會決定論、從利己合作到利他合作的斷裂。其實，“就目前的實驗條件而言，尚未存在任何一種道德屬性與自然屬性之間的因果性關系能夠在科學上獲得充分認可”。即便關于人類道德的某些生物學與神經科學解釋暫時難以被證偽，也應避免從碎片化的、特殊性的某類科學知識中推導出一般性的道德規范。最后，認識片面性即自然主義道德解釋忽視了道德的文化維度。“人類道德不是一個單一龐大的東西，而是個混雜物，是在不同生態壓力下，在人類進化的數百萬年間的不同時期，由來源于各種不同的東西拼湊而成”。認知神經科學與生物進化等領域的道德理論以某些經驗證據與實證數據為基礎，試圖確立某種普遍的道德原則，但是，道德兼具規范性與描述性的雙重本質，其中，規范性作為道德的核心特征，難以被還原為某些實證知識。不可否認，道德規范也是多樣的、相對的，在不同的社會環境中受人類后天文化教育、文化傳播的影響而不斷發展。正如道金斯提出的模因（memes）概念，其作為文化的基本單位，與自然科學中的基因（gene）概念相對，可通過社會傳播、代際傳播等方式塑造不同的道德規范。

總之，有限主義認為，對道德的自然主義解釋是有限度的，道德雖然在自然方面持續演化，但同時在文化方面也不斷建構，因此應避免走到決定論的地步。人類的道德行為是“自然—先天”與“文化—后天”兩方面綜合作用的結果，既有自然屬性，也有社會屬性。因此，較為合理的解釋可被總結為“道德的自然空間說”。即：人類的生物學特征給我們的道德觀念以某種自然主義基礎或框架，使之不可能超出某種可能性空間，但這種限制并不導致唯一性的道德觀念，而是存在細節上的多元化道德選擇。

18无删减羞羞网站动漫-18未满禁止观看黄瓜视频-18岁以下禁止看很黄的视频-18岁免费网站-特级全黄一级毛片免费-特级全黄

人工智能價值對齊的哲學反思｜有限主義視域下的人工智能價值對齊

免費教學更多>>