国产一区高清|日韩精品一区人妻|曰夲AV一区二区|美日韩一区二区三区|国产喷水在线观看|狼友网站成人大全|欧美日韩制服中文视频在线|久草加勒比手机在线|婷婷色综合无码专区|japanese 精品视频在线观看

DoNews > 公司新聞 > OpenAI推出“深思熟慮的對齊”技術(shù)，顯著提升AI模型安全性

OpenAI推出“深思熟慮的對齊”技術(shù)，顯著提升AI模型安全性

2024-12-25 14:42:45

OpenAI的研究團隊近日提出了一種名為“深思熟慮的對齊”（Deliberative Alignment）的新方法，旨在解決大語言模型（LLMs）在遵守道德和安全準則方面的挑戰(zhàn)?，F(xiàn)有的對齊技術(shù)，如監(jiān)督微調(diào)（SFT）和來自人類反饋的強化學(xué)習(xí)（RLHF），雖然有效，但存在被操縱的風(fēng)險，可能導(dǎo)致生成有害內(nèi)容或拒絕合法請求。

“深思熟慮的對齊”方法通過直接教授模型安全規(guī)范，并訓(xùn)練它們在生成響應(yīng)之前推理這些準則，將安全原則融入推理過程中。該方法分為兩個階段：第一階段，監(jiān)督微調(diào)訓(xùn)練模型參考并推理安全規(guī)范；第二階段，強化學(xué)習(xí)使用獎勵模型，根據(jù)安全基準評估性能，進一步完善模型的推理。

與依賴人工標注數(shù)據(jù)的方法不同，“深思熟慮的對齊”使用模型生成的數(shù)據(jù)和思維鏈（CoT）推理，降低了安全訓(xùn)練的資源需求。OpenAI的o1模型已部署該技術(shù)，在抵抗越獄提示方面表現(xiàn)出色，在StrongREJECT基準測試中得分為0.88，顯著高于GPT-4o的0.37。此外，該技術(shù)還可以減少誤拒，在XSTest數(shù)據(jù)集的良性提示中，o1模型的準確率高達93%。

“深思熟慮的對齊”通過訓(xùn)練模型明確推理安全策略，為復(fù)雜的倫理挑戰(zhàn)提供了可擴展且可解釋的解決方案。