已確認(rèn)：ChatGPT 已修復(fù)導(dǎo)致禁止回復(fù)的最大安全漏洞

892 閱讀 0 評(píng)論 0 點(diǎn)贊

記得關(guān)注·飛咕咕出?！?/p>

幾天前，OpenAI試圖通過(guò)發(fā)布其新模型（稱為GPT-4o mini）來(lái)?yè)屨妓蓄^條新聞，該模型將進(jìn)一步增強(qiáng)其人工智能的功能，甚至免費(fèi)用戶也可以使用。但直到現(xiàn)在，我們才通過(guò)更好的審查發(fā)現(xiàn)了此更新的真正范圍，修復(fù)了平臺(tái)中的嚴(yán)重缺陷。

盡管我們宣布了這一消息，并廣泛解釋了這一變化包括哪些內(nèi)容，但事實(shí)是，由于遭受了全球性故障，這一消息完全被掩蓋并被置于背景中。微軟與 CrowdStrike 合作，連續(xù)幾天讓世界天翻地覆。

這也許是OpenAI發(fā)布新模型時(shí)沒(méi)有發(fā)現(xiàn)一個(gè)小但重要的細(xì)節(jié)的主要原因：實(shí)施的改變不僅使平臺(tái)更智能、更輕量，還修復(fù)了一個(gè)關(guān)鍵的 AI 錯(cuò)誤。

語(yǔ)言模型的開(kāi)發(fā)競(jìng)相日趨復(fù)雜，這也引發(fā)了人們對(duì)這些平臺(tái)安全性的擔(dān)憂，因?yàn)檫@些模型可能被操縱，從而產(chǎn)生不適當(dāng)、有害或惡意的反應(yīng)。

幾個(gè)月來(lái)，那些知道如何在正確的地方尋找漏洞的人能夠利用安全漏洞或漏洞，這使得 ChatGPT 能夠通過(guò)一系列提示來(lái)解鎖一些安全鎖。但現(xiàn)在這已經(jīng)成為過(guò)去了。

ChatGPT 不再被愚弄：GPT-4o 微型指令層次結(jié)構(gòu)的工作方式如下

據(jù)The Verge友商報(bào)道，OpenAI 又向前邁進(jìn)了一步，推出了最新模型 GPT-4o Mini，采用了一種名為“指令層次結(jié)構(gòu)”的新穎安全技術(shù)，旨在保護(hù)語(yǔ)言模型免受這些通過(guò)網(wǎng)絡(luò)上流傳的提示進(jìn)行“欺騙”的企圖。

廣義上講，指令層次結(jié)構(gòu)包括建立一種命令階梯，賦予開(kāi)發(fā)人員的原始指令更高的優(yōu)先級(jí)，并淡化后續(xù)用戶試圖修改模型行為的請(qǐng)求。

GPT-4o Mini這款新模型代表著人工智能朝著民主化邁出了重要一步，提供了一種更經(jīng)濟(jì)、更強(qiáng)大的模型，使開(kāi)發(fā)人員能夠進(jìn)行創(chuàng)新，而不受以前模型所施加的財(cái)務(wù)限制。（OpenAI）

這樣，如果用戶試圖“欺騙”聊天機(jī)器人忽略其初始指令并執(zhí)行完全不同的任務(wù)，指令層次結(jié)構(gòu)將阻止這種情況發(fā)生并阻止操縱提示。

“基本上，我們教模型始終優(yōu)先考慮開(kāi)發(fā)人員的指示，”他解釋道。OpenAI的 API 平臺(tái)產(chǎn)品經(jīng)理Olivier Godement。“這樣，我們就可以防止用戶操縱模型產(chǎn)生非預(yù)期的響應(yīng)。”

因此，指令層次結(jié)構(gòu)代表了 OpenAI 語(yǔ)言模型在安全領(lǐng)域的重大進(jìn)步。然而，需要注意的是，這種技術(shù)并不是一個(gè)明確的解決方案，找到繞過(guò)阻止過(guò)濾器的方法可能只是時(shí)間問(wèn)題。

ChatGPT 變得越來(lái)越智能，但 OpenAI 仍受到嚴(yán)厲批評(píng)

隨著新 GPT-4o 迷你模型的集成，ChatGPT 掩蓋了一個(gè)導(dǎo)致其安全過(guò)濾器被突破的漏洞。圖片來(lái)源：Fast Company。

近幾個(gè)月來(lái)，OpenAI 因?qū)Ｗ⒂诋a(chǎn)品開(kāi)發(fā)而犧牲了人工智能本身的安全而受到批評(píng)。負(fù)責(zé)將語(yǔ)言模型與人類利益相結(jié)合的團(tuán)隊(duì)解散，以及員工和前員工發(fā)表公開(kāi)信要求提高安全保障，凸顯了解決這些問(wèn)題的迫切需要。

隨著 GPT-4o mini 的推出和指令層次結(jié)構(gòu)的實(shí)施，該公司似乎正在展示對(duì)其模型安全性的承諾。

然而，為確保這些系統(tǒng)得到負(fù)責(zé)任且合乎道德的使用，仍有許多工作要做。

微博：飛咕咕出海

微信號(hào)：dgsuuu

掃描二維碼，關(guān)注更多咨詢

點(diǎn)個(gè)【在看】，你最好看

文章為作者獨(dú)立觀點(diǎn)，不代表DLZ123立場(chǎng)。如有侵權(quán),請(qǐng)聯(lián)系我們。( 版權(quán)為作者所有，如需轉(zhuǎn)載，請(qǐng)聯(lián)系作者 )

網(wǎng)站運(yùn)營(yíng)至今，離不開(kāi)小伙伴們的支持。為了給小伙伴們提供一個(gè)互相交流的平臺(tái)和資源的對(duì)接，特地開(kāi)通了獨(dú)立站交流群。群里有不少運(yùn)營(yíng)大神，不時(shí)會(huì)分享一些運(yùn)營(yíng)技巧，更有一些資源收藏愛(ài)好者不時(shí)分享一些優(yōu)質(zhì)的學(xué)習(xí)資料。

現(xiàn)在可以掃碼進(jìn)群，備注【加群】。 ( 群完全免費(fèi)，不廣告不賣(mài)課！)

點(diǎn)贊(0) 打賞