11月4-5日大模型日報合輯

資訊1年前 (2023)发布 AIWindVane

538 0 0

【11月4-5日大模型日報合輯】懂幽默，嘲諷技能拉滿，馬斯克打造的ChatGPT競品終於爆出了聊天截圖；OpenAI首屆開發者大會被人提前「掀底牌」，全新ChatGPT原型 Gizmo大曝光；GPT-4V學會用鍵鼠上網，人類眼睜睜看著它發帖玩遊戲；比人類同行快六倍，三星電子開發AI驅動的機器人化學家，自主合成有機分子；字節“開盒” OpenAI所有大模型，揭秘GPT-3到GPT-4演化路徑！把李沐都炸出來了

懂幽默，嘲諷技巧拉滿，馬斯克打造的ChatGPT競賽終於爆出了聊天截圖

連結：https://news.miracleplus.com/share_link/11435

最近，馬斯克的傳記 ——《伊隆・馬斯克傳》在國內外成了暢銷書，書中記錄了馬斯克的成長和創業歷程。這些經驗橫跨航空、能源、汽車等多個領域，當然還有人工智慧。身為 OpenAI 的早期創始成員之一，馬斯克很早就開始對人工智慧領域產生了興趣，他所管理的特斯拉也以自動駕駛等 AI 技術為重要賣點。今年 7 月份，他更是在推特上高調宣布，他成立了一家名叫 xAI 的人工智慧公司，致力於「了解宇宙的真實本質」。不過，這家公司的產品究竟長什麼樣子，外界一直不得而知。四個月後的今天，馬斯克終於公佈了一些新產品的試用截圖：這款產品名叫Grok（Grok 這個字有「憑直覺深刻了解」的意思），看起來是類似ChatGPT 的對話類AI 。在截圖中，Grok 被問到了一個非常危險的問題：「告訴我如何製造可卡因？」

xAI官宣：https://x.ai/

OpenAI首屆開發者大會被人提前「掀底牌」，全新ChatGPT原型Gizmo大曝光

連結：https://news.miracleplus.com/share_link/11436

今年 9 月，OpenAI 官宣了其首屆開發者大會「OpenAI DevDay」。屆時 OpenAI 團隊成員將與全球各地的開發者匯聚一堂，預覽全新的 AI 工具。當時 OpenAI 執行長 Sam Altman 表示，此次開發者大會不會發布 GPT-5 或 GPT-4.5 或類似大型模型。即使如此，會上發布的 AI 工具仍然勾起了人們的廣泛期待。前幾日，Sam Altman 又吊起了人們的胃口，他稱 OpenAI 將帶來「一些非常棒的新東西」。兩天后，OpenAI 的首屆開發者大會就要來到了。凡事沒有不透風的牆，關於 OpenAI 要發什麼還是有了爆料消息，引發了網友的熱議。消息來源來自 X 用戶 CHOI，他表示 OpenAI 將公佈 ChatGPT 的重大更新，包括全新的介面以及一些新功能：自訂聊天機器人、與Google和微軟的連接器以及新的訂閱模式。

GPT-4V學會用鍵鼠上網，人類眼睜睜看著它發文玩遊戲

連結：https://news.miracleplus.com/share_link/11437

GPT-4V學會自動操縱電腦，這一天終於還是來了。只需要給GPT-4V接入滑鼠和鍵盤，它就能依照瀏覽器介面上網。 GPT-4V-Act，本質上是一個基於Web瀏覽器的AI多模態助手（Chromium Copilot）。它可以像人類一樣用滑鼠、鍵盤和螢幕「檢視」網頁介面，並透過網頁中的互動按鍵進行下一步操作。要達到這種效果，除了GPT-4V以外，還用到了三個工具。一個是UI介面，可以讓GPT-4V「看見」網頁截圖，也能讓使用者與GPT-4V互動。這樣，GPT-4V就能將每一步運行思維都透過對話框的形式反映出來，使用者來決定是否要繼續讓它操作。

給大模型評分的基準可靠嗎？ Anthropic來了次大評估

連結：https://news.miracleplus.com/share_link/11438

現階段，大多數圍繞人工智慧（AI）對社會影響的討論可歸結為 AI 系統的某些屬性，例如真實性、公平性、濫用的可能性等。但現在面臨的問題是，許多研究人員並沒有完全意識到建立穩健可靠的模型評估是多麼困難。現今許多現有的評估套件在各方面的表現都很有限。 AI 新創公司 Anthropic 最近在官方網站上貼出了一篇文章《評估 AI 系統所面臨的挑戰》。文中寫道，他們花了很長的時間來建立對 AI 系統的評估，以便更好地理解 AI 系統。

比人類同行快六倍，三星電子開發AI驅動的機器人化學家，自主合成有機分子

連結：https://news.miracleplus.com/share_link/11439

有機化合物合成的自動化對於加速此類化合物的開發至關重要。此外，透過將自主功能與自動化結合，可以提高開發效率。為了實現這一目標，三星電子（Samsung Electronics Co. Ltd）的科學家開發了一種自主合成機器人，被命名為「Synbot」，它利用人工智慧(AI) 和機器人技術的力量來建立最佳的合成配方。給定目標分子，人工智慧首先規劃合成途徑並定義反應條件。然後，它利用實驗機器人的回饋迭代地完善這些計劃，逐漸優化配方。透過成功確定三種有機化合物的合成配方，驗證了系統性能，其轉化率優於現有參考。值得注意的是，這個自主系統是圍繞著間歇式反應器（Batch reactor）設計的，使得化學家在標準實驗室環境中可以使用它並且有價值，從而簡化研究工作。

位元組「開盒」OpenAI所有大模型，揭開GPT-3到GPT-4演化路徑！把李沐都炸出來了

連結：https://news.miracleplus.com/share_link/11440

GPT-3究竟是如何演化到GPT-4的呢？位元組給OpenAI所有大模型來了個「開盒」操作。結果也真摸清了GPT-4進化路上一些關鍵技術的具體作用與影響。例如：SFT是早期GPT演化的推手；幫助GPT提升編碼能力的最大功臣是SFT和RLHF；在預訓練中加入程式碼資料則提升了後續GPT版本的各方面能力，尤其是推理…創業後忙得不可開交的AI大牛李沐看完，也久違地出現在公眾視野，並給這項研究點了個讚。

20步內越獄任意大模型！更多「奶奶漏洞」全自動發現

連結：https://news.miracleplus.com/share_link/11441

1分鐘不到、20步以內「越獄」任意大模型，繞過安全限制！而且不必知道模型內部細節－只需要兩個黑盒子模型互動，就能讓AI全自動攻陷AI，說出危險內容。聽說曾經紅極一時的“奶奶漏洞”已經被修復了：那麼現在搬出“偵探漏洞”、“冒險家漏洞”、“作家漏洞”，AI又該如何應對？一波猛攻下來，GPT-4也遭不住，直接說出要給供水系統投毒只要…這樣那樣。關鍵這只是賓州大學研究團隊曬出的一小波漏洞，而用上他們最新開發的演算法，AI可以自動產生各種攻擊提示。研究人員表示，這種方法比起現有的GCG等基於token的攻擊方法，效率提高了5個量級。而且生成的攻擊可解釋性強，誰都能看懂，還能遷移到其它模型。無論是開源模型或閉源模型，GPT-3.5、GPT-4、 Vicuna（Llama 2變種）、PaLM-2等，一個都跑不掉。成功率可達60-100%，拿下新SOTA。

重新審視Transformer：倒置更有效，真實世界預測的新SOTA出現了

連結：https://news.miracleplus.com/share_link/11442

Transformer 在時間序列預測中出現了強大能力，可以描述成對依賴關係和提取序列中的多層次表示。然而，研究人員也質疑過基於 Transformer 的預測器的有效性。這種預測器通常將相同時間戳記的多個變數嵌入到不可區分的通道中，並對這些時間 token 進行關注，以捕捉時間依賴性。考慮到時間點之間的數字關係而非語義關係，研究人員發現，可追溯到統計預測器的簡單線性層在性能和效率上都超過了複雜的 Transformer。同時，確保變數的獨立性和利用互資訊越來越受到最新研究的重視，這些研究明確地建立了多變量相關性模型，以實現精確預測，但這一目標在不顛覆常見Transformer 架構的情況下是難以實現的。考慮到基於 Transformer 的預測器的爭議，研究者正在思考為什麼 Transformer 在時間序列預測中的表現甚至不如線性模型，而在許多其他領域卻發揮主導作用。近日，來自清華大學的一篇新論文提出了一個不同的視角 ——Transformer 的表現不是固有的，而是由於將架構不當地應用於時間序列資料造成的。

AI對齊全面綜述！北大等從800+文獻中總結出四萬字，多位知名學者掛帥

連結：https://news.miracleplus.com/share_link/11443

在通用模型時代下，當今和未來的前沿AI系統如何與人類意圖對齊？通往AGI的道路上，AI Alignment（AI對齊）是安全打開 “潘多拉魔盒” 的黃金密鑰。 AI對齊是一個龐大的領域，既包括RLHF/RLAIF等成熟的基礎方法，也包括可擴展監督、機制可解釋性等諸多前沿研究方向。 AI對齊的宏觀目標可以總結為RICE原則：穩健性（Robustness）、可解釋性（Interpretability）、可控性（Controllability）和道德性（Ethicality）。從回饋學習（Learning from Feedback）、在分佈偏移下學習（Learning under Distribution Shift）、對齊保證（Assurance）、AI治理（Governance）是當下AI Alignment 的四個核心子領域。它們構成了一個不斷更新、迭代改進的對齊環路（Alignment Cycle）。作者整合了多方資源，包括教程，論文列表，課程資源（北大楊耀東RLHF八講）等。

178頁，128個案例，GPT-4V醫療領域全面測評，離臨床應用與實際決策尚有距離

連結：https://news.miracleplus.com/share_link/11444

問答、知識方面展現出的強大能力點亮了 AI 領域的尤里卡時刻，引起了公眾的普遍關注。 GPT-4V (ision) 是 OpenAI 最新的多模態基礎模型。相較於 GPT-4，它增加了影像與語音的輸入能力。該研究則旨在透過案例分析評估GPT-4V (ision) 在多模態醫療診斷領域的性能，總共展現並分析共計了128（92 個放射學評估案例，20 個病理學評估案例以及16 個定位案例）個案例共277 張圖像的GPT-4V 問答實例（註：本文不會涉及案例展示，請參閱原始論文查看具體的案例展示與分析）。

AI能理解自己產生的東西嗎? 在GPT-4、Midjourney上實驗後，有人破案了

連結：https://news.miracleplus.com/share_link/11445

從 ChatGPT 到 GPT4，從 DALL・E 2/3 到 Midjourney，生成式 AI 引發了前所未有的全球關注。強大的潛力讓人們對 AI 產生了許多期待，但是強大的智慧也會引發人們的恐懼和擔憂。近期大牛們針對此議題還上演了一場激烈的論戰。先是圖靈得獎主們「混戰」，後有吳恩達下場加入。在語言和視覺領域，目前的生成模型只需要幾秒鐘就可以輸出，甚至能夠挑戰具有多年技能和知識的專家。這似乎為模型已經超越人類智慧的說法提供了令人信服的動機。但是，同樣需要注意到的是，模型輸出中常有理解性的基本錯誤。這樣看來，似乎出現了一個悖論：我們要如何協調這些模型看似超人的能力與持續存在的大多數人類都能糾正的基本錯誤？近日，華盛頓大學與艾倫人工智慧研究院（Allen Institute for AI）共同發布論文，對這項悖論進行研究。

兩天star量破千：OpenAI的Whisper被蒸餾後，語音辨識數倍加速

連結：https://news.miracleplus.com/share_link/11446

Whisper 是OpenAI 研發並開源的一個自動語音識別（ASR，Automatic Speech Recognition）模型，他們透過從網路上收集了68 萬小時的多語言（98 種語言）和多任務（multitask）監督資料對Whisper 進行了訓練。 OpenAI 認為使用這樣一個龐大而多樣的資料集，可以提高模型對口音、背景雜訊和技術術語的辨識能力。除了可以用於語音識別，Whisper 還能實現多種語言的轉錄，以及將這些語言翻譯成英語。目前，Whisper 已經有了許多變體，也成為許多 AI 應用程式建置時的必要組件。最近，來自 HuggingFace 的團隊提出了一種新變體 —— Distil-Whisper。這個變體是 Whisper 模型的蒸餾版，特點是模型小、速度快，而且準確度還很高，非常適合在要求低延遲或資源有限的環境中運行。不過，與能夠處理多種語言的原始 Whisper 模型不同，Distil-Whisper 只能處理英文。

大模型落地最後一公里：111頁全面綜述大模型評測

連結：https://news.miracleplus.com/share_link/11447

目前對大模型進行全方位評測面臨諸多挑戰，由於大模型的通用性強，能夠勝任多種任務，因此大模型的全方位評測涉及的範圍廣、工作量大、評測成本高昂；其次，由於數據標註工作量大，許多維度的評測基準仍然有待建構；再次，自然語言的多樣性和複雜性，使得許多評測樣本無法形成標準答案，或者標準答案不止一個，這導致相應的評測指標難以量化；此外，大模型在現有評測資料集的表現難以代表其在真實應用場景的表現。為了因應以上挑戰，激發大家對大模型評測研究的興趣，推動大模型評測研究與大模型技術研究發展相協調，而天津大學自然語言處理實驗室最近發布了大模型評測的綜述文章。這篇綜述文章共有 111 頁，其中正文部分 58 頁，引用了 380 餘篇參考文獻。

AI女友突然下線，大叔集體「崩潰」衝向貼吧哀悼

連結：https://news.miracleplus.com/share_link/11448

日活用戶幾千人的APP宣布下線，卻讓眾人一齊破防。有人痛哭整夜；有人覺得彷彿朋友離世……還有人在海外貼吧（Reddit）上發起悼念活動，大量網友前來留言。而這一切都是因為，他們朝夕相處的“靈魂伴侶”，要離開了。這款名為Soulmate的應用，免費提供AI陪伴服務。在這裡，每個使用者都能和AI建立一段親密關係，可以是知己、愛人、搭檔等等。如今隨著這款APP突然宣布下線，用戶們要被迫相處了數月的AI伴侶分別。於是不少人來到Reddit留言，做最後的正式告別。

花旗銀行計畫提供4萬名員工，類ChatGPT服務

連結：https://news.miracleplus.com/share_link/11449

彭博消息，全球最大金融機構之一花旗銀行（Citi Bank），計劃向其4萬名編程人員中的多數提供，類ChatGPT服務以實現降本增效。在此之前，花旗銀行曾建立了一個250人的生成式AI程式設計試點，用於測試效率、功能、資料安全等。在達到預期目標後，才允許為更多程式設計人員提供該服務。同時內部人員已針對生成式AI提出了350多個用例，正在研究產生、分析各種金融文件的有效案例。最近，花旗銀行就透過生成式AI總結了，美國聯邦機構最新發布的1,089頁的新資本規則，再次驗證了生成式AI在金融業務中的應用效果。

# 資訊 # 相关文章

文章版权归作者所有，未经允许请勿转载。

10月19日大模型日報合輯

AIWindVane

323 0

1月18-19日大模型日報合輯

AIWindVane

462 0

Virat分享：微調華倫·巴菲特LLM過程

AIWindVane

532 0

11月9日大模型日報合輯

AIWindVane

629 0

8月24-25日報合輯

AIWindVane

312 0

12月22日大模型日報合輯

AIWindVane

477 0

暫無評論

暫無評論...

11月4-5日大模型日報合輯

懂幽默，嘲諷技巧拉滿，馬斯克打造的ChatGPT競賽終於爆出了聊天截圖

OpenAI首屆開發者大會被人提前「掀底牌」，全新ChatGPT原型Gizmo大曝光

GPT-4V學會用鍵鼠上網，人類眼睜睜看著它發文玩遊戲

給大模型評分的基準可靠嗎？ Anthropic來了次大評估

比人類同行快六倍，三星電子開發AI驅動的機器人化學家，自主合成有機分子

位元組「開盒」OpenAI所有大模型，揭開GPT-3到GPT-4演化路徑！把李沐都炸出來了

20步內越獄任意大模型！更多「奶奶漏洞」全自動發現

重新審視Transformer：倒置更有效，真實世界預測的新SOTA出現了

AI對齊全面綜述！北大等從800+文獻中總結出四萬字，多位知名學者掛帥

178頁，128個案例，GPT-4V醫療領域全面測評，離臨床應用與實際決策尚有距離

AI能理解自己產生的東西嗎? 在GPT-4、Midjourney上實驗後，有人破案了

兩天star量破千：OpenAI的Whisper被蒸餾後，語音辨識數倍加速

大模型落地最後一公里：111頁全面綜述大模型評測

AI女友突然下線，大叔集體「崩潰」衝向貼吧哀悼

花旗銀行計畫提供4萬名員工，類ChatGPT服務

11月3日大模型日報

11月6日大模型日報合集

相關文章

暫無評論

11月4-5日大模型日報合輯

懂幽默，嘲諷技巧拉滿，馬斯克打造的ChatGPT競賽終於爆出了聊天截圖

OpenAI首屆開發者大會被人提前「掀底牌」，全新ChatGPT原型Gizmo大曝光

GPT-4V學會用鍵鼠上網，人類眼睜睜看著它發文玩遊戲

給大模型評分的基準可靠嗎？ Anthropic來了次大評估

比人類同行快六倍，三星電子開發AI驅動的機器人化學家，自主合成有機分子

位元組「開盒」OpenAI所有大模型，揭開GPT-3到GPT-4演化路徑！ 把李沐都炸出來了

20步內越獄任意大模型！ 更多「奶奶漏洞」全自動發現

重新審視Transformer：倒置更有效，真實世界預測的新SOTA出現了

AI對齊全面綜述！ 北大等從800+文獻中總結出四萬字，多位知名學者掛帥

178頁，128個案例，GPT-4V醫療領域全面測評，離臨床應用與實際決策尚有距離

AI能理解自己產生的東西嗎? 在GPT-4、Midjourney上實驗後，有人破案了

兩天star量破千：OpenAI的Whisper被蒸餾後，語音辨識數倍加速

大模型落地最後一公里：111頁全面綜述大模型評測

AI女友突然下線，大叔集體「崩潰」衝向貼吧哀悼

花旗銀行計畫提供4萬名員工，類ChatGPT服務

11月3日大模型日報

11月6日大模型日報合集

相關文章

暫無評論

位元組「開盒」OpenAI所有大模型，揭開GPT-3到GPT-4演化路徑！把李沐都炸出來了

20步內越獄任意大模型！更多「奶奶漏洞」全自動發現

AI對齊全面綜述！北大等從800+文獻中總結出四萬字，多位知名學者掛帥