1月10日大模型日報合輯

【1月10日大模型日報合輯】揮舞起程式碼語料的魔杖,大模型和智能體將召喚出更強大的能量
Mixtral 8x7B論文終於來了:架構細節、參數量首次曝光
連結:https://news.miracleplus.com/share_link/15457
前段時間,那個爆火整個開源社群的 Mixtral 8x7B MoE 模型論文放出了。 先前,由於 OpenAI 團隊一直對 GPT-4 的參數量和訓練細節守口如瓶。 Mistral 8x7B 的放出,無疑給廣大開發者提供了一個「非常接近 GPT-4」的開源選項。 要知道,很早之前就有人爆料,OpenAI 也是採用了「混合專家模型」(Mixture of Experts,MoE)的架構來建造 GPT-4。 隨著論文的放出,一些研究細節也被發表出來。
利用解釋AI,發現可擴展鈣鈦礦太陽能電池製造的製程動力學
連結:https://news.miracleplus.com/share_link/15458
鈣鈦礦半導體薄膜的大面積加工非常複雜,並且會造成無法解釋的品質差異,成為鈣鈦礦光電發電商業化的主要障礙。 可擴展製造製程的進步目前僅限於漸進和任意的試誤過程。 雖然光致發光影片的原位採集有可能揭示薄膜形成過程中的重要變化,但數據的高維度很快就超出了人類分析的極限。 德國癌症研究中心(German Cancer Research Center)互動式機器學習小組(Interactive Machine Learning Group)、亥姆霍茲成像小組(Helmholtz Imaging)以及德國卡爾斯魯厄理工學院照明技術研究所(Light Technology Institute, Karlsruhe Institute of Technology)的研究人員組成跨學科研究團隊,利用深度學習和可解釋的人工智慧(XAI)來發現鈣鈦礦薄膜形成過程中獲得的感測器資訊與由此產生的太陽能電池性能指標之間的 關係,同時使這些關係變得易於理解。 研究人員進一步展示如何將所獲得的見解提煉成鈣鈦礦薄膜加工的可行建議,從而推進工業規模的太陽能電池製造。
揮舞起程式碼語料的魔杖,大模型和智能體將召喚出更強大的能量
連結:https://news.miracleplus.com/share_link/15459
正如瑞斯福茲魔杖締造了諸如鄧不利多在內的歷代非凡魔法師的傳奇,具有巨大潛能的傳統大型語言模型,在經過代碼語料的預訓練/ 精調後,掌握了更超出本源的執行 力。 具體來說,進階版的大模型在編寫程式碼、更強推理、自主援引執行介面、自主完善等方面都獲得了提升,這將為它作為 AI 智能體、執行下游任務時方方面面帶來增益。 近日,伊利諾大學厄巴納 – 香檳分校(UIUC)的研究團隊發布了一項重要綜述。 這篇綜述探討了程式碼(Code)如何賦予大型語言模型(LLMs)及其基於此的智能體(Intelligent Agents)強大的能力。
比A100性價比更高! FlightLLM讓大模型推理不再同時為效能和成本煩惱
連結:https://news.miracleplus.com/share_link/15460
大語言模型在端側的規模化應用對運算效能、能效比需求的「提拽式」牽引,在演算法與晶片之間,撕開了一道充分的推理競爭場。 面對想像中的終端場景,基於 GPU 和 FPGA 的推理方案的應用潛力需要被重新檢視。 近日,無問芯穹、清華大學和上海交通大學聯合提出了一個面向 FPGA 的大模型輕量化部署流程,首次在單塊 Xilinx U280 FPGA 上實現了 LLaMA2-7B 的高效推理。 第一作者為清華大學電子系博士及無問芯穹硬體負責人曾書霖,通訊作者為上海交通大學副教授、無問芯穹聯合創始人兼首席科學家戴國浩,清華大學電子工程系教授、系主任及 無問芯穹發起人汪玉。 相關工作現已被可重構計算領域頂級會議 FPGA’24 接收。