11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買(mǎi)1年送3個(gè)月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵?lái)騰訊云選購(gòu)吧!
事件12月10日,OpenAl正式上線(xiàn)Sora,并向包括美國(guó)在內(nèi)的多數(shù)國(guó)家用戶(hù)開(kāi)放,用戶(hù)可在OpenAI官網(wǎng)上體驗(yàn)Sora。Sora被包含在ChatGPTPlus和ChatGPTPro的會(huì)員訂閱方案中,用戶(hù)無(wú)需額外付費(fèi)。股市有風(fēng)險(xiǎn),投資需謹(jǐn)慎。
歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開(kāi)發(fā)者,助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、OpenAI正式上線(xiàn)Sora,ChatGPTPro用戶(hù)可無(wú)限生成、最長(zhǎng)20秒OpenAI在"ship-mas"系列活動(dòng)中發(fā)布了SoraTurbo視頻生成AI,支持生成20秒1080p視頻,用戶(hù)可通過(guò)文本、圖片或視頻進(jìn)行創(chuàng)作,具有多種風(fēng)格和剪輯功能。See3D已開(kāi)源,支持多種3D創(chuàng)作應(yīng)用。
歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開(kāi)發(fā)者,助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里云發(fā)布逆天大模型Qwen2.5-Turbo一口氣讀完十本小說(shuō),推理速度提升4.3倍!阿里云推出的Qwen2.5-Turbo大語(yǔ)言模型在上下文處理能力和推理速度上都取得了革命性的突破,令人期待其?
法國(guó)著名開(kāi)源大模型平臺(tái)Mistral.ai,開(kāi)源了超大多模態(tài)模型——PixtralLarge。PixtralLarge有1240億參數(shù),支持128K上下文,能理解文本、圖表、圖像等,也是Mistral.ai自家聊天助手leChat目前正在使用的視覺(jué)模型。LeChat提供了一個(gè)從模型到輸出的完全集成平臺(tái),用戶(hù)可以在一個(gè)平臺(tái)上完成所有的多模態(tài)任務(wù),無(wú)需在多個(gè)工具之間切換,簡(jiǎn)化了工作流程。
歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開(kāi)發(fā)者,助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里發(fā)布FLUX.1-Turbo-Alpha:基于FLUX.1-dev、8步提煉Lora阿里媽媽創(chuàng)意團(tuán)隊(duì)發(fā)布了基于FLUX.1-dev模型訓(xùn)練的FLUX.1-Turbo-Alpha,采用8步蒸餾Lora模型,多頭判別器顯著提高蒸餾質(zhì)量,支持多種FLU
【新智元導(dǎo)讀】近日,一向畫(huà)風(fēng)精致的「蘋(píng)果牌AI」,也推出了升級(jí)版的多模態(tài)大模型,從1B到30B參數(shù),涵蓋密集和專(zhuān)家混合模型,密集文本、多圖理解,多項(xiàng)能力大提升。多模態(tài)大語(yǔ)言模型如今已是大勢(shì)所趨。最后一欄表明,作者優(yōu)化的組合實(shí)現(xiàn)了最佳的整體性能,平衡了基準(zhǔn)測(cè)試中的所有功能。
在科技領(lǐng)域,多模態(tài)模型的決策能力一直是研究的熱點(diǎn)。UC伯克利等高校的研究團(tuán)隊(duì)提出了一種名為RL4VLM的全新強(qiáng)化學(xué)習(xí)框架,成功地提升了多模態(tài)大模型在決策任務(wù)上的表現(xiàn)。這項(xiàng)研究不僅為多模態(tài)模型的性能提升提供了新的思路,也為未來(lái)人工智能的發(fā)展開(kāi)辟了新的可能性。
只用強(qiáng)化學(xué)習(xí)來(lái)微調(diào),無(wú)需人類(lèi)反饋,就能讓多模態(tài)大模型學(xué)會(huì)做決策!這種方法得到的模型,已經(jīng)學(xué)會(huì)了看圖玩撲克、算“12點(diǎn)”等任務(wù),表現(xiàn)甚至超越了GPT-4v。這是來(lái)自UC伯克利等高校最新提出的微調(diào)方法,研究陣容也是相當(dāng)豪華:圖靈獎(jiǎng)三巨頭之一、Meta首席AI科學(xué)家、紐約大學(xué)教授LeCunUC伯克利大牛、ALOHA團(tuán)隊(duì)成員SergryLevineResNeXt一作、Sora基礎(chǔ)技術(shù)DiT作者謝賽寧香港大學(xué)數(shù)據(jù)科學(xué)學(xué)院院長(zhǎng)、UC伯克利教授馬毅該方法名為RL4VLM,論文預(yù)印本已經(jīng)上線(xiàn),相關(guān)代碼也已在GitHub中開(kāi)源。從提示詞上看,這項(xiàng)研究采取了如下的提示過(guò)程作為多模態(tài)模型的輸入,并且給出了期望的輸出形式:消融實(shí)驗(yàn)結(jié)果表明,如果這一過(guò)程中不采用思維鏈,則任務(wù)成功率會(huì)出現(xiàn)大幅下降。
社交不僅僅局限于文字的簡(jiǎn)單傳達(dá)包括視覺(jué)體驗(yàn)和聽(tīng)覺(jué)體驗(yàn)的全方位調(diào)動(dòng)。文字、圖片、視頻、音頻等多模態(tài)集合是線(xiàn)上社交的主流形式。在當(dāng)今AIGC技術(shù)的迅猛發(fā)展下,Soul社交形式的不斷迭代升級(jí),可以吸引更多用戶(hù)群體的目光,并成為用戶(hù)們交流互動(dòng)的首選平臺(tái)。
Meta最近發(fā)布了一個(gè)名為Chameleon的多模態(tài)模型,它在多模態(tài)模型發(fā)展中設(shè)立了新的標(biāo)桿。Chameleon是一個(gè)早期融合的基于token的混合模態(tài)模型家族,能夠理解并生成任意順序的圖像和文本。Chameleon模型的發(fā)布,展示了Meta在多模態(tài)模型領(lǐng)域的重大進(jìn)展,它不僅推動(dòng)了多模態(tài)模型的發(fā)展,也為未來(lái)的研究和應(yīng)用提供了新的可能性。