要聞

“動動嘴就能P圖”，ChatGPT文生圖功能太火爆，奧爾特曼：GPU“冒煙了”！什么情況？

每日經濟新聞 2025-03-28 11:47:43

當地時間3月25日，美國OpenAI正式推出GPT-4o圖像生成功能，該功能因“動動嘴就能P圖”的便利性迅速走紅，但也因圖像生成需求過高導致GPU過載。OpenAI首席執行官薩姆·奧爾特曼表示將對ChatGPT的圖像生成功能實施臨時限速，優先保障文本生成等核心功能穩定運行。

每經編輯杜宇

隨著OpenAI的圖像生成功能完成重大升級，新的問題出現了。

OpenAI首席執行官薩姆?奧爾特曼（Sam Altman）表示：ChatGPT的文生圖應用需求過高，我們的GPU“冒煙了”（melting，原為融化之意），在努力提高效率的同時，將暫時對ChatGPT生成圖片的功能引入一些速率限制。

圖片來源：社交平臺

這意味著，OpenAI將對ChatGPT的圖像生成功能實施臨時限速，降低單位時間內的請求處理量，緩解GPU過載壓力，并優先保障文本生成、對話等核心功能的穩定性，或許將暫時放緩圖像生成的技術優化節奏。

據OpenAI官網，當地時間3月25日，美國開放人工智能研究中心（OpenAI）宣布正式推出GPT-4o圖像生成功能。

圖片來源：OpenAI官網

該功能上線后，以“動動嘴就能P圖”的便利迅速火爆，互聯網平臺上涌入大量由個人照片、知名梗圖轉變而來的“吉卜力”卡通風格圖片。

“動動嘴就能P圖”是指通過簡單的文字描述或語音指令，利用AI技術直接對圖片進行編輯、修改或生成，而無需手動使用復雜的圖像編輯工具，如Photoshop等。這種功能的核心在于將自然語言處理與圖像生成技術相結合，極大地降低了圖片編輯的門檻。

GPT-4o是一個多模態AI模型，能夠接受文本、音頻和圖像的組合輸入，并生成相應的圖像輸出。這意味著用戶可以通過語音指令來要求AI生成或修改圖像，而不僅僅局限于文字描述。

連Altman也感嘆起該功能帶來的潑天流量：“自己過去十年埋頭苦干做AI，試圖幫助實現超級智能來治愈癌癥之類的事情。前7.5年幾乎無人問津，接下來的兩年半，做什么都會引來所有人的厭惡。然后某天醒來收到幾百條消息，人們告訴你被畫成了吉卜力風格的美少年。”

Sam Altman在社交平臺上的新頭像，生成自Images in ChatGPT

據OpenAI介紹，GPT-4o圖像生成功能具備四大核心優勢：精準文本渲染、嚴格指令遵循、深度知識調用及創意拓展能力。

據揚子晚報·紫牛新聞，為驗證其實際表現，記者進行了多組實測。在測試“生成一張帶有‘揚子晚報/紫牛新聞’字樣的照片”時，GPT-4o精準還原了英文部分內容，但對于中文字符的識別能力有待提升。整個過程耗時約30秒，生成速度遠超預期。

圖片來源：揚子晚報·紫牛新聞

在另一項測試中，通過多輪對話優化圖像。首先要求生成“一只老虎，戴著黑色墨鏡”，GPT-4o迅速呈現了細節豐富的畫面。老虎的毛發紋理清晰可見，透過墨鏡能看到老虎的眼睛細節。隨后，記者進一步輸入指令“給這個老虎戴上偵探帽，并生成游戲場景”，新生成的圖像不僅完美實現了場景變化，還保持了主體特征的一致性，展現了強大的上下文連貫性。

圖片來源：揚子晚報·紫牛新聞

針對復雜場景的處理能力，以“設計一個包含12個不同物體的4x3網格圖，每個物體需準確呈現指定特征”進行測試。GPT-4o成功應對了這一挑戰，從藍色星星、紅色三角形到彩虹閃電，細節精準度令人驚嘆。但可能是對中文理解能力不足，生成圖案中存在指令缺失的情況。

在實用性測試中，記者嘗試生成專業場景圖像。例如，要求“制作一份傳統中式風格的餐廳菜單，包含毛血旺和酸菜魚的菜品描述”。GPT-4o生成的菜單不僅文字排版優雅，插畫風格與菜品完美契合，整體視覺效果令人滿意。此外，生成科學示意圖的能力同樣出色。記者輸入指令“繪制牛頓棱鏡實驗的示意圖”，模型迅速輸出了結構清晰的教學圖像。

盡管存在這些不足，GPT-4o 圖像生成功能的革新性依然顯著。其精準的文本渲染能力、對復雜指令的高遵循度，以及多輪對話中的一致性表現，為創意設計、教育教學、游戲開發等領域提供了強大工具。正如OpenAI首席執行官薩姆?奧爾特曼（Sam Altman）所言，這一功能的推出標志著 “創作自由的新高點”，用戶將借此釋放更多視覺創意潛能。

作為AI領域的頭部玩家，OpenAI背后的GPU儲備自然是業內頂尖水準。根據技術咨詢公司Omdia的分析，微軟作為OpenAI的主要投資者，在2024年購買了約48.5萬塊英偉達的Hopper芯片，是其主要競爭對手Meta的兩倍，這使其成為英偉達GPU的最大買家。OpenAI的大模型正是用微軟的Azure云基礎設施進行訓練。

可以說，OpenAI因新功能面臨的問題，折射了AI多模態技術發展中的資源與需求平衡難題，一方面，AI應用對GPU等算力資源的需求依然龐大，另一方面，行業繼續呼喚技術迭代，以求高效利用現有資源。

圖片來源：視覺中國

據北京商報，此次更新GPT-4o的圖像生成功能之后，OpenAI更大的產品更新將是推出GPT-5。今年2月，OpenAI首席執行官山姆·奧爾特曼表示，OpenAI將會在ChatGPT和API服務中搭載新模型GPT-5，GPT-5將集成公司多項技術，包括推理模型o3的技術，GPT-5可能會在未來幾個月內推出。

相比于之前一直不明確GPT-5的推出節點，奧爾特曼突然官宣GPT路線圖，或許是因為OpenAI面臨用戶流失的壓力。奧爾特曼此前表示，DeepSeek讓OpenAI的領先優勢不會像前幾年那么大了，并稱個人認為在開源權重模型和研究成果的問題上，OpenAI已經站在了歷史的錯誤一邊，需要制定不同的開源策略。

此前據《華爾街日報》報道，OpenAI內部代號為“獵戶座”（Orion）的GPT-5項目的開發已持續近兩年，目前面臨嚴峻挑戰。按原計劃，該項目應在2024年年中完成，但現在進度嚴重滯后。

OpenAI已經進行了至少兩次大型訓練，每次訓練都需要數月時間處理大量數據，目的是讓“獵戶座”變得更聰明。一位前OpenAI高管表示，如果說GPT-4的表現相當于一個優秀高中生，那么GPT-5的目標是要在某些任務上達到博士水平。然而熟悉該項目的人士表示，“獵戶座”的訓練每次都會出現新問題，軟件也達不到研究人員的預期。

東吳證券發布研報稱，判斷OpenAI對大模型的產品線與預期曾進行過調整。GPT-5的發布時間或提前，或由于DeepSeek近期的重磅更新和亮眼表現對OpenAI產品版圖構成了威脅，進而希望加快產品迭代步伐。

研究機構Gartner預測，到2026年，多模態生成模型的商業價值將占AI市場的45%。隨著谷歌與微軟等巨頭持續加碼，生成式AI正從通用工具向產業基礎設施演變，但其社會倫理、監管框架的完善也有待各方共同探索。

每日經濟新聞綜合北京商報、揚子晚報·紫牛新聞、OpenAI官網、公開資料

封面圖片來源：每日經濟新聞資料圖

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。

Ai OpenAI GPU ChatGPT

上一篇文章

光啟技術：公司的人形機器人項目只涉及人形機器人所需的超材料關鍵部件的研發和制造

返回每經網首頁

下一篇文章