每日經濟新聞 2023-03-21 22:25:18
每經特約評論員 盤和林
2022年11月,OpenAI發布了ChatGPT,繼而在短短2個月時間就獲得了上億用戶。ChatGPT背后是2021年OpenAI發布的GPT3.0技術,由于在GPT3.0技術上作了一些優化,所以ChatGPT又被認為是GPT3.5版本,而在今年3月14日,OpenAI又發布了GPT4.0,并將其作為plus訂閱服務發布,新版本再次掀起熱潮,訂閱支付通道一度擁堵癱瘓。
ChatGPT一次又一次掀起熱潮,是因為它突破了人工智能應用的一些瓶頸,未來以生成式AI為代表的人工智能產業將進入全面爆發階段。面對科技的新一輪爆發,中國企業作好準備了嗎?
數據來源: OpenAI官網,World of Engineering,中泰證券研究所
GPT帶來了什么?
ChatGPT是生成式AI,其通過機器學習來訓練AI,用上一個字生成下一個字,再用下一個字生成下下個字。首先,ChatGPT采用非監督式學習,用海量語料來教會AI說話方式。隨后,ChatGPT用監督式學習來輔助矯正語言規范,通過標注語料進行機器訓練,讓ChatGPT知道面對某個問題應該如何生成回答。最后,當ChatGPT能夠回答問題,逐字生成答案的時候,再用強化學習來給ChatGPT的回答打分。簡單說,通過填鴨式的非監督學習,ChatGPT學會了說句子,通過范例的、預標注的預料進行監督式學習,ChatGPT學會了回答問題,再通過強化學習來了解人類的“回答偏好”,多給高評分的答案。
為什么ChatGPT需求爆發,而其他AI沒有。總結看,ChatGPT有幾個獨到之處:
其一,ChatGPT是大模型。監督式、非監督式、強化學習的原理,在AI產業里早已是常識性的技術認知。但自然語言處理這個領域太過復雜,因為人類說話非常隨機,所以之前AI企業將機器學習用在很多領域,語音識別、機器視覺、圖像識別(人臉、醫學影像)、蛋白質特征預測、文本識別等,但很少將機器學習用在自然語言處理上。念頭往往一閃而過,但付諸實施的往往是少數,而OpenAI耐著性子堅持了下來。
其二,ChatGPT是機器學習,不是數據庫。長期以來,AI領域人士認為機器學習不適合自然語言處理,所以一直以來,自然語言處理采用邏輯推理的AI實現方式。建立一個語料數據庫,在語料數據之間建立關聯性,比如知識圖譜,再通過邏輯搜索的方式,從數據庫中找到對應答案。但ChatGPT并沒有數據庫,ChatGPT采用機器學習,是一種AI能力集成,而不是一個數據庫集成。也正因為ChatGPT的這個屬性,它并不局限在文本對答方面,而是能夠進入任何領域,比如和搜索結合、和辦公軟件結合。當前尤其善于處理文本,比如編程和學術教育領域,ChatGPT的功能幾乎是通用的。ChatGPT具備完善的表達能力,且通過對不同領域內容的學習,ChatGPT最終會變得無所不能。而這些在數據庫和邏輯搜索下是無法實現的。
其三,ChatGPT有強大的上下文語義理解能力。用戶可以讓ChatGPT扮演角色,ChatGPT可以在用戶引導下故意給出“符合用戶要求”的錯誤答案。用戶在提問的時候,ChatGPT也會引導用戶補充問題信息,并最終給出符合邏輯的答案。過去我們遇到的AI聊天軟件有兩種:一種是基于數據庫的,必須按照數據庫給定的提問方式;另一種是基于機器學習,但只是一問一答。結合上下文語義理解的ChatGPT能夠更好地找到用戶的需求點,給出適合用戶需求的答案。
綜上,ChatGPT的強大在于,其本身是一種機器能力,而不是數據庫,ChatGPT自身的語義理解能力、語言組織能力、搜索能力才是其本質,這也使得ChatGPT可以套用在任何領域。而對于人類來說,ChatGPT是提升人類認知水平的一個重要工具。
人類之所以區別于其他動物,關鍵點在于人類的知識是可以傳承的,這使得人類通過知識傳承積累來實現發展。到工業革命前期,古登堡印刷機成為科技進步的催化劑,除了代代相傳的知識積累,人類擁有了新的知識積累工具,打破認知局限性,所謂“好記性不如爛筆頭”,有了紙張就可以將知識記錄下來,從而加快積累速度。再后來,信息時代出現互聯網,紙張逐漸被數據存儲器取代,信息時代是“數據要素”驅動的時代,數據里包含信息和知識,海量信息和知識存儲在互聯網上,人類通過搜索便捷獲取,知識的堆積再一次提升人類認知水平。
那么ChatGPT呢?互聯網持續繁榮,人類面臨的難題已經不再是信息、知識獲取,與此相反,人類現在處在信息過載、莫衷一是的狀態。所以互聯網時代,最為重要的一種能力是“搜索力”,是如何通過算法和搜索在浩如煙海的互聯網信息中找到答案的問題。ChatGPT提升了人類的搜索力。當ChatGPT嫁接到搜索引擎之后,它就能從海量信息中迅速找到你要的信息。比如你是程序員,ChatGPT可以以自身能力組織出一段代碼,也許這段代碼的很多段落零散分布在各類網站上,ChatGPT減少了你瀏覽各類網站找代碼范例的時間。同樣的情況,也可以發生在PPT制作、論文書寫、考試答題上。
當然ChatGPT并不局限于搜索力,它不僅能找到知識點,還能通過自己的語言能力表達出來。比如和辦公軟件結合,你有一組數據,想做一個PPT,有了ChatGPT,就可以直接生成若干方案。
綜上,ChatGPT對于人類是一種能力加持,一種能夠大幅度提高人類生產力的工具性能力。
當前面臨兩個難題
如果ChatGPT是一種生產力提升工具,那么拒絕生產力工具是不明智的,中國需要生產力工具。人類社會的每一次科技進步,最終結果都是人類去適應科技。在工業時代,少部分國家采用閉關鎖國的方式來對抗科技進步,但都以失敗告終。所以對于中國,ChatGPT是需要的。但圍繞ChatGPT,依然存在幾個問題:
問題一:自力更生等待國產ChatGPT,還是引進ChatGPT?
現階段直接引進ChatGPT存在制度上的障礙,因為ChatGPT是生成式AI,它背后不是數據庫,它會隨機生成答案,而有些隨機生成內容是違規的,比如被別有用心的用戶引導給出了“恐怖主義”言論。當然,ChatGPT也是可以調教的,前面說過,生成式AI可以通過范例的預標注詞條進行監督式學習,也可以通過評分來規范回答,但ChatGPT的母公司OpenAI畢竟是美國公司,美國和中國存在很大的文化差異,這些文化差異會讓ChatGPT在中國出現水土不服甚至犯法。
但反過來說,國內如今缺少ChatGPT的對標產品。比如百度文心一言,在中文內容應答方面和ChatGPT不相上下,但如果你將場景切換到編程代碼,兩者就有很大差距。換句話說,對生產力支持方面,百度文心一言有欠缺。故而,如果你不讓ChatGPT進來,那么就沒辦法短期內提高生產力。而你要ChatGPT進來,則需要適配規則,以提高對生成式AI內容的包容性。
進一步可以演化為兩個選項:一個選項是通過特別規則來引進ChatGPT,人工智能不具備主觀惡意,回答是“有口無心”,可以給予適度包容,讓ChatGPT和國內各個領域迅速結合,提升生產力水平。當然,也要對教育等領域進行改革,以適應ChatGPT帶來的改變。另一個選項是先拒絕ChatGPT,等待未來國產ChatGPT的平替產品。OpenAI成立至今不到10年,卻已有如此成就,ChatGPT的形成原理并不深奧,關鍵還是要大量資金、人才、時間去燒出一個技術未來,需要排除萬難持續投入,通過“你追我趕”,預期未來5年內必然出現類ChatGPT的國產平替產品。
問題二:中國科技企業在研發類ChatGPT過程中的瓶頸在哪里?
在生成式AI領域,中國科技企業缺兩樣東西:一個是心,是耐心和信心;另一個是芯,是算力芯片。
為什么說缺耐心和信心?
耐心方面,不只是中國企業缺,實際上在OpenAI推出ChatGPT之前,美國硅谷科技巨頭也缺耐心,比如一直標榜人工智能領頭羊的谷歌倉促應戰,結果產品體驗并不能達到用戶預期,結果谷歌股價暴跌。最近幾十年,機器學習是人工智能領域的顯學,尤其是深度學習等算法,但之前大多數科技企業都因為生成式AI投入周期長,成本高而忽視了這條路線。企業的本質是盈利組織,會考慮成本效益問題。而OpenAI比較特殊,他之前是非盈利性組織,后來微軟入主,轉變為有限盈利組織,微軟只負責給錢,不干預研發,OpenAI從從容容地在幾年內燒掉超過40億美元的資金,未來還要燒掉百億美元資金進行優化。
OpenAI在一個細分領域投入如此集中,周期如此之長,且在之前并沒有體現出應用價值,而ChatGPT的能力一旦表現出來,尤其是其對接更多應用的接口能力。便出現“十年寒窗無人聞,一朝成名天下知”的狀況。當前聚攏到生成式AI的科技公司,無一例外都需要再走一遍OpenAI走過的路,所以耐心是必需的。比過去更好的地方在于,我們已經看到生成式AI的前景,當前這個領域不乏資本支持。
耐心之外,還有信心。導致中國科技企業信心不足的原因如下:
其一,很多AI領域的從業者認為:當前中文互聯網存在高質量語料不足的問題。這個問題的成因很復雜,換個角度看,中國需要在高質量語料數據上投入更大成本。
其二,很多AI領域的從業者擔心合規性問題。和ChatGPT引進的問題類似,誰都擔心自己辛苦開發的成果不能應用。但這里并非無“技”可施。監督學習和強化學習本身會規范生成式AI的生成,法規只需要對少數情況給予適度包容即可。比如,對用戶惡意引導AI“非法回答”的情況,要明確是用戶的責任。
其三,很多AI領域的從業者擔心算力受制于人。之前英特爾就A100顯卡曾有過對華禁售,而ChatGPT成功的背后是微軟為其部署的超過3萬張的A100顯卡,智算中心算力需求和數據中心并不相同,其核心主要還是在GPU芯片上,我國在高端芯片上的瓶頸會限制中國生成式AI的發展。
綜上,中國“類ChatGPT”產品需要算力、數據上的支持,也需要制度、法規上的支持,面對科技革命,我們依然要落地到軟環境和硬環境兩方面,軟環境就是合規性和產權規則,只有明確制度規范才能讓企業有信心加大投入。硬環境就是硬件設施,就是算力和數據上的支持。
生成式AI的時代已經到來,AI從玩具轉變為工具。由于ChatGPT經歷過用戶使用驗證,所以生成式AI必然不是一陣風的熱點概念,而是長期的、重要的科技高地,其產生意義可能類似于互聯網,是改變人類生產力水平的關鍵應用。面對如此大的科技變革,中國需要抓緊轉向去適應科技的變化,將科技轉化為生產力,為我所用。與此同時,我們也要不忘初心,牢牢抓住“自力更生”這一點,提升我國在這一領域的技術自主能力。我們需要對生成式AI發展保持耐心,因為這是一個長周期的投入過程,生成式AI不能一蹴而就,當前要做的,是優化好環境生態,一步一個腳印,推動生成式AI產業發展。
(作者系浙江大學國際聯合商學院數字經濟與金融創新研究中心聯席主任、研究員,工信部信息通信經濟專家委員會委員)
封面圖片來源:新華社
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP