嘉賓介紹:劉高暢,國盛計算機(jī)首席、機(jī)器人大組組長,2021&2022年新財富計算機(jī)行業(yè)第一名(首席)。南開大學(xué)物理學(xué)、金融學(xué)雙學(xué)士,香港中文大學(xué)系統(tǒng)工程碩士。曾任申萬宏源人工智能組組長,計算機(jī)高級分析師。
今年一季度,隨著ChatGPT的火爆,前期沉寂多年的TMT板塊出現(xiàn)非常好的表現(xiàn)。資本市場在ChatGPT出現(xiàn)之后為什么這么看好TMT行業(yè)?人工智能背后的技術(shù)積累和突破的關(guān)鍵在哪里?算力和數(shù)據(jù)方面我們和海外有多大的差距?人工智能產(chǎn)業(yè)鏈中,哪些賽道會比較好,后續(xù)行情將如何演繹?
國盛證券劉高暢表示,ChatGPT不再是0—1,和應(yīng)用端結(jié)合起來之后已經(jīng)進(jìn)入1—N的階段,使得資本市場開始真關(guān)注到ChatGPT的價值。大模型的出現(xiàn)是人工智能技術(shù)經(jīng)過積累和發(fā)展后,量變產(chǎn)生質(zhì)變的結(jié)果。在當(dāng)前人工智能巨大變革的產(chǎn)業(yè)早期,在算力、大模型、應(yīng)用這三個領(lǐng)域都有非常好的機(jī)會。這一輪人工智能的影響力可能比1999年的互聯(lián)網(wǎng)更大,行情的持續(xù)性和高度可能會超過預(yù)期。
【資料圖】
以下為文字精華:
1、國盛證券劉高暢:ChatGPT應(yīng)用落地 進(jìn)入1—N階段
提問:很高興今天能有機(jī)會和大家一起交流人工智能以及TMT行業(yè)的觀點(diǎn),我們非常榮幸地請來了國盛證券計算機(jī)行業(yè)首席分析師劉高暢,劉總是連續(xù)兩屆的新財富計算機(jī)行業(yè)第一名,同時去年年底就非常前瞻地看好人工智能行業(yè)。
首先想問一下劉總,計算機(jī)行業(yè)以及人工智能今年如此好的表現(xiàn)是因?yàn)槭裁矗?/p>
劉高暢:去年底的時候,我們也看了一下所有賣方的年度策略,我們應(yīng)該是唯一一個把人工智能列入其中進(jìn)行推薦的,而且列在核心的推薦里。我們當(dāng)時的年度策略寫的是信創(chuàng)、數(shù)據(jù)以及AI三個方向,今年應(yīng)該來講,驗(yàn)證程度還不錯。
去年12月份的時候,OpenAI放開了ChatGPT的公測。ChatGPT的對話體系展現(xiàn)的智能性,和以前的AI,包括大家比較熟悉的NLP自然語言處理已經(jīng)發(fā)生了比較大的區(qū)別。
首先他能理解你的問題,他的回答非常也很有邏輯和條理,而且他的認(rèn)知范圍非常廣闊,所以我們當(dāng)時就覺得這個東西和之前的不一樣。我們在機(jī)器人的研究當(dāng)中發(fā)現(xiàn),機(jī)械部分甚至控制平衡的部分,都不是一個機(jī)器人最重要的點(diǎn),要讓機(jī)器人真的發(fā)揮作用,關(guān)鍵在他的“大腦”,這可能是通用人工智能改變世界最缺失的一環(huán)。
去年12月份我們用了ChatGPT之后,在12月11日也發(fā)布了相關(guān)的報告,探討ChatGPT是否是新一輪的科技革命。實(shí)話實(shí)說,當(dāng)時我們的認(rèn)知還略淺顯,并不堅(jiān)定,只是覺得它的可能性和方向已經(jīng)出現(xiàn)了,所以我們在年度策略里沒有把人工智能列為第一主線,而是列為三大主線之一。
1月3日,微軟宣布推出New Bing,在New Bing的搜索層面運(yùn)用ChatGPT。當(dāng)時給了我們一定的觸動,我們發(fā)現(xiàn)ChatGPT不只是一個對話系統(tǒng),它可以和應(yīng)用端結(jié)合起來。對資本市場來講,我們覺得有兩個點(diǎn)特別重要,讓大家真正開始認(rèn)可。
第一點(diǎn),我們和資本市場共同看到,在我們的春節(jié)期間,微軟宣布Microsoft的Office全家桶包括微軟的全套體系會接入ChatGPT開發(fā)應(yīng)用。當(dāng)時中國的資本市場的話也是看到ChatGPT不再只是0—1的過程,它真正開始和整個產(chǎn)業(yè)界全面結(jié)合起來,已經(jīng)進(jìn)入1—N的階段。
之后我們就開始深入研究,看很多的相關(guān)論文,我們在2月下旬提出的多模態(tài)GPT的方向,甚至領(lǐng)先學(xué)術(shù)界預(yù)判了市場包括產(chǎn)業(yè)的下一個重要方向,這一塊研究我們非常的自豪。從當(dāng)時開始,我們就已經(jīng)將其作為整個年度最重要的產(chǎn)業(yè)。
資本市場特別是對公募保險這樣的一些大機(jī)構(gòu)來說,真正讓他們觸動的,相信是3月16日晚,微軟的Copilot六件套的發(fā)布,包括 Word、Excel、PPT等。這個時候,我們發(fā)現(xiàn)資本市場真正開始相信了。
因?yàn)榇蠹乙郧坝X得它只是一個小工具,不能提升社會生產(chǎn)力,但是做PPT這個工作,應(yīng)該來講我們每個人都有做過,可能對很多投資者來說非常難受,有這么多的PPT要做,大家經(jīng)常熬夜做PPT熬得頭發(fā)都掉了。但是我們發(fā)現(xiàn)ChatGPT接入之后,它真的可以開始幫我們自動生成PPT,雖然還比較粗淺,需要我們大量的修改,但是從中可以明確地感受到ChatGPT的魅力。
從那時開始的話,資本市場無論是機(jī)構(gòu)還是個人投資者,對ChatGPT的關(guān)注度快速爆炸,真正的熱了起來。
2、國盛證券劉高暢:第三次AI浪潮 量變產(chǎn)生質(zhì)變
提問:直到2023年,人工智能中在我們看起來“比較基礎(chǔ)”的人機(jī)對話功能才得以實(shí)現(xiàn),背后的技術(shù)積累和突破到底在哪里?
劉高暢:2006年以后的AI發(fā)展,我們把它列為人工智能的第三次浪潮,它的標(biāo)志是深度學(xué)習(xí)的成熟,以深度學(xué)習(xí)模型的成熟和可實(shí)現(xiàn)程度的完成作為標(biāo)志,像Geoffrey Hinton這樣的一些大牛在里面做出了很多貢獻(xiàn)。
2006年到2017年是以深度神經(jīng)網(wǎng)絡(luò)為代表,包括CNN(卷積神經(jīng)網(wǎng)絡(luò))、RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))、DNN(深度神經(jīng)網(wǎng)絡(luò)),一些深度神經(jīng)網(wǎng)絡(luò)的分支。
2017年,代表性的模型框架就是Transformer開始出現(xiàn),它吸取了CNN體系,殘差神經(jīng)網(wǎng)絡(luò)里殘差塊的體系,去解決梯度下降或者梯度爆炸的問題,在循環(huán)神經(jīng)網(wǎng)絡(luò)里,它吸取了Self Organizing Maps(SOM,自組織映射神經(jīng)網(wǎng)絡(luò))。當(dāng)時是Google的研究團(tuán)隊(duì)提出了Transformer大模型的邏輯,模型規(guī)模很大,有的可能是以編碼器為主,有的是以解碼器為主,Google堅(jiān)持以編碼器為主,這個路線在識別客戶的問題或者識別客戶的需求方面效果比較好,也有利于Google的搜索產(chǎn)品。
OpenAI非常有意思,它看重的是GPT路線,也就是生成式AI的路線。生成式AI,它的復(fù)合里面放的都是解碼器,也就是說在訓(xùn)練之后會有一個特點(diǎn),就是會有多種多樣的表達(dá),可以按照各種邏輯去表達(dá)。
因?yàn)镺penAI在早期的目標(biāo)就是致力于AIGC,也就是通用人工智能的成型,他們認(rèn)為GPT路線離實(shí)現(xiàn)通用人工智能的距離會更近一些,所以一直進(jìn)行這種訓(xùn)練發(fā)展。從處理數(shù)據(jù)集到網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計,到訓(xùn)練的布置實(shí)施,包括訓(xùn)練過程中的修正與調(diào)教。
中間有個比較意思的點(diǎn),就是它用大語言模型去寫代碼。這一點(diǎn)非常有意思,當(dāng)時是GPT3初始模型之后開始去寫代碼,寫完代碼并做了對齊,對齊叫Instruct Lenition,初始的指導(dǎo)中只有少部分的道德指導(dǎo),大部分做指令的指導(dǎo),把代碼和人類的語言進(jìn)行一一對齊。簡單說就是讓機(jī)器去理解人類的語言,用代碼的形式去實(shí)現(xiàn)一些邏輯上的操作,并且把結(jié)果反饋成人類的語言,可以理解為把機(jī)器相關(guān)的東西進(jìn)行翻譯。
這個操作完成之后不再叫“GPT3初始模型”,叫“GPT3達(dá)芬奇002模型”。我們當(dāng)時去測,大概是在2021年底,他的表達(dá)表現(xiàn)還不是特別好,但是用特殊方式的引導(dǎo)詞去提問他,你會發(fā)現(xiàn)他已經(jīng)具備了非常強(qiáng)的邏輯能力,只是道德水準(zhǔn)還有點(diǎn)問題,所以后面OpenAI做了一定的工作,叫做Instruct GPT指導(dǎo)。
指導(dǎo)分為幾個內(nèi)容,一方面進(jìn)一步去調(diào)教指令,能夠更好地理解人類的一些指令,一些通俗易懂的話怎么轉(zhuǎn)化成機(jī)器的邏輯。
另外一種就是做道德上的調(diào)教,因?yàn)榕鲁霈F(xiàn)一些黃色暴力血腥的話,以及一些反人類反道德反社會的話。就像我們教小孩子一樣,他可能有邏輯也很聰明,但是表達(dá)有問題,世界觀價值觀也有問題,我們要去調(diào)教他的三觀。
經(jīng)過Instruct指導(dǎo)性的調(diào)教之后,再進(jìn)行一些微調(diào),行業(yè)化和效果的一些調(diào)整,到了2012年12月份,發(fā)出來的GPT3.5之上的衍生產(chǎn)品,也就是ChatGPT。
GPT3以前用的是公開數(shù)據(jù)為主,用了很多的開源代碼,也可能用了一些微軟內(nèi)部比較高階的代碼,這是一種猜想,但總體來說是以公開數(shù)據(jù)為主,但是未來往行業(yè)化的方向去發(fā)展,可能專業(yè)化的數(shù)據(jù),能夠支撐應(yīng)用形成的數(shù)據(jù)會相對來說比較重要。
人工智能技術(shù)經(jīng)過不同的積累和發(fā)展到了大模型階段,大模型學(xué)習(xí)了很多人類互聯(lián)網(wǎng)上的公開數(shù)據(jù)形成了自己的智能,是模型規(guī)模到了一定程度量變產(chǎn)生質(zhì)變的結(jié)果。
3、國盛證券劉高暢:中文數(shù)據(jù)欠缺 算力消耗顯著
提問:除了算法,人工智能訓(xùn)練的時候也需要很大的算力,包括海量的數(shù)據(jù),特別是我們中國跟海外的數(shù)據(jù)源可能還存在一些割裂。在算力和數(shù)據(jù)方面,我們和海外有多少差距?
劉高暢:數(shù)據(jù)方面,在GPT3以前用的都是互聯(lián)網(wǎng)的公開數(shù)據(jù),中文目前來看,客觀的條件就是高質(zhì)量的語料庫相對來講會稀缺一些。
在整個OpenAI的大模型中,我們了解到中文的語料庫使用只有5%,從誤差率的角度來講,英文可能在2%—3%,中文大概在10%以上。用中文去測試ChatGPT,效果也不如英文。但是,我們也看到國內(nèi)的高質(zhì)量語料庫在快速生成中,大家也在探索,包括知乎和萬方這樣的一些高質(zhì)量語料庫在形成。
大模型的數(shù)據(jù)還是以互聯(lián)網(wǎng)公開數(shù)據(jù)為主,可能在寫代碼這個階段,一些頂尖大廠比如微軟,代碼的水平會比較高,但是畢竟這一塊只是小部分,我們推測起不了決定性的作用,應(yīng)該不是特別大的瓶頸。OpenAI在去年GPT3.5的時候,大概用了45TB的數(shù)據(jù),做模型數(shù)據(jù)集處理和傾斜的部分應(yīng)該是不超過1TB的,所以其實(shí)是很少的數(shù)據(jù),這一點(diǎn)不用特別擔(dān)心。
算力方面,如果從訓(xùn)練端的角度來看,如果在GPT3以前,用2000張英偉達(dá)A100的算力,如果你訓(xùn)不出來成果,我們建議就不要去做了,說明這個團(tuán)隊(duì)水平有點(diǎn)問題。如果在GPT3.5以前,5000張如果訓(xùn)不出來,我們建議也不要再做訓(xùn)練了,說明這個團(tuán)隊(duì)多多少少有點(diǎn)問題。
我們認(rèn)為在訓(xùn)練階段,對算力的需求量沒有那么極限,國內(nèi)明面上和潛在的產(chǎn)業(yè)中的儲備我們認(rèn)為是夠的。
應(yīng)用端來看,做模型蒸餾和模型裁剪,把算力的消耗做到以前的90%,已經(jīng)是很高的縮減度了。但是就這樣的情況來看,算力還是會捉襟見肘,對未來算力的消耗還會非常顯著,包括我們國家的一些晶圓代工和設(shè)計廠商,這也是他們需要努力的地方,其實(shí)是機(jī)遇也是挑戰(zhàn)。
4、國盛證券劉高暢:關(guān)注三個領(lǐng)域 皆有可觀機(jī)會
提問:在ChatGPT或者人工智能產(chǎn)業(yè)鏈上,您覺得哪個賽道會比較好?
劉高暢:我覺得在這樣巨大變革的產(chǎn)業(yè)早期,算力、大模型、應(yīng)用這三個領(lǐng)域都有非常好的機(jī)會。
算力領(lǐng)域我們也測算過,在應(yīng)用端來看,如果應(yīng)用快速擴(kuò)張的情況下,它的算力需求相較于現(xiàn)在可能是以萬倍為基數(shù)的提升,甚至?xí)?。我們做過一個很有意思的測算,就是通用的人形機(jī)器人出現(xiàn)的時候,它的模型規(guī)模我們認(rèn)為至少是3萬億—4萬億的參數(shù)級別。
到了三四萬億的參數(shù),即使我們做了很好的模型的蒸餾裁剪,我們認(rèn)為機(jī)器人也需要10張英偉達(dá)A100,未來的話我們相信機(jī)器人的數(shù)量會超過人類,因?yàn)樗梢越夥拍愕纳a(chǎn)力。
假如100億的機(jī)器人,現(xiàn)在一張英偉達(dá)A100的卡基本上都在十多萬,可以看到形成了多么大的空間。當(dāng)然這是比較遠(yuǎn)期的假設(shè),可能需要十年左右的時間,但也讓我們感受到算力擴(kuò)張的量級,因?yàn)樗懔?yán)格意義上是跟著應(yīng)用走的,所以算力是一個比較確定的方向。
需求上也是比較確定的,方向上可能我們國家的企業(yè)更多的是解決供給的問題,如何設(shè)計出高密度的計算芯片。如何比較好地保證在晶圓代工這一塊供應(yīng)鏈的穩(wěn)定性,可能是整個產(chǎn)業(yè)需要重視的地方。
大模型端,國內(nèi)的大模型逐漸多了起來,但是我們也看到,大模型是驅(qū)動整個產(chǎn)業(yè)鏈啟動的發(fā)動機(jī),到底誰能做出來其實(shí)現(xiàn)在不好講。如果在比較深的優(yōu)勢的行業(yè),做行業(yè)的大模型,就很多人講的“小模型”。其實(shí)不對,Transformer它就是大模型,對Fine Tune微調(diào)之后的行業(yè)大模型,通用智能更好的這種大模型不一定比你效果更好,或者說即使效果比較好,綜合的能耗可能消耗比你大,這樣的一些可能性也是存在的,所以一定會有自己的機(jī)會所在。
在應(yīng)用的階段,我們現(xiàn)在看到不管是辦公的這種多模態(tài),金融領(lǐng)域、醫(yī)療領(lǐng)域、教育領(lǐng)域,還是像智能助理這樣一些To C的應(yīng)用,都在蓬勃發(fā)展。我們相信在未來的半年到三年內(nèi),我們的生活一定會發(fā)生巨變,巨變之下可能大家就會真正感受到時代的魅力以及巨大的投資機(jī)會。
5、國盛證券劉高暢:產(chǎn)業(yè)周期變化 行情生命力強(qiáng)
提問:最近市場有比較大的波動,到了這種分歧的時刻,后市該怎么看?
劉高暢:我們前期寫了一篇報告——《1999年互聯(lián)網(wǎng)行情的復(fù)盤》。淡化所有對投資的理解,對護(hù)城河、PE、PB等框架的各種認(rèn)知,從產(chǎn)業(yè)周期來講,最可比的就是1999年互聯(lián)網(wǎng)新技術(shù)的顛覆,帶來了巨大的變化。短期內(nèi)可能產(chǎn)品形態(tài)、商業(yè)模式都不是非常清晰,因?yàn)樗诳焖僮兓?,大家都在攻城略地,去改變這個世界。
這一輪的影響力可能比1999年的互聯(lián)網(wǎng)更大,因?yàn)橛绊懙牟⒉皇钦f我們計算機(jī)行業(yè)的400家公司,也不是A股的4000家公司,它影響的是我們每一個人的生活,每一個人的工作狀態(tài),影響的是整個社會的形態(tài)。我們認(rèn)為,如此顛覆性的技術(shù),它的持續(xù)期、它的高度、它的生命力是非常強(qiáng)的。
復(fù)盤1999年,當(dāng)時產(chǎn)業(yè)的行情演繹大概是1年9個月的時間,也有十幾倍的一些公司,漲幾倍的公司不勝枚舉。其實(shí)從春節(jié)之后到現(xiàn)在,整個ChatGPT的演繹也就兩個月的時間,考慮到現(xiàn)在社會節(jié)奏變快,信息傳遞加速,行情的持續(xù)性和高度可能會超過大家的想象。
前一段交易上的波動我們認(rèn)為問題不大,而且持續(xù)的時間也不會太長。我個人判斷時間可能不會特別長,下一輪的AI行情會開啟新一輪的機(jī)會,所以近期基于交易的回調(diào)是非常好的。
我們從2月份的路演開始一直講一件事,就是年內(nèi)ChatGPT有且只有兩個利空,一個是大家意識到芯片這一塊有封鎖的風(fēng)險,另外一個就是大家認(rèn)識到我們國家的大模型和OpenAI有比較大的差距。但這兩件事情在2月底和3月中已經(jīng)發(fā)生了,所以博弈已經(jīng)完成了。純交易性的因素造成的調(diào)整,我們覺得每次回調(diào)都是非常好的布局機(jī)會,上一波重視程度不高的投資者,可以在新一輪的大行情中加大重視。
關(guān)鍵詞: