新智元報道
編輯:Aeneas 好困
【新智元導讀】曾經懷疑LLM能幹什麽用的蘋果高管,如今急了。日砸蘋果一天燒幾百萬美元,百万隻為把Apple GPT塞進明年發布的豪赌iPhone裏。
蘋果急了?亿参
據The Information報道,為了加速開發LLM,狂挖蘋果現在不僅大幅增加了研究經費——每天燒掉數百萬美元,角谷還從穀歌挖來了許多工程師。歌打
對此,造核蘋果員工一致認為,弹级他們的苹果Apple GPT大模型能力已經超過了GPT-3.5。
而Siri也要飛升了——隻要告訴它,日砸「用最近拍的百万5張照片創建一個GIF,發給我朋友」,豪赌它就會自動執行這一連串操作,亿参行雲流水,而我們連手指都不需要點一下。
至於大模型團隊的主力,已經被外媒扒出來了——關鍵角色幾乎都來自於穀歌。
注意這張圖,下麵要考
生成式AI的大廠之戰,蘋果必不會缺席!
AI負責人不甘:慢了一步
蘋果,本來也有機會成為OpenAI。
四年前,蘋果的AI主管John Giannandrea就曾組建了一個團隊開發對話式AI,也就是大語言模型。
這一舉措當然很有先見之明,但還是晚了一步——去年秋天,OpenAI搶先發布的ChatGPT,已經率先吸引了全世界的注意力。
幾位蘋果內部工作人員表示,蘋果其實並非對大語言模型的繁榮毫無準備,但Giannandrea此前卻一再懷疑:AI模型驅動的聊天機器人究竟能有什麽用。
現在,蘋果顯然後悔了——就是花再大代價,也要把大模型做出來!
16人主力,多個團隊共同衝刺LLM
這個代價是多大?
Sam Altman曾表示,OpenAI曆時數月訓練出的地表最強GPT-4,燒了1億多美元。
相比之下,蘋果這個名為Foundational Models的團隊雖然隻有約16人,但訓練模型的預算已經增長到了每天數百萬美元。
團隊由蘋果挖來的幾名前穀歌工程師組成(還在穀歌時,他們就是Giannandrea的手下),由Ruoming Pang領導,他在穀歌工作了15年後,於2021年選擇加入了蘋果。
Ruoming Pang
據知情人士透露,該團隊扮演的角色,類似於穀歌和Meta的AI實驗室——研究人員負責開發AI模型,其他部門負責把模型應用到產品之中。
除此之外,根據近期的一篇研究論文以及LinkedIn上的員工資料,蘋果至少還有兩個團隊,也在開發語言或圖像模型。
其中一個視覺團隊,致力於開發能夠生成「圖像、視頻或3D場景」的應用。
另一個團隊則在進行多模態AI的長期研究——讓模型同時識別和生成圖像、視頻以及文本。
現在,蘋果已經開發了多個模型,正在緊鑼密鼓地進行內部測試。
Siri即將大升級
在蘋果團隊看來,目前最先進的模型Ajax GPT(或稱Apple GPT),已經超越了GPT-3.5。
有了如此強大的語言模型加持,蘋果旗下的一係列產品當然都會來一波大升級。
比如下個命令,Siri就會自動創建出個動圖,然後發送給手機裏的某個人。
並且,蘋果還會上線一個名為Shortcuts的app,可以讓用戶手動編程,串起不同app的功能。
預計在明年的新版iOS操作係統中,我們應該就能見到這些功能了!
不過,具體要如何在產品中應用LLM,蘋果還沒有一個定論。
眾所周知,蘋果一直都在標榜自己對用戶隱私的保護,因此在各類功能的實現上,也更傾向於在設備上離線運行,而不是在雲服務器上。
據知情人士透露,「Apple GPT」的參數量已經超過了2000億個。想要運行如此龐大的模型,不僅需要強大的算力,還需要足夠的儲存空間。
顯然,這些要求對於一台小小的iPhone來說,實在有些勉強了。
對此,穀歌的PaLM 2倒是開了一個很好先例——模型被調教成了四種不同的規模,其中的一種就可以在設備上離線使用。
蘋果,在變成「另一個穀歌」?
說回團隊的事,Giannandrea最初加入蘋果,就是為了把更多的AI融進蘋果的軟件,比如Siri。
在被ChatGPT的輝煌打臉後,他終於打消了對AI聊天機器人的顧慮。
值得慶幸的是,Giannandrea至少有一項決定是明智的——他要讓蘋果變得更「穀歌」。
因此,蘋果的員工被給予了高度的自由和很大的靈活性,來進行各種研究、發表論文。因此,Foundational Models團隊才得以存在。
要知道在此前,蘋果對此有諸多限製,因而流失了不少人才。
蘋果變得更「穀歌」的另一個原因是,2018年Giannandrea加入蘋果後,挖來了不少穀歌的骨幹工程師和研究者。
另外,他還在蘋果內部大力推介穀歌的雲服務(包括穀歌開發的TPU芯片)來訓練Siri和其他產品的模型。
大牛,是從穀歌挖的
蘋果的這支隊伍裏,可謂人才濟濟。
Foundational Models的前身,是一個由荷蘭計算機科學家Arthur Van Hoff領導的團隊。
Van Hoff是Sun Microsystems團隊的早期成員,就是這個大名鼎鼎的團隊,在上世紀90年代創建了Java。
2019年,Van Hoff加入蘋果,當時他負責開發新版Siri(內部代號為Blackbird),但蘋果放棄了這個版本。後來,他帶領團隊開始主攻LLM。
起初,這個團隊隻有少數幾名員工。最出名的是兩位來自牛津大學的英國研究員,Tom Gunter和Thomas Nickson,他們負責NLP。
Tom Gunter
Thomas Nickson
2021年,Ruoming Pang加入了蘋果,來幫忙訓練LLM。
與其他研究員不同,他被特批留在紐約,蘋果希望在那裏建立一個機器學習團隊的前哨站。
Ruoming Pang憑借自己在神經網絡方麵的研究,贏得了業內廣泛的關注。比如神經網絡如何與移動電話處理器一起工作,如何使用並行式計算來訓練神經網絡。
幾個月後,蘋果挖來前穀歌AI高管Daphne Luong,來監督Van Hoff的團隊和Samy Bengio的團隊。後者也是蘋果在2021年從穀歌挖來的。
Samy Bengio
後來,團隊內部似乎發生了一些變動,Pang接管了Foundational Models團隊。而Van Hoff在今年開始無限期休假。
不過,根據最新的LinkedIn資料,Van Hoff已於今年8月離職。
Arthur van Hoff
而另外一位曾經的蘋果多模態研究團隊負責人Jon Shlens,則是在「蘋果-穀歌」之間反複橫跳。
2012年,Shlens加入穀歌出任高級研究科學家,一做就是11年6個月。
2021年底,他跳槽到了蘋果,負責長期開展以多模態學習為重點的機器學習研究。
不到2年時間,Shlens又回到了穀歌。
根據The Information的分析,他在Google DeepMind負責的新團隊,和穀歌即將推出的具有多模態功能的Gemini模型,也有著千絲萬縷的聯係。
Jon Shlens
服務器,也首選穀歌
蘋果之所以會招來Pang,也是公司內部越來越清晰地意識到:LLM在機器學習中,很重要。
知情者爆料,在OpenAI於2020年6月發布GPT-3後,蘋果機器學習組的員工們就鬧起來了,要求公司調撥更多資金,來讓他們訓練模型。
據悉,為了節省成本,蘋果高管曆來都是鼓勵工程師們使用更便宜的穀歌雲計算服務,而不是亞馬遜的。
因為穀歌是Safari瀏覽器的默認搜索引擎合作商,所以穀歌雲服務的價格也會對蘋果更低。
當然,合作歸合作,蘋果從沒停止過從穀歌和Meta的AI隊伍中挖人。
據統計,自AXLearn於7月上傳以來,已有至少十二名加入蘋果機器學習團隊的成員在GitHub上為項目做出了貢獻。其中7人以前曾在穀歌或Meta工作。
蘋果,也會「開源」了?
有趣的是,在Ruoming Pang的影響下,Foundational Models團隊竟然在今年7月的時候,悄悄把訓練Ajax GPT用的機器學習框架AXLearn給傳到了GitHub上。
基於穀歌開源框架JAX以及加速線性代數XLA的AXLearn,可以用於快速訓練機器學習模型,並且針對穀歌的TPU進行了優化。
項目地址:https://github.com/apple/axlearn
具體來說,AXLearn采用麵向對象的方法來解決構建、迭代和維護模型時出現的軟件工程挑戰。用戶能夠從可重複使用的構建模塊中組合模型,並與其他庫(如Flax和Hugging Face transformers等)集成。
AXLearn除了支持在數千個加速器訓練上對具有數百億參數的模型進行訓練外,還支持包括自然語言處理、計算機視覺和語音識別等廣泛的應用常見,並包含了訓練SOTA模型所需的基線配置。
如果說,我們把蘋果的Ajax GPT比作是一座「房子」,那麽AXLearn就是「藍圖」,而JAX則是用於繪製這些藍圖的「筆和紙」。不過,蘋果並沒有公開訓練模型所用的數據,也就是「建築材料」。
不過,我們並不清楚蘋果公開發布AXLearn的原因,但通常來說是希望其他工程師也可以對其進行改進。
參考資料:
https://www.theinformation.com/articles/apple-boosts-spending-to-develop-conversational-ai?rc=epv9gi