·OpenAI在其官網宣布,磅更目前正在推出ChatGPT的通过图片新版本,除了通過常見的和语互文本框交互外,現在它正在學會以新的音命方式理解人類的問題,比如通過大聲說話或者上傳一張圖片。令交
·隨著越來越多的磅更人使用語音控製和圖像搜索,並且ChatGPT越來越接近成為一個真正多模式、通过图片有用的和语互虛擬助手,維持住安全護欄會變得越來越困難。音命
OpenAI在其官網宣布,ChatGPT現在可以“看”、磅更“聽”和“說”了。通过图片
自誕生以來,和语互ChatGPT的音命大部分更新主要在於,這個基於AI的令交機器人可以做什麽、可以回答哪些問題、可以訪問哪些信息,以及如何改進其基礎模型等方麵。這一次,OpenAI正在調整使用ChatGPT的方式。
北京時間9月25日晚,OpenAI在其官網宣布,目前正在推出ChatGPT的新版本,除了通過常見的文本框交互外,現在它正在學會以新的方式理解人類的問題,比如通過大聲說話或者上傳圖片。
具體而言,在語音方麵:第一,允許用戶進行語音對話,提供更直觀的交互方式;第二,支持在iOS和Android移動應用上使用;第三,提供5種不同的語音選擇;第四,通過新型文本轉語音模型和語音識別係統實現。
這應該感覺就像與蘋果的Siri交談一樣,隻是OpenAI希望,通過改進基礎技術使其說出更好的答案。目前,大多數虛擬助手,如亞馬遜的Alexa,都在以大語言模型(LLM)為基礎進行改進。
據OpenAI介紹,新的語音功能由一個新的文本到語音模型提供支持,該模型能夠從文本和幾秒鍾的語音樣本生成“類似人類的音頻”。OpenAI似乎還認為該模型的潛力不止於此,其正在與流媒體音樂服務平台Spotify合作,將播客翻譯成其他語言,同時保持播音者的聲音。合成語音有許多有趣的用途,而OpenAI可能會成為該行業的重要組成部分。
然而,隻需幾秒鍾的音頻就能構建出功能強大的合成音色,這也為各種問題性用例敞開了大門。“這些功能還帶來了新的風險,比如惡意行為者冒充公眾人物或實施欺詐的可能性”,OpenAI在其宣布新功能的博文中寫道。OpenAI表示,出於這個原因,該模型不會廣泛被使用,而更多受到特定用例和合作夥伴的限製。
在圖像方麵,第一,允許用戶上傳圖像與ChatGPT進行交互;第二,支持多張圖像;第三,提供移動應用上的繪圖工具;第四,使用多模態GPT模型(Generative Pre-Trained Transformer,生成式預訓練Transformer模型)理解圖像;第五,在接下來的兩周內首先麵向Plus(付費訂閱用戶)和企業用戶推出;第六,語音和圖像功能的推出采取漸進策略,以確保安全性;第七,要注意模型局限性,避免高風險場景下對其依賴。
圖像搜索有點類似於Google Lens的功能,用戶拍攝自己感興趣的任何東西的照片,ChatGPT去嚐試了解用戶在詢問什麽,並做出相應的回應。用戶還可以使用應用程序的繪圖工具幫助明晰自己的訴求,或配合圖像進行說話或寫入問題。
這是ChatGPT希望實現的一個互動特性:與其進行一次搜索得到錯誤答案,然後再重新進行一次搜索,不如在進行的過程中提示AI機器人完善答案。
不過,顯然圖像搜索也有其潛在問題。比如,如果用戶詢問的是關於一個人的情況,ChatGPT該如何反應?OpenAI表示,他們故意限製了ChatGPT“分析和直接陳述關於人的能力”,這既是為了準確性,也是為了隱私原因。這意味著對於AI的一個極具科幻色彩的想象——看著某人然後問AI“那是誰”,並不會很快實現。
在ChatGPT首次推出將近一年後,OpenAI似乎仍在尋找,如何為其AI機器人增加更多功能和能力而不會產生新的問題和缺點。OpenAI也試圖通過有意限製其新模型的功能,來維持“更進一步”和“降低風險”這兩者之間的平衡。但這種方法可能不會永遠奏效。隨著越來越多的人使用語音控製和圖像搜索,並且ChatGPT越來越接近成為一個真正多模式、有用的虛擬助手,維持住這個護欄會變得越來越困難。