ChatGPT重磅更新！可以通過圖片和語音命令交互-傻瓜新闻

~~<i id='0E40D99EB1'><strike id='0E40D99EB1'><tt id='0E40D99EB1'><pre id='0E40D99EB1'></pre></tt></strike></i>~~

首页 > 山東 > 正文 : ChatGPT重磅更新！可以通過圖片和語音命令交互-傻瓜新闻

ChatGPT重磅更新！可以通過圖片和語音命令交互-傻瓜新闻

2024-11-22 13:06:41来源：山東编辑：湖北

·OpenAI在其官網宣布，磅更目前正在推出ChatGPT的通过图片新版本，除了通過常見的和语互文本框交互外，現在它正在學會以新的音命方式理解人類的問題，比如通過大聲說話或者上傳一張圖片。令交

·隨著越來越多的磅更人使用語音控製和圖像搜索，並且ChatGPT越來越接近成為一個真正多模式、通过图片有用的和语互虛擬助手，維持住安全護欄會變得越來越困難。音命

OpenAI在其官網宣布，ChatGPT現在可以“看”、磅更“聽”和“說”了。通过图片

自誕生以來，和语互ChatGPT的音命大部分更新主要在於，這個基於AI的令交機器人可以做什麽、可以回答哪些問題、可以訪問哪些信息，以及如何改進其基礎模型等方麵。這一次，OpenAI正在調整使用ChatGPT的方式。

北京時間9月25日晚，OpenAI在其官網宣布，目前正在推出ChatGPT的新版本，除了通過常見的文本框交互外，現在它正在學會以新的方式理解人類的問題，比如通過大聲說話或者上傳圖片。

具體而言，在語音方麵：第一，允許用戶進行語音對話，提供更直觀的交互方式；第二，支持在iOS和Android移動應用上使用；第三，提供5種不同的語音選擇；第四，通過新型文本轉語音模型和語音識別係統實現。

這應該感覺就像與蘋果的Siri交談一樣，隻是OpenAI希望，通過改進基礎技術使其說出更好的答案。目前，大多數虛擬助手，如亞馬遜的Alexa，都在以大語言模型（LLM）為基礎進行改進。

據OpenAI介紹，新的語音功能由一個新的文本到語音模型提供支持，該模型能夠從文本和幾秒鍾的語音樣本生成“類似人類的音頻”。OpenAI似乎還認為該模型的潛力不止於此，其正在與流媒體音樂服務平台Spotify合作，將播客翻譯成其他語言，同時保持播音者的聲音。合成語音有許多有趣的用途，而OpenAI可能會成為該行業的重要組成部分。

然而，隻需幾秒鍾的音頻就能構建出功能強大的合成音色，這也為各種問題性用例敞開了大門。“這些功能還帶來了新的風險，比如惡意行為者冒充公眾人物或實施欺詐的可能性”，OpenAI在其宣布新功能的博文中寫道。OpenAI表示，出於這個原因，該模型不會廣泛被使用，而更多受到特定用例和合作夥伴的限製。

在圖像方麵，第一，允許用戶上傳圖像與ChatGPT進行交互；第二，支持多張圖像；第三，提供移動應用上的繪圖工具；第四，使用多模態GPT模型（Generative Pre-Trained Transformer，生成式預訓練Transformer模型）理解圖像；第五，在接下來的兩周內首先麵向Plus（付費訂閱用戶）和企業用戶推出；第六，語音和圖像功能的推出采取漸進策略，以確保安全性；第七，要注意模型局限性，避免高風險場景下對其依賴。

圖像搜索有點類似於Google Lens的功能，用戶拍攝自己感興趣的任何東西的照片，ChatGPT去嚐試了解用戶在詢問什麽，並做出相應的回應。用戶還可以使用應用程序的繪圖工具幫助明晰自己的訴求，或配合圖像進行說話或寫入問題。

這是ChatGPT希望實現的一個互動特性：與其進行一次搜索得到錯誤答案，然後再重新進行一次搜索，不如在進行的過程中提示AI機器人完善答案。

不過，顯然圖像搜索也有其潛在問題。比如，如果用戶詢問的是關於一個人的情況，ChatGPT該如何反應？OpenAI表示，他們故意限製了ChatGPT“分析和直接陳述關於人的能力”，這既是為了準確性，也是為了隱私原因。這意味著對於AI的一個極具科幻色彩的想象——看著某人然後問AI“那是誰”，並不會很快實現。

在ChatGPT首次推出將近一年後，OpenAI似乎仍在尋找，如何為其AI機器人增加更多功能和能力而不會產生新的問題和缺點。OpenAI也試圖通過有意限製其新模型的功能，來維持“更進一步”和“降低風險”這兩者之間的平衡。但這種方法可能不會永遠奏效。隨著越來越多的人使用語音控製和圖像搜索，並且ChatGPT越來越接近成為一個真正多模式、有用的虛擬助手，維持住這個護欄會變得越來越困難。

标签：寧夏遼寧教育