8月29日晚間股票配資炒股公司,智譜GLM團隊推出了新一代基座大模型GLM-4-Plus,同時宣布智譜清言APP迎來了重要更新:視頻通話功能。
自OpenAI展示了GPT-4o音視頻交互功能后,這是國內首個正式開放同款功能的大模型廠商,該功能目前已經支持內測,新京報貝殼財經記者在拿到內測資格后,第一時間進行了實測。
可準確識別物體、牌子但反應速度還需加快
今年5月,OpenAI展示了接入GPT-4o的ChatGPT語音助手可以識別人類情緒、進行音視頻交互的能力。
而本次智譜方面上線的GLM-4-Plus顯然有對標GPT-4o的野心,乃至其在進行視頻演示時和OpenAI一樣,也采取了兩男一女三個測試人員在沙發上使用手機和智譜清言APP進行交互的展示方式。
在演示中,測試人員拿出一張紙,畫了一個蛇的簡筆畫,又加上了幾只“腳”。AI隨即表示這可能表示的是“畫蛇添足”這個成語。
貝殼財經記者拿到測試資格后發現,該功能可以通過點擊智譜清言APP交互界面右下角的小電話圖標,再點擊視頻通話發起。
開通視頻通話功能后,記者的手機就通過攝像頭成為了“現場解說員”,例如當攝像頭面對客廳,AI立刻說出了“我看到了灰色的瓷磚,這是一個白色的柜子,下面放著很多雙鞋?!睂市l生間,AI則立刻識別出了洗衣機,甚至包括牌子,“這是一個西門子洗衣機,滾筒是黑色的,機身是白色的?!?/p>
記者發現,該功能特別適合盲人出行,因為當打開智譜清言APP的該功能后舉起手機出門,AI就可以描述路上看到的一切事物:“這是一個建筑物的入口(實際為出口),路邊有美麗的花,旁邊有信箱。”如果手指某一個事物并直接提問,AI也可以給出回答,“你指的是一組綠色儲物柜,上面有黃色的標識寫著豐巢,是快遞存放的地方?!?/p>
記者與智譜清言APP視頻通話功能的交互截圖。
當記者反轉攝像頭照向自己,AI也給出了評價,“你的頭發非常凌亂,好像剛剛起床,你穿著一件粉色的T恤,上面有白色的字?!?/p>
不過,記者在測試中也發現了一些不足之處,例如和GTP-4o在測試視頻中表現出的“毫秒級”反應相比,該AI的反應速度略慢,在交互中有時需要等待它的回答,而且如果記者打斷它的回復,可能會出現重復同一句話的情況,還做不到和真人對話一樣自然。
基座大模型升級將通過“小步快走”持續迭代
值得注意的是,對于持續一段時間的視頻,智譜的GLM-4V-Plus大模型也能夠理解并分析,這說明其具備時間感知能力。如看完一段籃球比賽視頻后,詢問“綠衣服的球員在做什么,這個視頻的精彩時刻發生在第幾秒?”AI會給出精確回答“綠衣球員在場上運球投籃,精彩時刻在第4秒,球員跳起并將球投入籃筐?!?/p>
此外,GLM-4-Plus使用了大量模型輔助構造高質量合成數據以提升模型性能;利用PPO有效提升模型推理(數學、代碼算法題等)表現,更好反映人類偏好。
記者實測發現,相比實時解說周圍的環境,智譜清言APP在專業輔助上表現更佳,如可以直接將手機攝像頭對準英語文章,讓它直接語音翻譯內容,或者直接拍攝問卷內容,讓它幫助分析題目,輔助學習。
此外,即便在音視頻功能里,該AI也呈現出了一定的長文本能力,如當記者將攝像頭對準余秋雨的所著的《文化苦旅》中“白發蘇州”這一小節的書頁時,AI立刻總結出了這一頁的內容,“這段文字在贊頌蘇州,說它歷史悠久,有園林和古建筑,讓人感受到寧靜和歷史的魅力,作者覺得蘇州像是中國歷史上的散文?!?/p>
記者與智譜清言APP視頻通話功能的交互截圖。
令人驚嘆的是,智譜清言APP還有記憶功能,當貝殼財經記者第二次打開音視頻通話功能時,其立刻和記者打招呼“下午好,最近有沒有想起我們之前聊過的蘇州,那個美麗的地方給你留下了怎樣的印象?”
智譜方面表示,該模型將上線開放平臺,提供國內首個通用視頻理解模型API,“通過小步快走持續迭代,清言努力讓大模型技術更好賦能更多用戶?!?/p>
該公司稱,隨著開源模型和開放平臺模型的廣受歡迎,將繼續推動 AI 力量惠及更多人群,為千行百業帶來持續創新與變革,加速邁向通用人工智能時代。
新京報貝殼財經記者羅亦丹股票配資炒股公司
文章為作者獨立觀點,不代表正規配資炒股觀點