2025年4月10日
商湯(00020)技術交流日今日於上海舉行,正式發布商湯日日新SenseNova V6多模態融合大模型(下簡稱V6),透過構建超過200B高質量多模態長思維鏈數據、最長64K思維鏈,可以解決更為複雜的問題及任務。
董事長兼首席執行官徐立稱,V6的多模態深度推理能力對標GPT-o1,為國內第一;數據分析能力大幅領先GPT-4o,並且支持10分鐘的視頻理解及深度推理。
徐立說,互聯網上的文本數據可能在2028年耗盡,但知識並不僅限於文本,還存在於圖像、視頻、3D等多模態數據中。多模態學習方式,類似於人類從小學習數學、幾何、物理、化學等多模態知識的過程,認為通過融合不同模態的數據,可以提升模型的智能和決策能力。
徐立花了不少篇幅介紹了新一代模型的應用場景,比如透過處理一些非結構化的文件如手寫單、醫療單據等,協助企業進行財務審核報銷的工作,或者進行商舖營運數據分析。大模型也可以進行影片剪接,並可以在為學生解題,具備實時交互、視覺識別、記憶思考、持續對話和複雜推理等能力。
現場展出多個應用了商湯多模態融合大模型的產品,包括為3至12歲兒童而設的Ling AI學伴機,該配備由詩人李白、日本動畫大師宮崎駿乃至生物學家達爾文等不同角色組成的「陪學團」,與學童一同進行科學探索、文學及藝術啟蒙、英語特訓、社交訓練等等。靈宇宙創始人顧嘉唯介紹,用戶可以直接與「李白」等角色FaceTime,進行實時對話及互動,比如讓「李白」即場作詩,或者讓「達爾文」講解生物學,「讓新一代年輕的孩子有一個隨時隨地找到解答的智能體」。
搭載商湯日日新融合大模型的具身機械人「飛燕」亦在列,「飛燕」具備全景視界感知、情感交互及心理健康篩查功能,應用於醫療、教育、養老等場景。