讓大模型更接地氣,騰訊交出一份階段性答卷。
大模型狂奔一年多后,正邁向產業落地的深水區。如何用好這一革命性的新技術,已成為整個社會的一道必答題。
去年,國內大模型百花齊放,外界關注的焦點也集中在模型能力上。而今年,幾乎所有大模型從業者都已意識到,大模型的發展不僅要仰望星空,更要腳踏實地。
然而,大模型的產業落地才剛剛開始,仍面臨著一系列挑戰,包括場景選擇、結果準確性、數據保密、落地成本、內容安全等。能否解決好這些問題,將直接決定大模型落地的速度和深度。
因此,在過去半年,各個大模型廠商的工作重點趨于一致,除了不斷提升基礎模型能力,還集中精力提升大模型的落地能力。而在眾多大模型廠商中,騰訊屬于跑得較快的代表。
去年9月,騰訊在發布混元大模型時就強調“產業實用”,截至目前,混元已經在騰訊內部600多個業務和場景中落地測試,同時,騰訊推出的行業大模型也已在金融、醫療、教育、汽車、能源等20多個行業落地。
由于積累了豐富的實踐經驗,騰訊能夠更準確地識別大模型落地的痛點。從ToB業務的角度來看,理解并解決這些痛點,將為騰訊帶來新的機遇。
5月17日,騰訊集團高級執行副總裁、云與智慧產業事業群CEO湯道生表示,“大模型的打造只是起點,把技術落地到產業場景,創造價值才是目標。騰訊將通過打造高性能的模型、高效率的工具平臺、高敏捷的場景應用、高可用的算力基礎設施,以及強安全的模型環境,構建離產業最近的AI。”
騰訊集團高級執行副總裁、云與智慧產業事業群CEO 湯道生
混元部分能力追平GPT-4
對大模型來說,由于Scaling law的存在,所以模型能力還尚未看到天花板。正因如此,討論大模型落地前提,是要保證基礎模型能力的領先性。
今年年初,騰訊混元完成了架構升級,從原先的Dense架構升級為MoE(Mixture of Experts)架構,并將模型擴展至萬億級參數規模。
一位大模型技術人士告訴21世紀經濟報道記者,MoE架構是一種神經網絡架構,它是通過多個專家(Experts)模型來處理輸入數據的不同任務。相比Dense架構,MoE架構有兩個優勢:一是模型參數量更大,可吞吐更多tokens;二是實際激活量較小,可顯著降低訓練推理成本。
而通過模型架構的升級,騰訊混元整體性能相比上一代Dense模型提升了50%,并且在多輪對話、邏輯推理和數字推理領域的表現也變得更加出色。
5月17日,騰訊集團副總裁蔣杰在騰訊云生成式AI產業應用峰會上表示,騰訊混元大模型經過持續迭代,目前整體性能居國內第一梯隊,部分中文能力追平GPT-4。
另外,隨著產業信息的載體多元化,模型的需求不僅僅是處理單純的文字,還需要處理圖片、視頻等多種信息。這也導致大模型的能力競爭,正在從單一的文生文,拓展到文生圖、文生視頻、圖生圖、圖生視頻等多模態能力。
在多模態方面,騰訊混元大模型目前也已取得不少成果。比如在生圖領域,騰訊混元文生圖基礎架構已全面升級至Sora同款的 DiT 架構,具備了多輪繪圖能力;在生視頻領域,騰訊混元支持文生視頻、圖生視頻、圖文生視頻、視頻生視頻等多種視頻生成能力,視頻生成長度可達16秒。
提供全鏈路AI開發工具支持
在對外輸出混元大模型的能力時,騰訊提供了多種途徑。
首先在騰訊云上,騰訊混元大模型提供了萬億參數hunyuan-pro、千億參數hunyuan-standard以及百億參數的hunyuan-lite等多種尺寸的模型服務,企業客戶及開發者可以根據自身需求直接通過API調用。
騰訊混元模型服務通過騰訊云對外開放
其中,hunyuan-standard最新上線了支持256k超長上下文窗口的長文模型,具備單次處理超過38萬字符的超長文本能力,在長文檔的閱讀理解和大規模數據分析方面展現出強大性能,能夠為金融、醫療、教育、出行等行業的專業人士提供強有力的工作支持,顯著提高工作效率。
湯道生表示,許多行業應用廠商在不同行業深耕多年,服務于業務的核心場景。他們在集成了混元大模型、TI-One等工具后,可以為客戶帶來產業升級的新動能,并打開新的創收機會。
5月17日,騰訊云也正式推出生成式AI生態計劃?;谠撋鷳B計劃,騰訊云將開放全量生成式AI產品,并為行業應用廠商提供PaaS、aPaaS、iPaaS等平臺及原子能力,還計劃培育千家生成式AI產品的專業服務伙伴。
5分鐘開發一款大模型應用
除此之外,為了進一步降低用戶使用門檻,5月17日,騰訊還推出三款PaaS產品——“大模型知識引擎”、“大模型圖像創作引擎”和“大模型視頻創作引擎”。