近日,百度CTO王海峰在《中國經濟大講堂》節目上表示,文心一言完全是百度自主研發的大語言模型。百度早在2019年就發布文心大模型ERNIE1.0,經過近4年研發和迭代,文心大模型已經形成了產業級知識增強大模型技術體系,包括自然語言處理、視覺、跨模態、生物計算、行業大模型,以及支撐大模型應用的工具平臺,蘊含了大量百度自主創新、并且在大規模產業應用中得到驗證的技術。其中有些關鍵技術已申請專利或者發表論文,還有一些相關技術也已開源開放。
關于 “文心一言”名字由來,王海峰表示,“文”是語言文字,“心”是用心理解,“文心”指致力于理解和運用語言文字的自然語言理解模型,同時也呼應了《文心雕龍》,寓意用雕縷龍紋一樣精細的功夫去研究語言文字的內涵和魅力;“一言”既有“一言為定、一言九鼎”的寓意,也有對人機之間“你一言我一語”流暢溝通的殷切期盼。文心“一言”既出,即可“一生二、二生三、三生萬言”。
同時,王海峰以老師教學生為例,解讀了大語言模型背后的技術原理。預訓練大模型像博覽群書的學生,記住了很多知識,但需要老師來指導如何運用,而有監督精調就是老師在教學生,將提煉出來的知識要點、典型范例等教給模型,讓它知道該如何符合人類規范、習慣和價值觀,去執行相應動作,生成相應內容。
文心一言訓練了獎勵模型,為每次輸出的結果打分并給到反饋,進行強化學習,隨著真實用戶的反饋越來越多,文心一言的效果會越來越好,能力越來越強。
此外,文心一言還融合了不同類型數據和知識,自動構造提示,包括實例、提綱、規范、知識點和思維鏈等,提供了豐富的參考信息,激發模型相關知識,生成高質量結果。
王海峰最后表示,未來,文心一言這類大語言模型會成為一個通用的賦能平臺,金融、能源、媒體、政務等各行各業,都可以基于文心一言實現智能化變革,提高效率,創造巨大的商業價值。
關于 “文心一言”名字由來,王海峰表示,“文”是語言文字,“心”是用心理解,“文心”指致力于理解和運用語言文字的自然語言理解模型,同時也呼應了《文心雕龍》,寓意用雕縷龍紋一樣精細的功夫去研究語言文字的內涵和魅力;“一言”既有“一言為定、一言九鼎”的寓意,也有對人機之間“你一言我一語”流暢溝通的殷切期盼。文心“一言”既出,即可“一生二、二生三、三生萬言”。

同時,王海峰以老師教學生為例,解讀了大語言模型背后的技術原理。預訓練大模型像博覽群書的學生,記住了很多知識,但需要老師來指導如何運用,而有監督精調就是老師在教學生,將提煉出來的知識要點、典型范例等教給模型,讓它知道該如何符合人類規范、習慣和價值觀,去執行相應動作,生成相應內容。
文心一言訓練了獎勵模型,為每次輸出的結果打分并給到反饋,進行強化學習,隨著真實用戶的反饋越來越多,文心一言的效果會越來越好,能力越來越強。
此外,文心一言還融合了不同類型數據和知識,自動構造提示,包括實例、提綱、規范、知識點和思維鏈等,提供了豐富的參考信息,激發模型相關知識,生成高質量結果。
王海峰最后表示,未來,文心一言這類大語言模型會成為一個通用的賦能平臺,金融、能源、媒體、政務等各行各業,都可以基于文心一言實現智能化變革,提高效率,創造巨大的商業價值。
轉載請注明出處。