Artwork

Вміст надано 數位時代 Business Next. Весь вміст подкастів, включаючи епізоди, графіку та описи подкастів, завантажується та надається безпосередньо компанією 數位時代 Business Next або його партнером по платформі подкастів. Якщо ви вважаєте, що хтось використовує ваш захищений авторським правом твір без вашого дозволу, ви можете виконати процедуру, описану тут https://uk.player.fm/legal.
Player FM - додаток Podcast
Переходьте в офлайн за допомогою програми Player FM !

數位關鍵字163.如何打造本土語言模型?技術挑戰與實踐策略

26:59
 
Поширити
 

Manage episode 452713325 series 2904100
Вміст надано 數位時代 Business Next. Весь вміст подкастів, включаючи епізоди, графіку та описи подкастів, завантажується та надається безпосередньо компанією 數位時代 Business Next або його партнером по платформі подкастів. Якщо ви вважаєте, що хтось використовує ваш захищений авторським правом твір без вашого дозволу, ви можете виконати процедуру, описану тут https://uk.player.fm/legal.

從 OpenAI、Google 到 Meta,大型科技公司雖已投入大量資源發展大語言模型,但多以英語為主要訓練語言。對於中文、日文等非拉丁語系的語言來說,表現可能相對不理想。數位時代創新長黃亮崢 James 邀請到 Ubitus 優必達創辦人兼執行長郭榮昌 Wesley,深入探討打造東亞本土大語言模型的可能性與挑戰。
優必達於 2024 年 10 月入選日本經濟產業省 GENIAC(Generative AI Accelerator Challenge)計畫的重要里程碑。這項為期六個月的計畫將運用 256 張 NVIDIA H100 GPU,打造一個擁有 405B 參數的 AI 大語言模型。該模型將使用約 2000 億個文字進行預訓練,首先將特別針對觀光文化內容做最佳化,同時支援日文、中文、及韓文三種東亞主要語言。
大語言模型的訓練成本相當可觀。以 256 張 H100 GPU 的配置來看,單次訓練約需兩個月,根據雲端服務供應商(Cloud Service Provider, CSP) 的報價,每月的運算成本就接近百萬美金。考慮到實際開發可能需要多次訓練才能達到理想效果,再加上網路流量與資料儲存的額外支出,總體投入可能達到上千萬美金。
由於訓練資料需求量很大、算力成本高、不同專業應用的推論精確性要求不一致;目前最佳化大語言模型的訓練與推論有幾種技術策略:一是合成資料(Synthetic Data),讓大模型產生與真實資料相近的人造資料,在經過人工初檢、不改變統計特徵的情況下進行訓練;二是知識蒸餾(Knowledge Distillation),透過龐大的模型作為教練,讓小模型作學生,濃縮為參數較少、推論所需算力較可負擔的小版本;三是採用混合專家(Mixture of Experts, MoE)架構,結合多個領域專家小模型。這些策略能幫助在有限資源下實現更好的效能表現。
並非所有領域都需要 400B 等級的大模型。醫療、金融、法律等需要高度精確的領域,可能需要較穩定的大小模型搭配來確保準確性;而在遊戲、娛樂等容錯度較高的領域,則可以使用經過優化的小型模型,在確保實用性的同時降低運算成本。對於特定領域的應用,Wesley建議採用模型微調而非單純依賴 RAG 技術,以達到更好的效果。
--
⚡2024 Martech 行銷科技高峰會⚡限時優惠🔥
年度最強陣容、橫跨歐美亞觀點,趨勢、應用、品牌案例全解析,
讓行銷科技更具人性感知!限時優惠中!
立即報名》https://bit.ly/3YDe47k


Powered by Firstory Hosting
  continue reading

737 епізодів

Artwork
iconПоширити
 
Manage episode 452713325 series 2904100
Вміст надано 數位時代 Business Next. Весь вміст подкастів, включаючи епізоди, графіку та описи подкастів, завантажується та надається безпосередньо компанією 數位時代 Business Next або його партнером по платформі подкастів. Якщо ви вважаєте, що хтось використовує ваш захищений авторським правом твір без вашого дозволу, ви можете виконати процедуру, описану тут https://uk.player.fm/legal.

從 OpenAI、Google 到 Meta,大型科技公司雖已投入大量資源發展大語言模型,但多以英語為主要訓練語言。對於中文、日文等非拉丁語系的語言來說,表現可能相對不理想。數位時代創新長黃亮崢 James 邀請到 Ubitus 優必達創辦人兼執行長郭榮昌 Wesley,深入探討打造東亞本土大語言模型的可能性與挑戰。
優必達於 2024 年 10 月入選日本經濟產業省 GENIAC(Generative AI Accelerator Challenge)計畫的重要里程碑。這項為期六個月的計畫將運用 256 張 NVIDIA H100 GPU,打造一個擁有 405B 參數的 AI 大語言模型。該模型將使用約 2000 億個文字進行預訓練,首先將特別針對觀光文化內容做最佳化,同時支援日文、中文、及韓文三種東亞主要語言。
大語言模型的訓練成本相當可觀。以 256 張 H100 GPU 的配置來看,單次訓練約需兩個月,根據雲端服務供應商(Cloud Service Provider, CSP) 的報價,每月的運算成本就接近百萬美金。考慮到實際開發可能需要多次訓練才能達到理想效果,再加上網路流量與資料儲存的額外支出,總體投入可能達到上千萬美金。
由於訓練資料需求量很大、算力成本高、不同專業應用的推論精確性要求不一致;目前最佳化大語言模型的訓練與推論有幾種技術策略:一是合成資料(Synthetic Data),讓大模型產生與真實資料相近的人造資料,在經過人工初檢、不改變統計特徵的情況下進行訓練;二是知識蒸餾(Knowledge Distillation),透過龐大的模型作為教練,讓小模型作學生,濃縮為參數較少、推論所需算力較可負擔的小版本;三是採用混合專家(Mixture of Experts, MoE)架構,結合多個領域專家小模型。這些策略能幫助在有限資源下實現更好的效能表現。
並非所有領域都需要 400B 等級的大模型。醫療、金融、法律等需要高度精確的領域,可能需要較穩定的大小模型搭配來確保準確性;而在遊戲、娛樂等容錯度較高的領域,則可以使用經過優化的小型模型,在確保實用性的同時降低運算成本。對於特定領域的應用,Wesley建議採用模型微調而非單純依賴 RAG 技術,以達到更好的效果。
--
⚡2024 Martech 行銷科技高峰會⚡限時優惠🔥
年度最強陣容、橫跨歐美亞觀點,趨勢、應用、品牌案例全解析,
讓行銷科技更具人性感知!限時優惠中!
立即報名》https://bit.ly/3YDe47k


Powered by Firstory Hosting
  continue reading

737 епізодів

Усі епізоди

×
 
Loading …

Ласкаво просимо до Player FM!

Player FM сканує Інтернет для отримання високоякісних подкастів, щоб ви могли насолоджуватися ними зараз. Це найкращий додаток для подкастів, який працює на Android, iPhone і веб-сторінці. Реєстрація для синхронізації підписок між пристроями.

 

Короткий довідник