工作描述:
1.?參與滴滴機器學習訓練框架、推理框架的設計與研發(fā),服務于內(nèi)部各個產(chǎn)品線;
2.?參與機器學習分布式訓練,多卡推理框架等底層組件的抽象與設計,包括訓練框架優(yōu)化,分布式網(wǎng)絡優(yōu)化等;
3.?支持大模型在滴滴內(nèi)部場景的業(yè)務落地。
任職資格:
1.?熟練掌握Linux環(huán)境下的C/C++與Python語言;
2.?熟練掌握至少一種機器學習框架(Tensorflow?/?PyTorch?/?MxNet?或其他自研框架)并熟悉設計思路及工作原理;
3.?有以下至少一項的背景知識與經(jīng)驗:cuda編程,NCCL,編譯器,高性能網(wǎng)絡,并行計算,集群調(diào)度;
4.?熟悉DeepSpeed、MegatronLM等分布式訓練框架者優(yōu)先;
5.?有軟硬件聯(lián)合設計的經(jīng)驗,能使用數(shù)學工具分析深度學習訓練中的優(yōu)化算法優(yōu)先;
6.?有大模型訓練推理調(diào)優(yōu)經(jīng)驗優(yōu)先。