1.?參與滴滴機(jī)器學(xué)習(xí)訓(xùn)練框架、推理框架的設(shè)計(jì)與研發(fā),服務(wù)于內(nèi)部各個(gè)產(chǎn)品線;
2.?參與機(jī)器學(xué)習(xí)分布式訓(xùn)練,多卡推理框架等底層組件的抽象與設(shè)計(jì),包括訓(xùn)練框架優(yōu)化,分布式網(wǎng)絡(luò)優(yōu)化等;
3.?支持大模型在滴滴內(nèi)部場景的業(yè)務(wù)落地。
任職資格:
1.?熟練掌握Linux環(huán)境下的C/C++與Python語言;
2.?熟練掌握至少一種機(jī)器學(xué)習(xí)框架(Tensorflow?/?PyTorch?/?MxNet?或其他自研框架)并熟悉設(shè)計(jì)思路及工作原理;
3.?有以下至少一項(xiàng)的背景知識與經(jīng)驗(yàn):cuda編程,NCCL,編譯器,高性能網(wǎng)絡(luò),并行計(jì)算,集群調(diào)度;
4.?熟悉DeepSpeed、MegatronLM等分布式訓(xùn)練框架者優(yōu)先;
5.?有軟硬件聯(lián)合設(shè)計(jì)的經(jīng)驗(yàn),能使用數(shù)學(xué)工具分析深度學(xué)習(xí)訓(xùn)練中的優(yōu)化算法優(yōu)先;
6.?有大模型訓(xùn)練推理調(diào)優(yōu)經(jīng)驗(yàn)優(yōu)先。