MLOps 研發工程師

更新於近3個月
1至3年
碩士
9.0 小時/天, 5 天/週
HK $40K-55K/月
工作亮點
Design and develop Large Language Model (LLM) training platform
Master's degree in Computer Science, Communications, Electronics or related
At least five years of solid experience in MLOps fields at supervisory level
工作描述

職責

受任者將被要求為香港理工大学人工智能學院(PAAI)下的生成式人工智能研究機構(RIGAI)(待成立)工作。受任者將被要求:

(a) 負責設計和開發大型語言模型(LLM)訓練平台,開發GPU資源池統一能力、訓練工作排程、推論加速和機器學習運作(MLOps)平台,以支持高效模型訓練迭代;

(b)領導建設以Kubernetes + NVIDIA GPU Operator為中心的GPU計算集群,包括節點規劃、資源管理、调度策略和容器運行時環境設置(Docker/Containerd);

(c)為NVIDIA集群构建軟體堆疊,包括CUDA、NVIDIA驅動程序、織物管理器、PyTorch分散式和NCCL通訊,以確保分散式訓練的高性能和穩定性;

(d)設計和實現訓練平台的關鍵基礎設施組件和工具鏈,包括訓練任務編排和自動化管道、統一基圖系統(CUDA + PyTorch)、資料載入和資料分發組件,以及訓練artifact管理和模型版本管理;

(e)與LLM團隊合作,支持在平台上的框架層(PyTorch Distributed、Megatron、SGLang)的分佈式訓練的實施、優化和效率提高;

(f)參與建立監控和可見性系統,覆蓋GPU指標、NCCL通訊、IB網路、儲存I/O以及Pod運行狀態,並建立警報策略;

(g)撰寫平台構建文檔、開發規格和自動化腳本和工具(Python/Go/Bash/Terraform)以提高工程一致性並交付品質;

(h)執行PAAI總監或其代表指派的其他任何工作。

資格條件

申請人應:

(a) 持有計算機科學、通訊、電子或其他相關學科的碩士學位或上學歷;

(b) 至少五年在監督層面上的MLOps領域的堅實經驗;

(c)對LLM訓練過程、多模態模型和AI代理有基本的理解;

(d) 熟悉整個訓練、推測和評估管道;

(e)精通主流語言如Python或Go,具備良好的工程技能、編程標準和後端開發能力;

(f)熟悉與LLM相關的訓練框架,如PyTorch、PyTorch分散式、SGLang和Megatron;

(g)了解Kubernetes及其GPU调度生態系統,包括GPU操作員、容器運行時、映像构建和管道工程流程;

(h)熟悉NVIDIA Hopper GPU架構、NCCL通訊、InfiniBand網路、GPU/NVLink拓樸和性能瓶頸;

(i) 熟悉HDFS、JuiceFS、GPFS或其他類似的大規模數據訪問系統,並理解訓練數據讀取瓶頸;

(j)具有基礎設施技術如Ray、消息隊列、後端存儲和API服務的經驗將是一個優勢;

(k)具有平台工程、培訓平台開發、MLOps或分散系統開發的經驗將是一個優勢;

(l)能夠將模型團隊需求轉換為工程解決方案;

(m)具有良好的溝通技巧;

(n)流利使用英語和粵語(書面和口頭)

經驗較少的監督將考慮工程師的職位。

查看更多
信息技術基礎設施
廣東話
英文
普通話
HR WU
香港理工大學人工智能高等研究院(PAAI)·HR
近7日活躍
公司簡介
香港理工大学(英语:The Hong Kong Polytechnic University,缩写:PolyU),简称理大,是一所坐落于香港九龙红磡的公立应用研究型大学 。其前身是1937年创立的香港官立高级工业学院,此后历经多个发展阶段,并在1994年升格为大学,成为八间大学教育资助委员会(教资会)资助的法定公立大学之一。理大是香港顶尖的大学之一,同时跻身全球三个排名之“世界百强大学”——包括QS世界大学排名、泰晤士高等教育世界大学排名(THE)及《美国新闻与世界报道》全球最佳大学排名(U.S. News)。其设立文件及章程参考香港立法会“第1075章 《香港理工大學條例》”。 香港理工大学人工智能高等研究院(PAAI)隶属于香港理工大学,设立于2025年4月1日。其成立仪式由创新科技及工业局局长孙东及理大校长滕锦光主持。新成立的研究院结合校内计算机科学、数学及数据科学等方面,冀加强国际合作,协助将香港建设成AI创新枢纽。
相似職位
回覆快
環速集團 Speedy Group
At least 3-4 years of relevant working experience
Hands-on experience in Java application framework, Spring or J2EE
Experience in HTNL5/ JavaScript/ SQL Reporting/ Linux system is highly preferable
$40K-50K/月
回覆快
環速集團 Speedy Group
IT application development, implementation, and maintenance
Good communication skills in Chinese or English
Criminal record check required
$17K-22K/月
春呈有限公司
具競爭力的薪酬待遇
提供醫療保險
靈活上班時間,支援遙距工作
$25K-30K/月
回覆快
JFE Consulting Limited
2+ years software engineering experience
Experience with Large Language Models (LLMs) and agentic frameworks
Knowledge of key agent patterns: planning, context management, guardrails
$25K-35K/月
GRIT
Bachelor's degree in Data Science, Statistics, Mathematics, Computer Science
1+ year of Python and MongoDB experience
Experience in education or technology sectors preferred
$20K-30K/月
請謹慎注意
申請工作時,請勿提供您的銀行或信用卡資料。
收藏