機器學習平台工程師(GPU 叢集)

發布於02-10
1至3年
碩士
10.0 小時/天, 5 天/週
HK $34K-60K/月
工作亮點
GPU集羣與AI平台運維經驗
Kubernetes核心架構與雲原生技術
計算科學或相關學科本科以上
工作描述

職責範圍:
負責以 GPU 叢集為核心的機器學習及人工智能平台之設計、建設與日常運維,支援大規模分散式模型訓練及推理工作負載。參與雲原生 AI 基礎設施架構設計,建設及優化 Kubernetes 平台,負責 GPU 算力之統一排程與管理。深入理解並優化 Kubernetes 排程機制,包括拓撲感知排程、Gang 排程、優先級與搶占策略,以及彈性伸縮能力。透過 CRD、Operator、Webhook 等雲原生擴展技術,實現 AI 工作負載的自動化部署、運行及生命週期管理。
負責 GPU 資源配額管理、使用率監控及效能分析,支援多租戶環境下的算力分配及平台穩定運作;參與分散式系統及高速網絡環境(如 RDMA、NCCL)下之效能瓶頸分析與優化;為研究人員及工程團隊提供穩定而高效的 AI 計算平台支援。

入職要求:
計算機科學、工程或相關學科本科或以上學歷;具備機器學習平台、GPU 叢集或 AI 基礎設施相關實務經驗;熟悉 Kubernetes 核心架構、容器化技術及雲原生生態;了解分散式儲存、分散式訓練與推理框架(如 PyTorch、TensorFlow 等);具備良好 Linux 系統基礎,熟練 Python、Shell,具備 Go 語言開發經驗者優先;具備良好問題分析能力及溝通能力,能於複雜技術環境中獨立工作。

查看更多
信息技術基礎設施
廣東話
英文
普通話
HR WU
香港理工大學人工智能高等研究院(PAAI)·HR
近期活躍
公司簡介
香港理工大学(英语:The Hong Kong Polytechnic University,缩写:PolyU),简称理大,是一所坐落于香港九龙红磡的公立应用研究型大学 。其前身是1937年创立的香港官立高级工业学院,此后历经多个发展阶段,并在1994年升格为大学,成为八间大学教育资助委员会(教资会)资助的法定公立大学之一。理大是香港顶尖的大学之一,同时跻身全球三个排名之“世界百强大学”——包括QS世界大学排名、泰晤士高等教育世界大学排名(THE)及《美国新闻与世界报道》全球最佳大学排名(U.S. News)。其设立文件及章程参考香港立法会“第1075章 《香港理工大學條例》”。 香港理工大学人工智能高等研究院(PAAI)隶属于香港理工大学,设立于2025年4月1日。其成立仪式由创新科技及工业局局长孙东及理大校长滕锦光主持。新成立的研究院结合校内计算机科学、数学及数据科学等方面,冀加强国际合作,协助将香港建设成AI创新枢纽。
相似職位
最新
艾氪集團
Apply reinforcement learning in real industrial systems
Design agent-environment interaction systems
Background in reinforcement learning, agents, or decision systems
$4K-6K/月
漢陽科技
Design and develop software modules for robots
Familiar with ROS technical system
Proficient in Linux program design, C++ or Python
$25K-50K/月
回覆快
百奇星全球顶尖顾问
超越一線水平的薪酬
穩定的工作與生活平衡
全方位打造理想辦公環境
环球数科集团
博士学位,无需工作经验
全球前100大学STEM领域
5年技术管理经验优先
$60K-70K/月
請謹慎注意
申請工作時,請勿提供您的銀行或信用卡資料。
收藏