运维工程师

香港生成式人工智能研發中心有限公司·IT資訊科技/電子商務

可提供香港工作簽證
3-5年经验
學士
5 天/週, 辦公室工作
工作亮點
负责华为云GPU集群运维
熟悉Linux及GPU虚拟化技术
需支持大语言模型训练工作
工作福利
五天工作周
牙科計劃
醫療計劃
工作描述

崗位職責:

1、負責華為雲和自有机房GPU集群的日常运维管理,包括系統部署、監控、故障排查和性能優化。

2、設計和實現高效的集群資源管理和調度策略,滿足不同業務需求。監控系統運作狀態,快速響應並處理系統故障,保證系統的穩定性和可用性。

3、編寫和維護自動化运维腳本,提高运维效率。與研發團隊協作,參與GPU相關軟體的部署和最佳化。

4、編寫技術文檔,包括操作手冊、故障處理流程和系統優化報告。

5、跟進最新的GPU技術和產品動態,評估並引入新技術以提升集群性能。

工作要求:

1、熟悉Linux操作系统,具備豐富的命令行操作經驗。熟悉至少一種腳本語言,如Shell、Python或Perl,能夠編寫自動化运维腳本。

2、熟悉主流的監控工具(如Prometheus、Grafana等)和自動化运维工具(如Ansible、Puppet等)。熟悉至少一種GPU虛擬化技術,如NVIDIA vGPU或NVML。

3、具備良好的系統性能分析能力,能夠獨立進行故障排查和系統調優。

4、具備良好的團隊合作精神和溝通能力,能夠與不同部門協作解決問題。熟悉容器化技術,如Docker和Kubernetes。

5、熟悉 CI/CD 运维流程,熟練使用Gitlab、Jenkins、Docker、Harbor 等組件。能夠從 0 搭建持續交付的軟體環境。熟悉 NGINX、Tomcat 等多種 web 伺服器的建置部署和設定,滿足業務不同的需求;

6、熟悉常见的 http 协议,熟练配置 https 证书,熟悉网站在工信部进行备案的流程;熟悉使用缓存技术来加速网页的 访问,熟悉腾讯云 CDN 的配置,实现全球范围内的内容分发和加速。

7、具備 Web 計劃安全防護知識,能夠識別和 防範常見的安全威脅,並對威脅進行處理。

8、計算機科學、資訊技術或相關專業學士學位以上。

9、支持过大语言模型预训练、微调和评测工作的加分。

查看更多
Prometheus
Grafana
Python(編程語言)
Docker
Kubernetes
英文
普通話
HR Chen
香港生成式人工智能研發中心有限公司·HR
公司簡介
香港生成式AI研究與發展中心(HKGAI)於2023年10月成立,專注於生成式人工智慧技術的研究與發展。它是香港特別行政區政府關鍵計劃「InnoHK」下的研究中心之一。由香港科技大學校長郭毅教授領導,HKGAI與香港大學、香港中文大學、香港理工大学、香港城市大學以及國際知名的新加坡國立大學合作。HKGAI著重於開發一系列多模態、多語言基礎模型、垂直基礎模型,以及為香港社會量身定制的應用程序。此外,HKGAI還對生成式AI技術和應用的道德、安全和治理進行研究,為香港特別行政區政府提供諮詢和建議。HKGAI將致力於增強香港創新科技產業在推動大灣區經濟進步、培育香港AI人才和生態系統、提高香港在全球AI研究和應用領域的影響力方面的作用。 了解更多關於我們的產品,HKChat https://chat.hkchat.app/download.html?lang=tc&from=iam
1/2
2/2
相似職位
回覆快
集美印刷有限公司
Multinational company offering considerate welfare and benefits
English and Cantonese proficiency highly preferred
Fresh grad are welcome
$16K-18K/月
回覆快
德隆科技
灵活调整工作时间
参与系统管理与开发
计算机相关专业要求
$6K-12K/月
回覆快
最新
Pac-Fung Feather
CCNA certification or equivalent is required
Handle server setup, implementation and troubleshooting
2-3 years relevant working experience
$20K-30K/月
天薈國際創新科技
超時工作1.5倍時薪計費
清晰晉升路徑
歡迎IT相關應屆生申請
$14K-18K/月
請謹慎注意
申請工作時,請勿提供您的銀行或信用卡資料。
收藏