/채용공고/엘리스
엘리스

엘리스

인프라 시스템 엔지니어

근무지

서울 강남구

고용형태

정규직

경력

경력

마감일

상시채용

학력

학력무관

모집 분야

포지션인프라 시스템 엔지니어
고용형태정규직
근무지서울 강남구
급여회사 내규에 따름

[엘리스] 인프라 시스템 엔지니어


[모집기간]

채용 시 마감


[담당업무]

Linux 기반 서버 운영 및 표준 이미지 관리

-안정적이고 최적화된 Linux OS 표준 이미지를 설계하고 대규모 환경에 적용


OS 배포/패치 자동화 구현

-Ansible, SaltStack 등 IaC(Infrastructure as Code) 도구를 활용하여 OS 및 패치 배포 프로세스를 완전 자동화


GPU/CPU 서버 운영 및 Troubleshooting:

-AI 연산을 위한 고성능 서버의 런타임 환경 관리 및 복잡한 하드웨어/소프트웨어 장애 분석 및 해결


모니터링 및 로그 시스템 연동/고도화

-Prometheus, Grafana, ELK 등 Observability 스택을 구축하고 서버 인프라 상태를 실시간으로 시각화 및 분석


서버 장애 분석 및 HW 문제 대응

-발생한 장애의 근본 원인(RCA)을 분석하고, 벤더와 협력하여 하드웨어 문제에 대응하며 재발 방지책 마련


운영 절차 문서화 및 표준화

-모든 운영 지식과 프로세스를 코드 및 문서로 체계화하여 팀의 기술 부채를 줄이고 효율성을 높임


[자격요건]

-Linux 기반 시스템 운영 경력 3년 이상 (대규모 환경 경험 우대)

-Shell, Python 등 스크립팅 언어를 활용한 운영 자동화 경험

-서버 하드웨어, GPU, NIC(Network Interface Card)의 기본 구조 및 동작 원리에 대한 명확한 이해

-모니터링, 알림, 로그 시스템 구축 및 활용 경험


[우대사항]

-Ansible, Terraform 등 자동화 도구를 활용한 IaC(Infrastructure as Code) 기반 운영 경험

-KVM, VMware 등 가상화 환경 또는 Kubernetes 클러스터 운영 경험

-Ceph 또는 기타 분산 스토리지 운영 경험

-수십에서 수백 노드 규모의 서버 인프라 운영 경험


[채용공고]

인프라 시스템 엔지니어

엘리스 인프라팀을 소개합니다.

인프라팀은 AI 인프라의 새로운 기준을 직접 설계하고 구현하는 팀입니다. 국내에서 유일하게 AI PMDC(AI Portable Modular Data Center)를 자체 설계·구축·운영하는 기업으로서 ECI(Elice Cloud Infrastructure)와 AI PMDC를 기반으로 빠르고 안정적이며 유연한 AI 환경을 제공하며, 연구와 개발이 최적의 성과를 낼 수 있도록 지원합니다.

인프라팀은 국내 최초로 수랭식 B200 GPU를 InfiniBand 400G 네트워크로 연결한 초대형 클러스터 구축에 성공했습니다. AI 서버, Ceph 스토리지, 병렬 파일시스템, Kubernetes, 방화벽과 IPS, DDoS 대응, 그리고 PMDC의 물리적 인프라까지 하드웨어부터 소프트웨어, 보안, 네트워크, 데이터센터 설계까지 모든 계층을 직접 다룹니다.

팀에 합류한다면 AI 학습 환경을 위한 A100, H100, 그리고 다양한 NPU 서버까지 다루며, 100G급 서버 네트워크, 400G 스토리지 네트워크, 100G급 ISP 회선을 처음부터 끝까지 설계하고 운영할 수 있습니다. 수백 노드 규모의 GPU 클러스터를 직접 운영하고, SW(Ceph, Kubernetes), HW(InfiniBand)에 걸친 대규모 분산 인프라 설계 및 자동화, 글로벌 PMDC 프로젝트 참여도 경험할 수 있습니다. 

이런 스케일의 인프라를 직접 다뤄볼 수 있는 기회는 오직 엘리스그룹뿐입니다. 지금 지원하신다면 남이 만들어 놓은 인프라를 단순히 운영하는 사람이 아닌 AI 세대를 위한 새로운 인프라의 기준을 설계하는 팀의 구성원이 될 수 있습니다. 

엘리스 인프라 시스템 엔지니어는 어떤 역할을 하나요?

시스템 엔지니어는 수천 대의 GPU 서버가 유기적으로 작동하는 대규모 클러스터 환경을 구축하고 운영합니다.
단순한 서버 관리를 넘어, 수천 노드 규모의 인프라를 효율적으로 제어하기 위한 OS 프로비저닝, 보안 패치, 모니터링 시스템을 설계하고 자동화합니다.
AI 워크로드의 성능을 극대화하기 위해 리눅스 커널 및 시스템 설정을 최적화하고, 운영 프로세스를 코드로 구현(Infrastructure as Code)하여 대규모 인프라의 운영 표준을 수립하는 역할을 수행합니다.

🔍 주요 업무

  • Linux 기반 서버 운영 및 표준 이미지 관리
    안정적이고 최적화된 Linux OS 표준 이미지를 설계하고 대규모 환경에 적용

  • OS 배포/패치 자동화 구현
    Ansible, SaltStack 등 IaC(Infrastructure as Code) 도구를 활용하여 OS 및 패치 배포 프로세스를 완전 자동화

  • GPU/CPU 서버 운영 및 Troubleshooting:
    AI 연산을 위한 고성능 서버의 런타임 환경 관리 및 복잡한 하드웨어/소프트웨어 장애 분석 및 해결

  • 모니터링 및 로그 시스템 연동/고도화
    Prometheus, Grafana, ELK 등 Observability 스택을 구축하고 서버 인프라 상태를 실시간으로 시각화 및 분석

  • 서버 장애 분석 및 HW 문제 대응
    발생한 장애의 근본 원인(RCA)을 분석하고, 벤더와 협력하여 하드웨어 문제에 대응하며 재발 방지책 마련

  • 운영 절차 문서화 및 표준화
    모든 운영 지식과 프로세스를 코드 및 문서로 체계화하여 팀의 기술 부채를 줄이고 효율성을 높임

✅ 자격 요건

  • Linux 기반 시스템 운영 경력 3년 이상 (대규모 환경 경험 우대)
  • Shell, Python 등 스크립팅 언어를 활용한 운영 자동화 경험
  • 서버 하드웨어, GPU, NIC(Network Interface Card)의 기본 구조 및 동작 원리에 대한 명확한 이해
  • 모니터링, 알림, 로그 시스템 구축 및 활용 경험

⭐ 우대 사항

  • Ansible, Terraform 등 자동화 도구를 활용한 IaC(Infrastructure as Code) 기반 운영 경험
  • KVM, VMware 등 가상화 환경 또는 Kubernetes 클러스터 운영 경험
  • Ceph 또는 기타 분산 스토리지 운영 경험
  • 수십에서 수백 노드 규모의 서버 인프라 운영 경험

✨성장 기회

  • AI 인프라 운영 시스템 설계 참여
    초기부터 수백 노드 규모 인프라의 핵심 운영 시스템(OS, 배포, 모니터링) 설계 및 개선을 주도하며, 빠른 시간 안에 엔지니어링 리더십 경험 확보할 수 있습니다.

  • GPU 클러스터 및 HPC 아키텍처 전문가
    고성능 컴퓨팅(HPC) 환경에 최적화된 시스템 운영 및 튜닝 노하우를 습득하여 희소성 높은 기술 전문가로 성장할 수 있습니다.

  • 대규모 서버 자동화 설계 경험 확보
    단순 자동화를 넘어, 수천 대 서버를 관리하는 확장성 있는 자동화 프레임워크 설계에 참여하여 엔지니어링 역량 극대화할 수 있습니다.

이 공고와 비슷한 채용