https://careers.upstage.ai/ko/o/194889

팀 소개
AI 기술로 비즈니스 문제를 해결하는 업스테이지 내 LLM Eval 팀입니다. 글로벌 프론티어 LLM 벤치마크를 추적하고, Solar의 기술 전략에 맞는 평가 체계를 구축하는 조직입니다. 기존 벤치마크의 한계를 보완하는 신규 평가셋, 한국어·한국 문화 특화 벤치마크, 실제 업무 시나리오 기반 Work Intelligence 벤치마크 개발이 핵심입니다.

주요 업무

  • LLM 성능 평가 벤치마크 및 툴킷 연구·개발
  • 평가 데이터셋, 메트릭 설계
  • Agent benchmark, Reasoning benchmark, Human alignment benchmark 구축
  • Solar failure/error benchmark 개발
  • 비용·자원 효율적인 평가 프레임워크 개발
  • 평가 결과 분석용 대시보드 및 리더보드 개발
  • 프론티어 모델과 Solar 평가·진단, 기술 로드맵 설계 참여

필수 요건

  • AI 모델 평가 기획 경험
  • 데이터 수집, 생성, 정제, 평가 기준 수립 경험
  • 최신 기술 동향을 빠르게 파악하고 적용하는 역량
  • 경력 무관

우대 요건

  • Agentic flow with tool use 설계·개발 경험
  • Failure analysis 기반 데이터 분석 역량
  • 복잡한 데이터 협업 규칙을 정리할 수 있는 시스템적 사고
  • 자체 평가 프레임워크를 구축할 수 있는 프로그래밍 역량
  • 가설·검증 중심 실험 설계 역량
  • 레슨런 공유 및 협업 커뮤니케이션 역량
  • Git 협업 경험
  • AI 모델 평가·분석 관련 국제 학회 출판 기록
  • ML/NLP 국제 학회 출판 기록
  • AI 모델링 경험
  • 컴퓨터공학 기초 지식
  • LLM 활용 제품 개발 또는 운영 경험

전형 절차
서류 전형 → 알고리즘 코딩테스트 → 과제 테스트 → 기술 인터뷰 1차/2차 → 컬처 인터뷰 → 최종 결과 발표. 전 과정 온라인

제출 서류

  • 이력서
  • 자기소개서
  • 포트폴리오