Data · 2022 하반기
작성자
오**
대학
독일 TU9 대학
전공
산업공학
GPA
3.59/4.0
TOEFL
118점
자격증
Bert기반 광고 글 분류 모델 주제로 프로젝트를 진행했습니다. 광고임을 나타내는 하단 이미지를 수집하고 Tesseract OCR을 활용해 텍스트를 추출하는 코드를 작성했습니다. 초반엔 이미지가 작은 크기로 수집돼 텍스트 변환이 되지 않는 문제가 생겼습니다. 이를 해결하려 검색과 개발자 도구를 꼼꼼히 살폈고, xPath가 아닌 full xPath를 가져와야 함을 발견했습니다. 이후에도 동적 이미지인 경우 등 오류가 발생했고 끈기 있는 검색을 통해 원인을 찾아 원하는 데이터를 수집할 수 있었습니다. 데이터 라벨링 후 Bert모델 코드를 짜야 했습니다. 한국어에 적합한 KoBert모델의 Git 오픈 소스를 사용하려면 코드에 대한 이해가 선행돼야 했기에 공식 문서와 Stack Overflow를 활용해 라이브러리를 공부했습니다. 모델이 정상적으로 돌아가기까지 많은 오류가 발생했지만, 공부를 통해 확실히 해결하고 넘어갔고 성능이 높은 KoBert분류 모델을 구축해 A+를 받을 수 있었습니다.
첫 프로그래밍 수업은 가장 따라가기 힘든 과목이었습니다. 전공 책을 꼼꼼히 보며 작은 예제도 직접 따라하고 이해하려 노력했습니다. 이렇게 수업도 따라가기 어려웠던 파이썬 과목에서 선배들을 제쳐 2등을 했고, 프로그래밍은 가장 좋아하는 과목이 됐습니다. 이후 IT트랙 수강으로 지식을 쌓았습니다. 현장에서의 데이터 분석 업무를 경험하려 두 곳의 연구원에서 인턴으로 일하며, 배운 것과 실제 현장에서의 적용은 다르다는 걸 느꼈고 다양한 산업군을 아우르는 데이터 분석가가 되기 위해선 많은 경험과 지속적인 학습이 중요함을 배웠습니다. 제 강점은 도메인에 대한 분석 역량입니다. 대학 시절 꾸준히 공모전에 참가하며 세 번의 수상을 했습니다. 이는 본 산업을 이해하고 객관적인 자료를 토대로 기획을 했기 때문이라 생각합니다. 이런 강점을 바탕으로 LG 계열사뿐 아닌 외부 업체들의 개발 업무를 수행하는 LG CNS에서 산업과 개발자의 연결다리 역할의 데이터 분석가가 되겠습니다.