카카오 광고추천팀(ML) 인턴 합격 자소서

카카오 광고추천팀(ML) 인턴 합격 자소서

Q1. 프로젝트 수행이력
해당 프로젝트는 Upstage 사의 OCR API 를 이용하여 앱을 통해 명함 정보를 추출하는 프로젝트입니다. 저희가 API 를 통해 받은 정보는 BBOX 안에 잡힌 글자와 해당 BBOX 의 좌표값 뿐이었습니다. 그에 따라 뒤죽박죽으로 정렬되는 좌표값에 따라 Text Serialization 을 할 수 있는 BFS 기반 클러스터링 알고리즘을 적용하여 DBSCAN 기법보 다 더 좋은 클러스터링을 경험할 수 있었습니다. 일반적으로 명함에 있는 정보는 이름, 회사 명, 회사 위치, 직급, 이메일 등이 있을 겁니다. 저희는 클러스터링된 Text 들을 Rule-based 기반 정규표현식으로 이메일과 전화번호를 추출하였고 NER 데이터셋을 이용하여 학습한 T ext Classification 모델을 이용하여 회사와 위치를 추출, Rule based 와 오픈 라이브러리 를 결합하여 직급을 추출해낼 수 있었습니다. 모델은 KLUE-ROBERTa Large 모델을 활용 하였고 한국해양대 개체명 데이터를 Fine-Tuning 하였습니다.
앱 특성사 유저 경험이 중요하기에 속도면에서 어떻게 하면 이득을 볼 수 있을까 고민을 많 이 하였습니다. 저희는 명함 이미지를 좀 더 잘 인식하기 위하여 denoising, 이진화, 대비 향 상 그리고 반전 Augmentation 을 진행하였으며 총 4장의 이미지를 OCR API 와 Informa tion Extraction 태스크를 거치는 파이프라인을 설계했었습니다. 이 파이프라인을 결과를 보기까지 평균 16에서 17초가 걸렸으며 이는 유저에게는 너무 긴 시간
고품질 콘텐츠의 나머지 내용을 읽어보시겠어요?
