데이터 큐레이션
데이터 큐레이션(Data curation)이란?
데이터 큐레이션은 데이터의 활용 가치를 높이는 모든 활동을 의미합니다. 즉 데이터 수집과 정제에서 어노테이션과 분류, 학습용 데이터 생성 등 데이터의 활용 가치를 높이기 위한 모든 활동을 의미합니다. 데이터 기반의 심층 분석과 기계학습을 위해서는 대규모 데이터의 확보뿐 아니라 기계가 읽고(readable), 학습하고(learnable), 의미 이해 가능한(understandable) 형태로 가공되어야 합니다. 데이터 큐레이션 서비스는 솔트룩스이노베이션의 데이터 품질관리와 기계학습 경험이 축적된 세계 최고 수준의 데이터 서비스를 제공합니다.
데이터 큐레이션 영역
인터넷 등 다양한 공간에서 텍스트, 이미지, 영상 등 원시 데이터 수집
DNN기반 이미지, 영상 인식 서비스와 자율 자동차 구현을 위한 고품질 어노테이션
수집이 불가능한 데이터의 휴먼 큐레이터의 데이터 구축과 정제, 가공
논문, 특허, 보고서의 그래프, 테이블, 설명문으로 부터 데이터 추출과 변환
20개 이상의 다국어와 지역별, 성별, 나이별 음성 인식과 합성을 위한 데이터
Seq2Seqrhk IRQA 기반의 심층 질의 응답 시스템 및 대화 엔진 구현을 위한 코퍼스 구축
RFP, 계약서 상의 리스크 데이터 자동 추출 및 분석
인공지능 고객 상담시스템, 심층 질의응답, NKU와 의미분석을 위한 지식베이스 구축
CT/PET 의료영상 질환 등 어노테이션, 각종 임상데이터 정제/가공/검수 등
데이터 큐레이션 서비스 특징
데이터 큐레이션 서비스는 인공지능 연구와 제품 개발을 통해 누적된 대규모, 고품질 데이터 수집, 필터링 및 어노테이션 노하우가 집약되어 있습니다. 특히, 세계 최고 성능의 데이터 수집 플랫폼인 ‘토네이도’와 자체 보유한 국내외 전문 큐레이션 센터, 인공지능 연구소의 기술 지원을 통해 세계 최고 수준의 데이터 큐레이션 서비스를 제공합니다.
학습 데이터의 품질
빅데이터에 대한 관심이 크게 증가하던 초기에는 소위 데이터양이 많으면 품질이 커버될 수 있다는 “양질 변환”이 가능하다 믿어졌었습니다. 그러나 글로벌 규모의 시장 및 경쟁자 분석, 위험 조기 감지, 투자 예측/관리 등의 대부분 심층분석에서는 데이터양만큼이나 그 품질의 중요성이 강조되고 있습니다. 특히, 딥러닝을 포함한 기계학습 기반 인공지능 시스템 개발에서는 대규모 데이터 확보뿐 아니라 99.9% 이상의 정확도를 가지는 초고품질 학습 데이터의 확보가 더욱 중요해지고 있습니다. (자율주행을 위한 이미지 어노테이션, 자연언어처리를 위한 말뭉치 등)
휴먼 인 더 루프(Human-in-the-loop)
상용 수준의 실용적 인공지능 시스템 구현을 위해서는 모델의 높은 정확도뿐 아니라 기계학습을 위한 총비용을 낮추는 것이 핵심 성공 요소가 됩니다. ‘Human-in-the-loop’는 기계학습 과정에 사람이 적절하게 개입하여 비용을 낮추고 품질을 향상하기 위한 방법론을 총칭합니다. 데이터 큐레이션 서비스는 ‘이중 나선 방법론’에 기반한 ‘Human-in-the-loop’를 구현하고 데이터 큐레이션 센터의 기계학습 전문가와 글로벌 큐레이션 센터 및 크라우드 소싱을 통해 최적의 기계학습 프로세스 구현을 지원하고 있습니다.
액티브 러닝(Active Learning)
이미지인식, 음성인식을 포함한 다양한 분류, 추천 등의 실용화된 기계학습(딥러닝) 모델들은 대규모, 고품질의 레이블링 된 학습 데이터가 필요합니다. 고품질 대규모 레이블 데이터를 확보하기 위해서는 막대한 비용이 듭니다. Active Learning(능동학습)은 레이블이 없는 대규모 원시 데이터로부터 교사학습에 최적화된 레이블 데이터를 반복적으로 확보하여 낮은 비용으로 지능형 시스템을 구현하기 위한 데이터 큐레이션 및 기계학습 방법입니다. 광주인공지능센터는 인공지능 시스템 구현을 위한 Active Learning 경험을 데이터 큐레이션 서비스에 반영하고 있습니다.