• 전체기사
    • 서울
      H
      13℃
      미세먼지 매우나쁨
    • 경기
      H
      12℃
      미세먼지 매우나쁨
    • 인천
      H
      13℃
      미세먼지 매우나쁨
    • 광주
      Y
      15℃
      미세먼지 매우나쁨
    • 대전
      H
      16℃
      미세먼지 매우나쁨
    • 대구
      Y
      20℃
      미세먼지 나쁨
    • 울산
      B
      20℃
      미세먼지 나쁨
    • 부산
      Y
      19℃
      미세먼지 나쁨
    • 강원
      H
      16℃
      미세먼지 매우나쁨
    • 충북
      H
      15℃
      미세먼지 매우나쁨
    • 충남
      H
      15℃
      미세먼지 매우나쁨
    • 전북
      Y
      14℃
      미세먼지 매우나쁨
    • 전남
      Y
      14℃
      미세먼지 나쁨
    • 경북
      Y
      19℃
      미세먼지 나쁨
    • 경남
      B
      19℃
      미세먼지 나쁨
    • 제주
      H
      15℃
      미세먼지 나쁨
    • 세종
      H
      15℃
      미세먼지 매우나쁨
2021-05-07 20:00 (금)
[정종기의 AI시대 저널리즘] 인공지능 학습용 데이터셋 성공적 구축, 혁신성장 가속화
[정종기의 AI시대 저널리즘] 인공지능 학습용 데이터셋 성공적 구축, 혁신성장 가속화
  • 정종기 칼럼니스트 jinsyero@
  • 승인 2021.04.30 15:27
  • 댓글 0
이 기사를 공유합니다

정종기 박사
정종기 박사

지금은 데이터를 기반으로 인공지능(AI)기술을 활용해 새로운 제품과 서비스를 창출하는 경제 시대이다. AI와 데이터는 전체 사업에서의 혁신 성장을 가속화할 수 있는 중요 요소이다. 

AI는 데이터가 없으면 무용지물이다. 그래서 AI가 스스로 인식, 이해하기 위해서는 AI 소프트웨어(SW)가 사물간 연관성을 이해할 수 있는 형태로 가공된 대규모 AI 학습용 데이터가 필요하다.

미국, 유럽 등 AI 선도국에서는 대학 및 글로벌 기업, 연구소를 중심으로 300여개 이상의 AI 학습용 데이터 셋 공유 및 확산하는 민간 중심의 선순환 생태계 조성이 활발하게 진행되고 있다. 

우리나라도 지능정보사회로의 패러다임 대 전환기를 맞아 4차 산업혁명의 성공이 고도의 인공지능 기술 확보 및 데이터와 인공지능 간 유기적인 융합에 달려있다고 판단하고, 인공지능 및 데이터의 가치와 중요성을 그 어느 때보다 강조하고 있다. 

이러한 추세에 맞춰 정부 주도 ‘데이터 댐’ 구축을 목표로 ‘디지털뉴딜’ 사업 등 다양한 데이터 기반 정책을 추진하고 있고, ‘데이터 댐’의 핵심 사업으로 대규모 인공지능 학습용 데이터를 구축하고 민간에 개방함으로써 인공지능 기반의 산업 생태계 확산을 추진하고 있다. 즉, 국가의 디지털 역량을 강화하기 위한 인공지능 학습용 데이터를 범국가적으로 모으고 있는 것이다. 

국내 중소기업, 벤처기업들은 AI 학습용 데이터를 자체 구축하기에 많은 시간과 비용이 소요되고 원천 데이터 확보가 어려움을 호소하고 있다. 규모가 작은 스타트업은 데이터 확보가 쉽지 않을 뿐만 아니라 데이터 가공에도 많은 비용이 소요되므로 정부 주도의 데이터 구축·보급 필요성이 더욱 강조되고 있다.

인공지능 학습용 데이터 구축을 위해서는 학습 임무정의, 데이터 획득, 데이터 정제, 데이터 라벨링, 데이터 검사 등 인공지능 학습용 데이터를 구축하는 일련의 활동들이 필요하다. 

인공지능 학습용 데이터는 인공지능 기술인 추론 및 기계학습, 지식표현 및 언어지능인 자연어처리, 시각지능, 컴퓨터 비전, 청각지능, 복합지능 등에 활용하기 위한 학습용 데이터이다. 대표적인 학습용 데이터는 한국어-영어 번역 말뭉치, 사물 이미지, 글자체 이미지, 인도(人道) 보행영상, 멀티모달 영상, 사람동작 영상, 안면 이미지, 위해물품 이미지, 질병진단 이미지, 이상행동 CCTV 영상 등이 있다.

위와 같은 인공지능 기술에 활용될 수 있는 인공지능 학습용 데이터를 구축하기 위해서는 데이터 구축의 필요성이 반드시 있어야 한다. 

인공지능 학습용 데이터 구축 시 고려 사항을 몇 가지로 정리하면 다음과 같다.

첫째, 데이터 종류 및 규모이다. 인공지능 학습용 데이터 구축 시 먼저 획득해야 할 데이터의 규모를 설정하게 된다. 이때 대상으로 하는 산업 분야 및 서비스에서 요구되는 수준과 사업기간과 획득에 드는 시간과 비용을 종합적으로 고려해 구축 규모를 선정해야 한다. 그리고 데이터 활용 분야를 고려해 구축되는 데이터의 어노테이션(Annotation) 타입을 정의한다.

어노테이션이란 데이터 라벨링 시 원천데이터에 주석을 표시하는 작업을 의미한다. 추가 부착되는 설명정보 데이터는 기능 목적에 따라 다양한 형태로 표현될 수 있으며 이러한 설명정보 표현방식을 지칭한다. 

둘째, 데이터 구축 프로세스 정의이다. 데이터 구축 목적 정의, 데이터 획득, 데이터 정제, 데이터 라벨링, 데이터 검사에 이르는 일련의 데이터 구축 프로세스를 사전에 정의하고, 각 프로세스에 따르는 이슈 및 검토사항 등을 도출한다. 데이터 구축 프로세스는 구축 단계별 주요 작업에 대해 서술하나, 순서도·표 등을 활용해 구조화해 구축 관계자 및 작업자들이 쉽게 이해할 수 있도록 한다. 

셋째, 데이터 획득 및 정제 방법이다. 인공지능 학습용 데이터 구축에 필요한 원시데이터 항목을 검토하고, 각 항목별로 데이터 획득에 필요한 정보(데이터 획득정보, 획득방법, 획득 단계에서 필요한 요건 등)들을 검토해 문서화 한다. 

원시데이터 대상 및 획득방법은 육하원칙(5W1H)에 따라 정의할 수 있다. 육하원칙(5W1H)의 핵심 내용은 What(측정대상, 획득 시 포함돼야 할 변수들), When(획득 기간, From, To), Where(획득장소 / 프로세스), Who(획득 담당자 / 획득하는 사람), How(획득 방법, 측정주기, 샘플 크기, 데이터 양식), Why(측정 목적 / 기대 결과)이다.

넷째, 획득 데이터 정제 방식이다. 획득 데이터를 정제하는 방식은 먼저 정제 프로세스를 수립하는 것이다. 어노테이션 단계에 들어가기 전에 학습용 데이터로 적합한 데이터를 선별하고 처리하는 정제 프로세스를 획득방법 별로 수립한다. 

데이터 정제는 도구(소프트웨어)를 활용해 정해진 규칙에 따라 제외 또는 변환하는 방법, 작업자가 직접 눈으로 확인해 검사하는 방법 등을 적용할 수 있다. 

이어 데이터 구축 목적, 데이터 유형, 도메인 특성에 따른 데이터 정제 기준을 수립한다. 텍스트 분량, 텍스트 문법의 정확성, 텍스트 내용의 적절성, 획득 주제와의 연관성 등을 고려해 부적절한 데이터를 필터링하거나 라벨링하기 적합한 형태 및 내용으로 수정한다. 

다섯째, 데이터 라벨링 작업이다. 원천데이터 내에서 어떤 항목들을 라벨링해야 하는지 대상과 범주를 먼저 정의하고, 원천데이터 내에서 데이터 구축 목적에 부합하는 내용을 최대한 반영할 수 있는 정보를 라벨링할 수 있도록 라벨링 대상 범위를 정의한다. 데이터 품질 및 구축 목적과 무관한 내용을 불필요하게 라벨링하는 사항의 존재 여부 등을 검토해 가능한 데이터 특성 식별 분류 체계에 맞는 것만을 라벨링 한다. 

인공지능 학습용 데이터셋을 구축하는 방법과 절차는 음성데이터, OCR 이미지 데이터, 영상 데이터, 사물 이미지 데이터셋 등도 앞에서 설명한 텍스트 데이터와 같은 방법으로 인공지능 학습용 데이터를 구축한다.

지금은 데이터를 기반으로 인공지능(AI)기술을 활용해 새로운 제품과 서비스를 창출하는 경제 시대이다. 데이터를 기반으로 AI를 가장 잘 활용하는 나라가 될 수 있도록 정부와 대기업 등 민간협업의 적극적인 투자로 대규모 데이터를 구축해 국내 중소기업, 벤처기업들에게 공개해야 한다. 국내 중소, 벤처기업들은 AI 학습용 원천 데이터의 확보가 어렵고, 데이터의 자체 구축과 가공에 많은 시간과 비용이 소요되기 때문이다. AI와 데이터는 우리나라의 전체 사업에서의 혁신 성장을 가속화 활 수 있는 중요 요소이고, 그 가치와 중요성은 그 어느 때보다 강조되고 있다.

<정종기박사, AI 비즈니스 전문가 1호 / 얼라이언스코리아 대표 / 한국외국어대학교 겸임교수>

오늘경제


관련기사

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.