알고리즘 훈련은 자율주행 기술의 안전 주행 능력을 극대화하기 위한 필수 조건 중 하나다. 실제 주행 현장에 나가기 전 주행 현장에서 마주하고 있는 다양한 상황을 담은 데이터를 활용해 적절한 대처 방법을 완벽하게 학습해야 한다. 그런데 실제 주행 데이터 대신 다른 데이터를 이용하면 어떨까.
영국 일간 가디언이 합성 데이터를 이용해 차량 알고리즘을 훈련하는 스타트업이 증가하는 추세라고 보도했다. 모두 운전자가 졸음을 느끼는 상황을 감지하는 데 활용하는 가짜 인간 아바타를 대량 생성하는 등 이른바 가짜 데이터로 차량 인공지능(AI) 시스템을 훈련한다.
대표 기업인 신테티스 AI(Synthesis AI)와 데이터젠(Datagen) 모두 합성 데이터 생성 과정에 상세한 얼굴 스캔 결과와 센서로 포착한 움직임 데이터 등 전신 3D 스캔 이미지를 활용한다. 이후 여러 각도에서 변경해 인간 아바타의 3D 이미지 수백만 개를 생성한다. 데이터는 시뮬레이션 상황에 따라 다양한 행동을 보이는 비디오 게임 캐릭터와 같은 모습을 구현한다.
만약 운전자가 졸음을 느끼는 상황을 감지하는 데 활용할 합성 데이터를 생성하고자 한다면 모션 캡처와 3D 애니메이션, 기타 비디오 게임 및 애니메이션 영상 제작 기술로 졸음을 느끼는 운전자 아바타를 제작해 졸음운전 예방에 적합한 데이터를 완성한다.
합성 데이터 사용 시 기존 딥러닝 알고리즘의 복잡한 문제를 다수 줄일 수 있다. 일반적으로 기업은 자율주행 기술 알고리즘을 훈련할 때 다량의 현실 세계 데이터를 처리한다. 이때 영상은 AI가 자동 분류하지 않는다. 저임금 노동자가 모든 영상을 하나씩 확인하고 주어진 조건에 따라 분류한다.
반면 합성 데이터는 훈련 데이터 처리 및 분류 과정에 소요되는 시간과 비용을 줄일 수 있다. 게다가 현실세계 데이터가 유색인종 등 특정 인구집단의 행동과 얼굴인식 능력이 현저히 낮다고 입증된 사실을 고려하면 합성 데이터는 AI 개발 과정의 해묵은 고민인 편견 문제 제거에 도움이 될 수 있다.
그동안 AI 차별이나 편견 문제가 꾸준히 제기된 주된 이유 중 하나는 소수민족 집단의 데이터가 현저히 적었기 때문이다. 이에 데이터젠 등 합성데이터 제작기업은 그동안 소외된 집단의 특성을 담은 캐릭터로 합성데이터를 생성한다. 즉 소수민족 등 소외집단의 데이터와 나머지 집단의 데이터 격차를 좁히면서 정보인식률 차이를 좁힐 수 있을 것으로 기대된다.
그러나 자동차 업계에서는 합성 데이터를 자율주행 기술의 정확도와 안전 향상에 활용하는 것이 가장 중요하다. 기존 접근법은 운전 영상을 장시간 촬영해 딥러닝에 주입한다. 변수가 없는 일반적인 상황에서 상당히 원활한 도로 주행이 가능한 차량을 제작하는 데는 큰 문제가 없었다.
그러나 자동차 업계가 오랜 기간 어려움을 겪은 부분은 수백만 시간 분량의 데이터에서도 찾아보기 힘든 예상치 못한 변수 대응 능력이다. 주행 중인 차 앞으로 갑자기 사람이나 반려동물이 달려들 때나 반대편 차량이 운전자를 향해 달려와 충돌 위험이 발생할 확률이 높은 상황 등을 언급할 수 있다.
합성 데이터는 예상치 못한 상황을 제한 없이 생성할 수 있다. 웨이모는 지난해 미국 온라인테크 매체 더버지와 인터뷰에서 현실 세계 주행 데이터는 불과 2,000만 마일을 보유했지만 총 150억 마일의 가상 시뮬레이션 기반 주행 데이터를 생성했다.
이 때문에 실제로 웨이모(Waymo), 크루즈(Cruise), 웨이브(Wayve) 등 자율주행차 개발사들이 자율주행 기술 훈련을 위해 현실 세계 데이터뿐만 아니라 가상 세계 시뮬레이션을 담은 데이터에도 의존하는 추세다.
https://cms.codingworldnews.com/news/articleView.html?idxno=10592 알고리즘 훈련은 자율주행 기술의 안전주행 능력을 극대화하기 위한 필수 조건 중 하나다. 실제 주행 현장에 나가기 전 주행현장에서 마주한 다양한 상황을 담은 데이터를 활용해 적절한 대처방법을 완벽하게 배움…cms.codingworldnews.com #자율주행차 #자율주행기술 #합성데이터 #알고리즘 #AI #인공지능