글을 작성하기에 앞서 앞으로의 ML 관련 내용은 Deep Learning에 입문하기 위한 최소한의 지식을 작성하는 것을 우선 목표로 합니다.
1. 머신러닝(Machine Learning)
머신 러닝에 관련된 대표적인 인용문이 있다.
Machine Learning : Fied of study that gives computers the ability to learn without being explicitly programmend.
- Arthur Samuel(1959)
1950년, 아서 사무엘은 기계 학습은 "명시적으로 프로그램을 작성하지 않고 컴퓨터에 학습할 수 있는 능력을 부여하기 위한 연구 분야" 라고 정의하였다.
뭐 위의 정의만 보면 컴퓨터에게 학습 능력을 부여하는 것이라고는 하지만 정확히 뭘 어떻게? 라는 의문이 생긴다.
그래서 조금 더 구체적으로 정의한 인용문은 다음과 같다.
A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on t, as measured by P, improves with experience E
- Tom Mitchell (1988)
머신 러닝의 대가 Tom Mirchell은
"어떤 프로그램이 T(Task)라고 하는 작업을 수행하고 P(Performance Measure)라고 하는 성능 측정 결과를 통해 E(Training Experience)라고 하는 경험을 축적, 성능 개선을 한다면 프로그램은 E라는 경험에서 합습한다고 할 수 있다."
라고 명시했지만 쉽게 풀이 하자면 "컴퓨터가 어떤 작업(T)를 하는데 있어서 경험(E)로부터 학습하여 성능에 대한 측정(P)을 향상시키는 학문"을 기계학습이라고 할 수 있다.
체커 게임을 예시로 경험(E)는 수많은 체커 게임을 하는 것이고, 작업(T)는 체커 게임을 하는 일이며, 성능 측정(P)는 다음 체커 게임에서 이길 확룔이 된다. 컴퓨터는 체커게임에서 수많은 게임(T)을 통해서 경험(E)으로부터 승리할 확률(P)을 향상시켰기에 기계학습에 대한 대표적인 예시가 된다. 예를 들어 우리의 이메일 프로그램이 우리가 스팸으로 지정한 메일들에 대해서 기계학습을 하여 스팸메일을 더 잘 필터링하는 것을 학습한다고 할 때, 여기서 작업(T)는 무엇이 될까? 바로 이메일들을 스팸인지 아닌지 분류하는 것이다. 사용자가 스팸인지 아닌지 분류한 이메일들을 검사하는 것은 경험(E)이 되고 올바르게 분류된 메일의 수는 성능 측정(P)가 될 것이다.
2. 머신 러닝 학습 분류(SAP 기준)
- 신경망
- 신경망(즉, 인공 신경망)은 사람의 뇌에서 뉴런이 작동하는 방식과 유사한 머신 러닝 유형이다. 병렬로 작동하는 여러 계층의 노드(또는 '뉴런')를 사용하여 일을 배우고 패턴을 인식하며 사람과 유사한 방식으로 의사 결정을 내리는 컴퓨터 프로그램이다.
- 신경망(즉, 인공 신경망)은 사람의 뇌에서 뉴런이 작동하는 방식과 유사한 머신 러닝 유형이다. 병렬로 작동하는 여러 계층의 노드(또는 '뉴런')를 사용하여 일을 배우고 패턴을 인식하며 사람과 유사한 방식으로 의사 결정을 내리는 컴퓨터 프로그램이다.
- 딥러닝
- 딥 러닝은 여러 층의 뉴런과 방대한 양의 데이터를 포함하는 '심층적인' 신경망이다. 이 고급 유형의 머신 러닝은 복잡하고 비선형적인 문제를 해결할 수 있으며 NLP(자연어 처리), 개인 디지털 도우미 및 자율 운전 자동차 등 혁신적인 AI를 담당한다.
- 딥 러닝은 여러 층의 뉴런과 방대한 양의 데이터를 포함하는 '심층적인' 신경망이다. 이 고급 유형의 머신 러닝은 복잡하고 비선형적인 문제를 해결할 수 있으며 NLP(자연어 처리), 개인 디지털 도우미 및 자율 운전 자동차 등 혁신적인 AI를 담당한다.
- 지도 vs 자율학습 *아래에서 더 자세히 설명
- 지도 학습 알고리즘은 올바른 정답이 포함된 데이터를 사용하여 학습이 수행된다. 데이터를 정답에 매핑하는 모델을 개발한 후 향후 처리를 위해 이러한 모델을 활용한다. 자율 학습 알고리즘은 올바른 정답이 주어지지 않은 상태로 데이터를 학습한다. 대량의 다양한 데이터 세트를 활용하여 자체적으로 개선된다.
- 지도 학습 알고리즘은 올바른 정답이 포함된 데이터를 사용하여 학습이 수행된다. 데이터를 정답에 매핑하는 모델을 개발한 후 향후 처리를 위해 이러한 모델을 활용한다. 자율 학습 알고리즘은 올바른 정답이 주어지지 않은 상태로 데이터를 학습한다. 대량의 다양한 데이터 세트를 활용하여 자체적으로 개선된다.
지도vs자율학습
- 지도학습 (Supervised Learning)
- 실제 출력값과 정확한 출력값을 서로 비교하여 오류를 검출하면서 알고리즘 학습이 이루어진다.
지난 데이터를 기반으로 앞으로 있을 이벤트를 예측하는 데 지도 학습이 가장 보편적으로 사용된다. 예를 들어, 신용 카드 거래의 사기성이나 보험 가입자의 보험금 청구 가능성 여부 등을 예측하는 데 효과적이다. - ex)
- Image labeling : learning from tagged images
- Email spam filter : learning from labeled (spam or ham) email
- Predicting exam score : learning from previous exam score and time spent
- Image labeling : learning from tagged images
- 비지도 학습 (Unsupervised Learning)
- 이 시스템에는 "정답"이 없기 때문에 알고리즘을 통해 현재 무엇이 출력되고 있는지 알 수 있어야 한다.
따라서 데이터를 탐색하여 내부 구조를 파악하는 것이 목적이다. 비지도 학습은 트랜잭션 데이터에서 특히 효과적이다. 예를 들어 유사한 속성의 고객 세그먼트를 식별한 후 그 유사성을 근거로 마케팅 캠페인에서 고객 세그먼트를 관리하거나 고객 세그먼트의 구분 기준이 되는 주요 속성을 찾을 수도 있다. - 강화 학습 (Reinforcement Learning)
- 로봇, 게임 및 내비게이션에 많이 이용된다. 강화 학습 알고리즘은 시행착오를 거쳐 보상을 극대화할 수 있는 행동을 찾아낸다. 이러한 유형의 학습은 기본적으로 에이전트(학습자 또는 의사결정권자), 환경(에이전트가 상호작용하는 모든 대상), 동작(에이전트 활동)이라는 세 가지 요소로 구성된다. 이 알고리즘의 목적은 에이전트가 일정한 시간 내에 예상되는 보상을 극대화할 수 있는 동작을 선택하도록 하는 데 있다. 따라서 강화 학습의 목표는 최선의 정책을 학습하는 것이라고 할 수 있다.
주요 부문에서의 머신러닝 사용 사례
- 제조
- 제조업체는 공장 센서 및 사물인터넷(IoT)에서 엄청난 양의 데이터를 수집하며 이는 머신 러닝에 이상적이다. 컴퓨터 시각 및 이상 감지 알고리즘은 품질 관리에 활용되며 사전 예방 유지보수 및 수요 예측부터 새로운 서비스 제공까지 모든 것에 머신 러닝 알고리즘이 활용된다.
- 재무
- 대량의 데이터와 이력 레코드가 제공되는 금융은 머신 러닝에 가장 적합한 산업이다. 주식 거래, 대출 승인, 사기 감지, 위험 평가 및 보험 인수에 알고리즘이 활용된다. 그리고 고객에 대한 '일상적인 자문'과 사용자 목표에 따른 포트폴리오 조정에도 활용된다.
- 의료
- 머신 러닝 알고리즘은 투자한 시간과 관계없이 연구 팀이나 의사들보다 더 많은 데이터를 처리하고 더 많은 패턴을 발견할 수 있다. IoT 기술을 이용해 환자의 건강 상태를 실시간으로 파악할 수 있는 웨어러블 장치와 센서 덕분에 의료 산업은 머신러닝이 빠르게 성장하는 주 무대가 되고 있다.
- 마케팅 및 영업
- 구매자가 좋아할 만한 상품을 추천하는 웹사이트도 머신러닝을 활용할 수 있다. 과거 구매자의 검색 및 구매 기록을 분석하여 상품 추천 및 홍보에 사용할 수 있다. 이렇게 데이터를 포착하여 활용해서 쇼핑 경험을 개별화(또는 마케팅 캠페인 실행)하는 추세가 산업의 미래로 다가오고 있다.
- 정부
- 공공의 안전을 담당하는 정부 부처와 공공 서비스를 제공하는 기관에서는 다양한 데이터를 가지고 있기 때문에 머신러닝으로 인사이트를 획득할 수 있는 기회가 특히 많다. 예를 들어, 센서 데이터를 분석하여 효율성을 높이고 비용을 절감할 수 있는 방법을 찾아낼 수도 있고 머신러닝을 이용하여 사기를 감지하고 개인정보 도용을 최소화할 수도 있다.
- 운송
- 수익성을 높이기 위해 이동 경로를 효율적으로 배치하고 잠재적인 문제를 예측해야 하는 운송 업계에서도 데이터를 분석하여 패턴과 트렌드를 찾아내는 기술이 핵심 기술로 대두되고 있다. 따라서 택배 업체, 대중 교통 서비스 및 기타 운송 기업은 머신러닝의 데이터 분석과 모델링 기술을 중요한 분석 솔루션으로 이용하고 있다.
데이터 마이닝, 머신러닝, 딥러닝의 차이점?
이 세 가지 방법은 모두 인사이트, 패턴 및 관계를 도출하여 의사 결정에 이용한다는 동일한 목적을 가지고 있지만 접근 방식과 해낼 수 있는 역할에 차이가 있다.
- 데이터 마이닝 (Data Mining)
- 데이터 마이닝은 데이터로부터 인사이트를 도출해내기 위한 많은 방법들의 상위 개념으로 볼 수 있다. 여기에는 전통적인 의미의 통계 기법과 머신러닝도 포함된다. 데이터 마이닝은 다양한 영역의 기법을 적용하여 이전에 데이터에서 발견하지 못한 패턴을 찾아낼 수 있는데, 여기에는 통계적 알고리즘, 머신러닝, 텍스트 분석, 시계열 분석 등 기타 다양한 영역의 분석 기법이 포함된다.
- 머신러닝(Machine Learning)
- 머신러닝의 주요 차이점은 데이터 구조를 파악할 목적으로 데이터에 이론적 분포를 적용한다는 점이다. 머신러닝은 데이터의 구조 유무를 탐색할 수 있는 컴퓨터의 능력을 기반으로 개발되었다. 머신러닝 모델에 대한 테스트는 새로운 데이터에 대한 검증 오차를 통해 이루어진다. 머신러닝은 반복적인 접근 방식으로 데이터를 통해 학습하기 때문에 손쉽게 자동화할 수 있다. 이후 데이터를 통해 패스를 반복하며 강력한 패턴을 발견하게 된다.
- 딥러닝(Deep Learning)
- 딥러닝은 향상된 컴퓨팅 파워와 특수한 유형의 신경망을 서로 결합하여 대용량의 데이터에서 복잡한 패턴을 학습한다. 오늘날 딥러닝은 기법은 이미지에서 개체를, 사운드에서 단어를 식별하는 최첨단 기술로 인정받고 있다. 그 밖에 연구기관들도 자동 언어 번역, 의학적 진단, 그 밖에 중요한 사회 및 비즈니스 문제 등 복잡한 과제에 이러한 성공적인 패턴 인식 기술을 적용하려는 모습도 보이고 있다.
" 일반적으로 사람이 1주일에 생성할 수 있는 양질의 모델은 1~2개에 불과하지만
머신러닝은 같은 기간에 수천 개의 모델을 생성할 수 있다."
Thomas H. Davenport, 분석 기술의 권위자
The Wall Street Journal 발췌
머신러닝 적용 사례
- 구글의 마젠타 프로젝트
- 2017년, 미국 구글 본사에서는 인간의 예술을 이해하고 이를 재창작하는 ‘마젠타 프로젝트’를 발표했다. 예술 창작 학습 AI 알고리즘을 설계하는 ‘마젠타 프로젝트’는 1천여 가지 악기와 30여만 가지의 음이 담긴 데이터베이스를 구축하고 이를 AI에 학습시켜 새로운 소리, 음악을 만들어냈다.
머신러닝이 인간의 고유 영역이었던 ‘예술분야’까지 섭렵할 미래가 곧 다가올지 모르는 현실을 여실히 보여준 사례이다. - 얼굴합성 영상기술
- 최근에는 머신러닝의 한 분야이면서도 더 앞서 나간 ‘딥러닝’을 활용한 얼굴합성 영상기술이 등장했다. 지난 7월, 대화형 인공지능 스타트업 머니브레인은 ‘딥러닝 얼굴합성 기술’로 새롭게 창조한 문재인 대통령 영상을 선보였다.
얼굴 특징 추출과 피부합성, 감정표현 등 첨단기술을 적용하고 영상과 음성을 결합해 훈련 과정을 거쳐 실제 사람을 닮은 AI 영상을 제작한 것이다. - 인공지능 앵커는 기자들이 뉴스 기사를 입력하면 인공지능이 앵커의 목소리와 제스처로 똑같이 말할 수 있는 기술이다. 인공지능 앵커를 통해 TV 뉴스의 제작 효율을 높이고 비용을 절감하며, 긴급 보도 시 관련 영상을 빠르게 만들 수 있다는 장점까지 있다. 업계 관계자는 얼굴합성 기술을 이용해 향후 인공지능 뉴스뿐 아니라 엔터테인먼트, 커머스 분야까지 확대 제공할 예정이라고 전하기도 했다.
- 사람의 음성을 알아서 녹취하다
- 머신러닝이 이룩한 또 다른 성공 사례로는 약 95% 정확도를 자랑하는 녹취타이핑 서비스가 있다. 한국의 액션파워라는 기업은 지난 4월 음성을 그대로 받아써주는 ‘다글로’를 출시했다. 자체 개발 기술로 정확도가 최대 95%에 이르는 다글로는 가장 빠르고 쉽게 메시지를 전달할 수 있는 방법인 ‘음성’을 글자로 입력해주는 서비스다.
- 60~70%의 정확도를 가진 구글 음성인식 텍스트 변환 서비스보다 훌륭한 성과를 보였다. 기자부터 애널리스트, 속기사, 일반 회사원들까지 인터뷰나 미팅에서 나온 녹음 자료를 손쉽게 정리할 수 있게 된 것이다.
- 머신러닝으로 구현하는 배터리 효율
- 얼마 전, 아이폰11 시리즈에는 iOS 13이 적용되었다. 여기에는 머신러닝을 기반으로 한 배터리 최적화 기능이 탑재되어 있는데 이는 배터리 상태를 파악하고 배터리의 노화를 늦추는 기능이다. 리튬이온배터리는 충·방전을 반복하면 수명이 짧아지며, 100% 충전은 배터리 노화를 앞당기는 것으로 알려져 있다.
- 평소 배터리 잔량을 40-80% 수준으로 유지하면 더 오래 사용할 수 있다. 이에 iOS 13에 탑재된 ‘최적화된 배터리 충전’ 옵션은 머신러닝을 통해 사용자의 사용 습관을 학습하고 충전 용량을 결정한다. 전에는 충전 케이블 연결 시, 무조건 100% 충전이 되었던 반면에 옵션이 활성화되면 일단 80%까지 충전이 되고 나머지는 사용자가 아이폰을 사용할 때 충전이 되는 방식이다.
🔗 http://media.fastcampus.co.kr/knowledge/data-science/ai2019/ 기사 발췌
머신러닝의 중요성
데이터 분야가 성장하면서 모든 산업군에서 머신러닝의 활용도와 중요도는 높아지고 있다. 기업들은 주요 의사 결정을 데이터 기반으로 하기 시작했고, 이에 데이터를 다루고 처리하는 사람은 점점 사회에서 중요한 입지를 꿰차고 있다. 누군가는 진작에 흐름을 파악하고, 데이터 전문가의 길로 들어섰다.
테리 세즈노스키 USCD 명예교수는 "데이터는 새로운 석유"라며 "하지만 데이터라는 석유를 정제할 수 있는 머신러닝 없이는 테라급 데이터가 있어도 무용지물"이라고 머신러닝의 중요성을 강조했다.
🔗 https://www.zdnet.co.kr/view/?no=20181129153613 기사 발췌
※ 앞으로 관련 포스팅은 단어 자체에 링크를 달거나 글 하단에 모아둘 예정이다.
관련 포스팅
1. Machine Learning 이란?
참고 포스팅
mangkyu.tistory.com/31?category=767742#recentEntries