바로가기 메뉴
본문 바로가기
주메뉴 바로가기
해당 슬라이드는 키보드(TAB)키로 이동 후 키보드(화살표) 운용,작동 가능한 슬라이드 입니다.
소프트웨어(SW) 통계포털
소프트웨어(SW) 통계포털은 SW생산, SW수출, SW인력, 신SW산업 분야 등 소프트웨어와 관련된 다양한 통계를 제공하고 있습니다.
팝업존 이전 슬라이드
/
팝업존 다음 슬라이드
오늘하루 열지않기
통계서비스
주제별
간행물
소프트웨어산업실태조사
SW융합실태조사
인공지능산업실태조사
VR·AR산업실태조사
이러닝산업실태조사
정보
SW 분류체계
SW통계 유관 사이트
알림
공지사항
모바일 주 메뉴 닫기
전체메뉴
SNS
페이스북으로 공유
트위터로 공유
카카오스토리로 공유
네이버블로그로 공유
프린트
세미나
김기응 (KAIST 교수) Reinforcement Learning
강송희
역대연구원
날짜
2016.10.24
조회수
9136
공유
김기응 (KAIST 교수) Reinforcement Learning 프로그램에 대해 일시, 장소, 주제, 발제자, 참석자로 구성된 표
일 시
2016. 10. 24(월) 09:30~12:30
장 소
소프트웨어정책연구소 회의실 (판교글로벌R&D센터)
주 제
Reinforcement Learning
발 제 자
김기응 (KAIST 교수)
참 석 자
SPRi 연구진
기계학습은 비지도학습(Unsupervised Learning), 지도학습(Supervised Learning), 강화학습(Reinforcement Learning)으로 나뉘어짐
강화학습이란, 일종의 예측하는 학습 알고리즘이 피드백을 받아 학습하는 과정
(예제) Can you beat the bandit algorithms? : 환자에게 약을 투여하는 최적 전략을 계산
현재 Greedy, Posterior Sampling, UCB, ɛ(epsilon)-greedy 알고리즘 등이 알려짐
(문제) Multi-armed Bandits이란, 여러 가지의 액션(arm)을 보상이 최적이 되도록 계산하는 문제로 Stochastic bandits(Robbins, 1952)을 기반으로 함
Policy(Allocation Strategy)를 구현하는 Bandit 알고리즘을 누적 보상을 기준으로 성능 판단 - Lower Bound:
R
T
= Ω(ln T)
강화학습의 딜레마 : Exploration-Exploitation Dilemma(새로운 것을 선택할까, 제일 좋았던 것을 선택할까?)
강화학습 알고리즘의 종류
Add noize: ɛ-greedy의 경우 (1-ɛ)확률로 과거 경험에 비추어 가장 좋았던 것을 선택하고 ɛ 확률로 다른 것을 탐색
Optimism in the Face of Uncertainty : 불확실할 때는 낙관적으로 행동하는 알고리즘으로, 이 정책을 쓰는 UCB1(Auer et al, 2002)의 경우 Lower Bound를 만족하며, 알파고에서도 사용
이 외에도 Probability Matching 군, Lookahead Search 군 등이 있음
Contextual Bandits(Langford&Zhang 2008) : 프로파일(컨텍스트) 정보가 주어진 Bandit 문제
Yahoo의 개인화 뉴스 추천 시스템에 사용된 알고리즘으로 학습에 활용된 데이터셋이 공개되어 있어 비영리 단체의 경우 재활용 가능
Policy : π : S→1,···,K(a mapping), R
T
≤2T|S|KlnK (예: LinUCB 등)
General Model of Reinforcement Learning(Russell&Novig, 2014)가 제시됨
환경 -> 인지 -> 센서 -> 에이전트 -> 액션 -> 환경
목록