트레이딩 학습 방법

마지막 업데이트: 2022년 4월 18일 | 0개 댓글
  • 네이버 블로그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 트위터 공유하기
  • 카카오스토리 공유하기
하나의 시작 포트폴리오 값으로 세 개의 가능한 포트폴리오 값으로 연결되는 세 개의 액션으로 구성됩니다.
주식 가격이 바뀌면 “hold”가 다른 포트폴리오 가치로 이어질 수 있습니다.

트레이딩 학습 방법

나만의 투자 전략 실현을 위한 인공지능 퀀트 투자 트레이딩 학습 방법 학습법

알파고 이후 인공지능 기술은 제조, 의료, 교육, 게임, 보안 등 다양한 산업에 도입되었고, 머신러닝과 딥러닝을 기반으로 한 서비스가 생겨났다. 금융권도 인공지능이라는 날개를 달고 진화 중이다. 고객 대응, 자산 관리, 종목 분석, 주식 거래 등 지능형 시스템과 빅데이터를 트레이딩 학습 방법 활용하여 다양한 분야에서 폭넓은 서비스를 제공한다.

이 책은 주식 거래를 위한 자료 수집부터 퀀트 투자 전략과 머신러닝/딥러닝을 이용한 투자 전략까지 상세히 설명한다. 알고리즘 트레이딩에 대한 머신러닝과 딥러닝 방법의 한계와 가능성을 명확히 알려주고, 실전에서 활용 가능한 최신 모델링 기법을 알려준다. 예제 코드는 이해하기 쉽도록 짧고 간단하게 구성했다. 이 책의 내용을 잘 따라 하면 자신만의 투자 가설을 검증하고, 자신만의 투자 기법을 머신러닝 툴로 실현하며, 계량적 투자 전략을 구현하는 과정에서 만나는 문제를 해결할 수 있다.

머신러닝과 딥러닝을 활용한 투자 사례
금융 데이터 분석을 위한 넘파이, 판다스 활용법
파이썬으로 만드는 투자 전략과 주요 지표
금융 데이터를 이용한 전통 퀀트 전략 구현
머신러닝을 이용한 투자 전략 구현
딥러닝을 이용한 투자 전략 구현

출판사 서평

1990년대 개인 투자자는 대개 전광판에 있는 차트 하나에 의존해 투자했었다. 그 당시 증권가에 시스템 관리를 돕던 지인이 있었는데, 그분은 직접 빠르게 차트 데이터를 확인하고 투자할 수 있어, 전광판 차트에 의존하던 개인 투자자 대비 높은 수익률을 낼 수 있었다. 하지만 컴퓨터가 보급되어 일반인도 쉽게 차트를 분석하게 되면서 그동안 누려온 알파가 점차 사라졌다고 한다.

머신러닝도 마찬가지 아닐까? 머신러닝과 컴퓨터 과학 지식, 수많은 데이터로 무장한 헤지펀드가 훨씬 유리해 보일 수 있다. 하지만 데이터 민주화와 더불어 많은 유용한 오픈 소스가 공개되면서, 일반인도 마음만 먹으면 데이터와 편리한 기능을 제공하는 금융 라이브러리를 사용해 머신러닝 기반의 퀀트 전략을 구현할 수 있는 시대가 되었다. 지금 준비하지 않으면 늦을 수도 있다. ‘지금’이 바로 여러분의 시간이다. 부디 이 책을 통해 더 많은 사람들이 머신러닝 기반 투자 전략 개발에 관심을 갖고, 인공지능이 투자 금융에 미칠 파급력을 함께 고민하게 되기를 바란다.

일반 퀀트, 머신러닝 기반 계량 투자(퀀트)에 관심 있는 분
머신러닝을 실무(투자금융)에 적용해보고 싶은 투자자
금융 데이터에 관심이 많은 데이터 과학자, 학생, 일반인
4차 산업혁명 시대를 준비하는 금융업계 관리자
미국과 한국 금융업계에서 활용하는 머신러닝 알고리즘이 궁금한 분

머신러닝을 이용한 트레이딩 (#1 머신러닝이란?)

최근 알파고에 의한 인공지능의 관심 및 컴퓨터의 성능이 좋아지면서 많은 분야에 걸친 데이터에 기계학습(Machine 트레이딩 학습 방법 Learning) 및 딥러닝(Deep Learning) 기술이 적용되고 있다.

금융분야도 그중 일부로서 다양한 기계학습의 기법들이 적용되고 있지만 금융 시장 특성상 단기간에 다양한 요인들이 복합적으로 적용되면서 거래가 일어나기 때문에 다른 분야에 비해 좋은 성과를 못 내고 있는 실정이다. 또한 트레이딩 학습 방법 데이터들이 시간에 따라 서로 관련이 있는 데이터를 시계열 데이터라고 하는데 이러한 특성을 가진 데이터는 다른 데이터에 비하여 분석하기가 더욱 어려운 특성을 가지고 있다. 실제로 과거에는 사람이 금융모형 수식을 만들고 다양한 가정하에서 예측 및 분석을 하는 방식을 지향하였지만 최근에는 기계학습적 접근에 대한 트렌드의 변화가 일어나고 있으며 더 좋은 성과가 지속적으로 나타나고 있다.

이 블로그 시리즈에서는 기계학습을 이용한 투자에 대한 관점에서 글을 연재해 보려고 한다.

본격적으로 기계학습을 이용한 트레이딩(MachineLearning For Trading) 을 시작하기 앞서 트레이딩 학습 방법 우리는 머신러닝이 뭔지 이해해야 한다.

머신러닝은 글자 그대로 머신(Machine) + 러닝(Learning) 으로서 기계가 학습을 한다는 의미다.

그렇다면 구체적으로 기계가 학습한다는 것이 무엇을 의미하며 이 과정을 통해 어떻게 기계가 똑똑하게 변하는지 알아보도록 하자.

실제로 기계학습을 제대로 이해하기 위해서는 확률, 선형대수, 편미분 등 다양하고 깊은 지식들이 필요하지만 본 시리즈에서는 기계학습을 처음 배우는 사람들도 최대한 알기 쉽고 이해할 수 있게 접근하려고 한다. 따라서 많은 예와 비유를 사용하여 학술적인 정의와는 살짝 벗어날 수 있지만 기계학습이라는 개념을 다지기에는 훨씬 쉬울 것이다.

그렇다면 기계학습은 어떤 원리일지 생각해보자. 사실 그 직관적 원리의 출발은 우리가 초등학교 때 배웠던 함수에서부터 시작할 수 있다. 우리는 어린 시절 처음 함수라는 개념을 배울 때 다음과 같은 함수 상자 를 봤을 것이다.

그림 1. 함수 상자 (Function Box)

여기서 함수박스는 X라는 값을 넣어서 상자 안의 임의의 수식 처리를 거친 후 Y라는 결괏값을 내보낸다.

이때 우리는 이러한 함수 상자를 거치는 과정을 연역적 관점과 귀납적 관점 이 두가지 트레이딩 학습 방법 관점에서 바라보도록 하자.

첫 번째 연역적 접근 은 함수 관계식을 정의해놓고 여기에 X값이 들어오면 함수관계식에 맞는 Y값을 산출하는 것이다.

(연역법 : 이미 증명된 하나 또는 둘 이상의 명제를 전제로 하여 새로운 명제를 결론으로 이끌어내는 것을 연역법이라 함)

두 번째 귀납적 접근 은 함수관계식을 미리 정해놓지 않고 X라는 데이터들이 들어가서 나오는 Y 값들을 이용하여 역으로 함수식을 도출하는 것이다.

(귀납법 : 개별적인 특수한 사실이나 원리로부터 그러한 사례들이 포함되는 좀 더 확장된 일반적 명제를 이끌어내는 것을 귀납법이라 함)

X = 2가 들어갈 때 : a* X(2) + b = 8

X = 3이 들어갈 때 : a* X(3) + b = 11

연역적 방법으로 접근하면 Y=3X+2라는 수식을 이미 정의해놓고 X를 넣어 Y의 값을 알아내는 구조로 기존 금융모형식을 통한 접근이라고 생각하면 쉽다

반대로 귀납적 접근은 이렇게 X와 Y의 값들을 반복적으로 넣어 a = 3, b = 2라는 함수의 계수를 연립하여 찾을 수 있고(여기서 a와 b는 정해지지 않은 계수라고 하여 미정계수라고 함) 계수를 찾게 되면 함수관계식을 만들 수 있게 된다.

이렇게 함수 관계식을 파악하게 되면 우리는 Y 값을 모르는 새로운 X 값이 들어오게 되더라도 기존에 있는 귀납적으로 알게 된 함수 관계식을 바탕으로 해당 Y 값을 알 수 있게 된다.

즉, 기계가 학습한다, 기계학습을 한다는 말은 위의 두 번째 방식과 같은 데이터를 반복적으로 대입하여 함수를 만드는 방식인 귀납적 접근법 과 유사하며, 다양한 X(학습 데이터 or Training Data)들을 이용하여 함수의 미정계수(매개변수 or Hyper-parameter)들을 찾고 이렇게 미정계수가 정해지면 함수(결정평면 or Hyperplane)를 정의할 수 있다. 이렇게 함수가 만들어지면 우리가 새로운 X(검증 데이터 or Test Data)가 주어졌을 때 그에 맞는 Y 값을 예측할 수 있는 것이다.

주식 데이터 예제를 통한 적용

위의 방식을 실제 주식 데이터에 적용시켜 예를 들어보자,

Q. 내일의 주가를 알 수는 없을까?

2016년 1년 동안의 삼성전자의 과거 데이터인 일 단위 주가(일봉)들을 함수 상자에 넣어주자.

여기서 일봉은 X 데이터 역할을 하며 그다음날의 종가(Close Price)를 Y 값으로 짝지어 준다.

: 2016.01.01 종가(X 1 ) - 2016.01.02 종가(Y 1 ) -> 학습시작

2016.01.02 종가( X 2 ) - 2016.01.03 종가(Y 2 )

2016.12.30 종가(X t-1 ) - 2016.12.31 종가(Y t-1 ) -> 학습종료 -> 함수(결정평면) 형성

2016.12.31 종가(X t ) - ? (우리가 궁금한 값) (Y t ) -> 새로운 테스트 X값 대입 -> 형성된 함수에 대입 -> Y값 예측

이해의 편의상 휴장일이 없다고 가정하고 이렇게 함수 관계식을 세워 주면 12월 30일까지인 364개의 과거 학습 데이터를 바탕으로 함수의 미정계수들을 찾아줄 수 있다.

이를 바탕으로 우리가 마지막 날인 12월 31일 장이 마감했을 때 그날의 종가(X t )를 넣어준다면 그다음날의 Y 값을 과거 364개의 과거 학습 데이터를 바탕으로 (오늘 끝날 때 주가가 이 가격일 땐 그다음날의 가격은 이거였어! -> 364번 반복 학습) 그다음 날인 1월 1일의 끝날 때의 가격(Y t )을 알려준다. 물론 여기에서는 X값인 학습 데이터를 전날 종가인 단일 변수를 사용했지만 추후 실전 예제에서는 다차원 변수를 사용하여 실험을 해볼 것이다.

위와 같이 X와 Y 값들이 짝 지어져 Y 값들을 미리 알고 있는 경우를 머신러닝에서는 지도학습(Supervised Learning) 트레이딩 학습 방법 이라고 말한다. 반대로 Y의 값을 모를 경우 비지도 학습(Unsupervised Learning) , 또한 환경과의 상호작용으로 보상을 통해 진화하면서 학습하는 경우를 강화 학습(Reinforcement Learning) 이라고 한다. 자세한 내용은 연재가 진행되면서 자세하게 다룰 예정이다.

언뜻 보기에는 편리해 보이고 손쉽게 미래를 예측하여 머신러닝이 만능인 것처럼 보일 수 있지만, 위의 주식 예시는 직관적인 이해를 위한 것이고 깊게 들어가 보면 더욱 많은것을 고려해주어야 한다. 실제로는 함수 상자의 예시처럼 식 2개 미지수 2개처럼 단순하게 연립되지 않으며 값들이 딱 맞아떨어져 미정계수를 쉽게 알아내는 경우도 거의 없어 오차를 통해 학습하여야 한다. 또한 실생활의 데이터 셋은 더욱 많은 노이즈(Noise)를 포함하고 있어 전처리 등 다양한 작업이 필요하다.

실제 학습하는 과정에는 다양한 알고리즘이 적용될 수 있으며 하나의 알고리즘이 모든 분야의 데이터 문제를 해결하는 경우는 없다.

이 말을 머신 러닝에서는“ 세상에 공짜 점심은 없다(There is no such a free lunch) ”로 비유하기도 한다.

기계학습을 통한 투자는 분명히 높은 산이긴 하지만 절대 정복하지 못할 곳은 아니다. 어렵더라도 이 연재 글을 천천히 따라오면서 개념적 이해Python과 관련 라이브러리 등(Numpy, Pandas, Tensorflow, Keras, Scikit-Learn )을 통한 실습을 진행한다면 본인만의 알고리즘 및 변형된 새로운 접근법을 만들 수 있게 될 것이다.

[투자] 공부하는 사람

안녕하세요! 차트 공부를 시작하시려는 분들을 위한 포스팅입니다. 많은 분들이 재테크의 일환으로 주식이나 암호화폐 등의 투자를 하고 있습니다. 투자의 기본은 싸게 사서 비싸게 파는 단순한 절차를 가지고 있지만, 말처럼 쉽지가 않습니다. 현재의 가격이 싼 가격인지 아닌지 판단하기는 매우 어렵기 때문입니다. 비싼 가격이라고 생각했는데, 더 비싸진다면 싼 가격이었던 것이고, 싼 가격이라고 생각했는데, 더 싸진다면 사실 비싼 가격이었던 것처럼 싸다, 비싸다는 것은 굉장히 결과론 적인 이야기입니다. 그렇기 때문에 함부로 미래를 예측했다간 소중한 우리 돈을 지킬 수가 없습니다.

삼성전자 주식 일봉 차트

차트는 가격의 흐름과 시장 분위기를 시각적으로 제공한다는 점에서 투자시 반드시 확인해야 하는 것이라고 생각합니다. 차트를 참고하는 것을 넘어 이를 분석할 경우 향후 가격의 움직임을 예측한다던지, 예상치 못한 움직임에 대응할 계획을 미리 세워두는 것이 가능합니다. 소중한 나의 돈을 투자하는 일인데, 주변의 권유라던지 믿을 수 없는 뉴스 따위에 맡길 수야 없죠! 누구도 대신하여 나의 돈을 불려주지 않기에 스스로 공부하는 수밖에 없습니다.

차트 분석 효과 있나요?

차트 분석을 믿지 않는 투자자들도 많이 있습니다. 차트 분석이 의미가 있냐는 게시물들이 투자 관련 커뮤니티에 심심치 않게 올라오는 것을 볼 수 있습니다. 하지만 이런 글을 쓴 사람들은 차트에 대한 기본적인 이해조차 없는 사람이며, 본인의 매매 스타일과 맞지 않는 지표로 차트를 분석하고 있을 확률이 높습니다. 차트 분석의 효과성에 대해서는 아래 포스팅을 참고해 주시기 바랍니다.

[주식 투자] 차트를 꼭 봐야 하는 이유! 주식 투자 막 하지 마세요.

코로나19로 인해 소비가 줄어드니 갈 곳 잃은 돈은 투자 시장으로 몰리나 봅니다. 많은 사람들이 트레이딩 학습 방법 재테크의 방법으로 주식, 암호화폐 등의 투자를 선택합니다. 이 글을 보시는 방문자님도 시장에

차트 분석을 통하여 가격의 움직임을 예측할 수 있습니다. 하지만 이 예측은 빗나가기도 합니다. 빗나가지 않는 예측은 없기 때문입니다. 따라서 차트 분석은 가격의 흐름을 예측하되, 예측이 빗나갔을 경우 어떻게 대응할지까지 포함하고 있습니다. 주식 등의 투자로 손실을 보는 대부분의 사람들은 일단 사고, 오를때 까지 기다리기 때문입니다. 가격이 오르리란 법도 없는데 일단 사면 언젠간 오를 것이라는 확신이 있나 봅니다. 물론 많은 주식은 현재 가격보다는 언젠간 오를 것입니다. 하지만 그 언제가 언제가 될지는 아무도 모르는 것이며, 가격이 오를 것이라는 희망은 가격이 오르기 전까지는 계속 유효하므로 계속 기다릴 수밖에 없는 것입니다. 내가 할 수 있는 선택권이 기다리는 것 외에는 없다는 것이죠. 하지만 차트 공부를 시작하고 지식과 경험이 차츰 쌓이게 된다면 주식을 사더라도 오르기를 기다리는 것 외에 할 수 있는 선택이 생긴다는 것이죠. 소중한 나의 돈을 투자하는 일인데, 너무 쉽게, 무책임하게 투자해 버리는 사람들이 많이 있는 것 같아요.

이 카테고리에는 차트 학습에 권장되는 트레이딩 학습 방법 순서로 계속하여 포스팅할 계획입니다. 차트 공부를 시작하시려는 분들은 포스팅 번호에 따라 천천히 자기것으로 만들면서 꾸준히 학습하시길 바랍니다. 단, 차트 공부를 했다고 해서 투자의 고수가 될 거라는 기대는 애초부터 하시면 안 됩니다. 이론과 실전은 분명히 다르다고 말씀드리고 싶습니다. 하지만 이론 없는 실전은 백전백패가 될 것입니다.

트레이딩 학습 방법

몬스터위크

몬스터위크_mdr

시간에 맞춰 새로고침을 누르십시오.

05 일 남음 00 시 :00 분 :00 초 남음

퀀트 투자를 위한 머신러닝딥러닝 알고리듬 트레이딩 2/e 파이썬, Pandas, 텐서플로 2.0, Sciki

45 000 2개 구매

제휴사 할인혜택은 바로구매 시에만 적용됩니다.

도서 연관상품

광고를 구매한 상품으로 광고 입찰가
순으로 표시됩니다.

이 상품을 본 고객이 많이 본 다른 상품

슈퍼마트에 이런 상품도 있어요

발급받은 쿠폰이 적용된 가격은 결제 페이지에서 확인하세요.

지금 0 명 이 이 상품을 보는 중

일시적인 오류가 발생하여 페이지를 확인할 수 없습니다.
서비스 이용에 불편을 드려 죄송합니다.

안정적인 서비스 이용을 위해 앱 버전 업데이트가 필요합니다. 아래 버튼을 눌러 앱 업데이트를 진행해 주세요.

  • 최신 앱 업데이트하기

이미 구매하신 회원님의 주문은 유효합니다.
자세한 안내가 필요하시면 티몬 고객센터로 전화(1544-6240)
또는 1:1 채팅상담을 통해 문의 부탁 드립니다.

이미 구매하신 회원님의 주문은 유효합니다.
자세한 안내가 필요하시면 티몬 고객센터로 전화(1544-6240)
또는 1:1 채팅상담을 통해 문의 부탁 드립니다.

주소가 잘못 입력되었거나, 판매 종료가 되어 해당 상품을 찾을 수 없습니다.
입력하신 주소가 정확한지 다시 한번 확인해 주세요.

이 상품은 별도 지정된 회원에 한해
구매 가능한 상품입니다.

구매 가능 여부를 확인하기 위해 로그인을 해 주세요.

19세 이상만 조회/구매가
가능한 상품입니다.

청소년 보호를 위해 해당 상품은 로그인 및 성인 본인인증 후 조회/구매가 가능합니다.
로그인 후 안내에 따라 성인 본인인증을 해주시고, 비회원일 경우 회원가입을 해주세요.

딜 오픈 알림 등록 완료

알림 수신은 앱에서만 가능합니다.

앱 설정에 따라 알림 수신이 불가능할 수 있으며,
사전 공지 없이 일정 변경 또는 취소될 수 있습니다.

상호 (주) 티몬 대표 장윤석 사업자 정보 사업자 정보 주소 서울 강남구 압구정로 118 아리지빌딩 사업자등록번호 211-88-41856 통신판매업신고 제2013-서울강남-02403호 호스팅 서비스사업자 (주)티몬 E-mail [email protected] 고객센터 1544-6240 파트너센터 배송상품 1644-0552, 여행·O2O 상품 1644-0230 고객/파트너센터 운영시간 평일 09시~18시(점심시간 12~13시), 주말/공휴일 휴무

(주)티몬은 통신판매중개자로서 거래당사자가 아니며 입점 판매자가 등록한 상품, 거래정보 및 거래에 대하여 (주)티몬은 일체의 책임을 지지 않습니다.

(주)티몬 사이트의 상품/판매자 정보/쇼핑 정보/콘텐츠/UI 등에 대한 무단복제, 전송, 배포, 스크래핑 등의 행위는 저작권법, 콘텐츠 산업 진흥법 등 관련법령에 의하여 엄격히 금지됩니다. 콘텐츠 산업 진흥법에 따른 표기

트레이딩 학습 방법


DDPG(Deep Deterministic Policy Gradient)란 무엇인가?
(논문 참고 : https://deepmind.com/research/publications/deterministic-policy-gradient-algorithms/ )
continuous action domain을 가지 시스템에서 원하는 목적을 달성하도록 제어를 하는 알고리즘으로 actor-critic model-free policy gradient 방법을 적용하는 기술
Deep이라는 단어를 사용한 이유는, DQN과 같이 Actor와 Critic approximation function에 neural network를 사용하였기 때문이다.

DDPG의 의미
DQN이 가지는 큰 의미는 State/Observation space dimension이 매우 크더라도 신경망이 이를 처리하여 의미 있는 결과를 얻을 수 있음을 보여준 것이다. 물론 알고리즘의 안정적 수렴을 위해 스마트한 기술을 도입하긴 했지만 DQN은 action space는 크지 않는 경우를 대상으로 하였다. 그러나 실제적 일에는 action space가 연속적이거나 dimension이 매우 큰 경우가 많으므로, DQN과 같이 action-value function이 최대가 되는 action을 선택하도록 하는 Q-learning 알고리즘을 그대로 사용하려면 먼저 생각할 수 있는 방법이 action space의 discretization과 같은 편법을 사용할 필요가 있다. 이 논문에서는 이러한 문제를 해결하기 위해 neural network actor 및 critic을 채용하여 state space와 action space가 모두 큰 dimension 또는 continuous space일 때 사용 가능하도록 한 것이다.

DDPG Algorithm의 특징
이 알고리즘의 특징이 DQN Algorithm의 특징과 유사할수 밖에 없는 이유는 결국 neural network function approximator를 사용하게 되면 생길 수 있는 문제를 태생적으로 가질 수 밖에 없기 때문이다(너무 많은 패러미터들 가진 함수는 학습시키기 어렵다). 그러므로, 학습에 사용되는 sample은 iid(independently and identically distributed) 특징을 가져야 한다. 이를 위해 사용한 방법이 DQN의 replay buffer이다.

같은 맥락에서 action value network 학습을 위해 target network를 별도로 두는 방법도 역시 이용되었다. 그러나 이 논문에서는 약간의 변형을 시도하였다. 일명 ‘soft’ target update방법으로 아래와 같이 target network의 parameter들이 보다 ‘soft’하게 변화하도록 했다.

신경망 학습에서 state/observation에 포함되는 여러 값들의 절대값의 order of magnitude문제에 의한 학습 성능 저하를 막기위해 사용하는 batch normalization도 적용하였다.

마지막으로, continuous action space에서 exploration이 지속적으로 이루어지는 방법에 관한 것이다. DDPG에서는 off-policy 학습방법을 사용하기 때문에 기술적으로 구현이 매우 쉬운 장점이 있으며, 이 논문에서는 behavior policy에 noise process 을 도입하고, noise process로 Ornstein-Uhlenbeck process를 사용하였다고 밝혔다.

Stock Trading Strategy은 투자 회사에서 중요한 역할을 합니다. 그러나 복잡하고 역동적 인 주식 시장에서 최적의 전략을 얻는 것은 어렵습니다. 우리는 주식 거래 전략을 최적화하여 투자 수익을 극대화하기 위한 Deep Reinforcement Learning의 잠재력을 탐색합니다.

30 개의 주식이 우리의 주식으로 선택되며, 일일 가격은 훈련 및 거래 시장 환경으로 사용됩니다. 우리는 Deep Learning Agent를 훈련시키고 adaptive trading strategy을 얻습니다. Agent의 성과는 평가되고 다우 존스 산업 평균 및 전통적인 분 분산 포트폴리오 할당 전략과 비교됩니다. 제안된 Deep Reinforcement Learning은 Sharpe 비율과 누적 수익의 측면에서 두 개의 기준선을 능가하는 것으로 나타났습니다.

1. Introduction

수익성있는 Stock Trading Strategy는 투자 회사에게 필수적입니다. 자본 배분을 최적화하여 기대 수익과 같은 성과를 극대화하는 데 적용됩니다. 수익 극대화는 주식의 잠재적 수익 및 위험에 대한 추정치를 기반으로합니다. 그러나 애널리스트가 복잡한 주식 시장에서 모든 적합한 요인을 고려하는 것은 어려운 일입니다 [1-3].
하나의 전통적인 접근 방식은 [4]에서 설명한대로 두 단계로 수행됩니다.

먼저 주가의 기대 수익률과 주가의 공분산 행렬을 계산합니다. 포트폴리오의 고정 된 위험에 대한 수익을 극대화하거나 수익의 범위에 대한 위험을 최소화함으로써 최상의 포트폴리오 배분을 찾을 수 있습니다. 최상의 거래 전략은 최고의 포트폴리오 할당을 따라 추출됩니다. 그러나 관리자가 각 시간 단계에서 결정한 사항을 수정하고 예를 들어 거래 비용을 고려하기를 원할 경우이 방법을 구현하는 것은 매우 복잡 할 수 있습니다. 주식 거래 문제를 해결하기위한 또 다른 접근법은 Markov Decision Process (MDP)로 모델링하고 동적 프로그래밍을 사용하여 최적의 전략을 해결하는 것입니다. 그러나 이 모델의 확장 성은 주식 시장을 다루는 the large state spaces 때문에 제한적이다 [5-8].
위의 도전에 동기를 부여하여 복잡하고 역동적 인 주식 시장에서 최고의 트레이딩 전략을 찾기 위해 DDPG (Deep Deterministic Policy Gradient) [9]라는 깊이 보강 학습 알고리즘을 탐구합니다.

이 알고리즘은 크게 세 가지 주요 구성 요소로 구성된다 :
(i) actor-critic framework[10] – that models large state and action spaces
(ii) target network – that stabilizes the training process[11]
(iii) experience replay – 샘플 간의 상관 관계를 제거하고 데이터 사용을 늘립니다. DDPG 알고리즘의 효율성은 전통적인 분 분산 포트폴리오 할당 방법과 다우 존스 산업 평균 지수 (Dow Jones Industrial Average 1, DJIA)보다 높은 수익률을 달성함으로써 입증됩니다.
이 논문은 다음과 같이 구성됩니다. 섹션 2에는 주식 거래 문제에 대한 설명이 포함되어 있습니다. 3 장에서 우리는 주 DDPG 알고리즘을 운전하고 명기한다. 4 절에서는 데이터 전처리와 실험 설정을 기술하고 DDPG 알고리즘의 성능을 제시한다. 5 절에서 결론을 내린다.

2 Problem Statement

우리는 Markov Decision Process (MDP)로 주식 거래 프로세스를 모델링합니다.
그런 다음 maximization problem에 대하여 우리의 trading goal을 공식화합니다.

2.1 Problem Formulation for Stock Trading

하나의 시작 포트폴리오 값으로 세 개의 가능한 포트폴리오 값으로 연결되는 세 개의 액션으로 구성됩니다.
주식 가격이 바뀌면 “hold”가 다른 포트폴리오 가치로 이어질 수 있습니다.

본 연구에서는 거래 시장의 확률 적 및 상호 작용 성을 고려하여 그림 1과 같이 주식 거래 프로세스를 Markov Decision Process (MDP)로 모델화 하였다.

주식 시장의 역 동성은 다음과 같이 설명됩니다. 우리는 시간 t를 나타 내기 위해 첨자를 사용하고, 주식 d에 대해 가능한 행동은 다음과 같다.

모든 매입 한 주식은 포트폴리오 가치의 마이너스 잔고가되어서는 안된다는 점에 유의해야합니다. 즉, 일반성을 잃지 않고 첫 번째 d1 종목에 대한 판매 주문이 있고 마지막 d2 종목에 대한 구매 주문이 있다고 가정하고, [1 : d1] +에서 pt ​​[1 : d1] T를 만족해야한다고 가정합니다 [D-d2 : D] ≥ 0 일 때 bt + pt [D-d2 : D] T이다. 나머지 잔액은 bt + 1 = bt + pTt로 갱신된다.
그림 1은이 프로세스를 보여줍니다.
위에 정의 된 바와 같이, 포트폴리오 가치는 모든 보유 주식의 주식의 잔액과 합계로 구성됩니다. 시간 t에서 조치가 취해지고 실행 된 조치 및 주가 갱신에 따라 포트폴리오 값이 “포트폴리오 값 0″에서 “포트폴리오 값 1”, “포트폴리오 값 2″또는 “포트폴리오 값 3″으로 변경됩니다 “시간 (t + 1).
환경에 노출되기 전에 p0는 0시에 주가로 설정되고 b0는 거래에 사용 가능한 초기 자금입니다.
h와 Qπ (s, a)는 0으로 초기화되고, π (s)는 모든 상태에 대한 모든 동작간에 균일하게 분산됩니다. 그런 다음, Qπ (st, at)는 외부 환경과의 상호 작용을 통해 학습됩니다.

벨만 방정식에 따르면, 행동을 취하는 예상 보상은 보상 r (st, at, st + 1)의 기대치와 다음 상태 st + 1의 예상 보상을 더하여 계산됩니다. 수익률이 트레이딩 학습 방법 γ 배만큼 할인된다는 가정하에, 우리는


2.2 Trading Goal as Return Maximization

모델의 Markov 속성으로 인해 문제는 Qπ (st, at) 함수를 최대화하는 정책을 최적화하는 것으로 끝낼 수 있습니다. action-value 함수가 정책 결정자에게 알려지지 않았고 환경과의 상호 트레이딩 학습 방법 작용을 통해 학습해야하기 때문에이 문제는 매우 어렵습니다. 따라서 이 논문에서 우리는 이 문제를 해결하기 위해 Deep Reinforcement Learning 방법을 사용한다.

3 A Deep Reinforcement Learning Approach

우리는 투자 수익을 극대화하기 위해 DDPG 알고리즘을 사용합니다.
DDPG는 DPG (Deterministic Policy Gradient) 알고리즘 [12]의 개선 된 버전입니다.
DPG는 Q-learning [13]과 정책 구배 [14]의 프레임 워크를 결합합니다. DPG와 비교하여 DDPG는 신경 회로망을 함수 근사자로 사용합니다. 이 섹션의 DDPG 알고리즘은 주식 거래 시장의 MDP 모델에 대해 지정됩니다.

함수 근사를 수행하기 위해 신경 네트워크를 채택하는 DQN (Deep Q-network)을 사용하면 상태가 값 함수로 인코딩됩니다.
그러나 DQN 접근 방식은 작업 공간의 크기가 크기 때문에이 문제에 대해 다루기가 어렵습니다.
각 주식에 대한 실현 가능한 거래 행위는 개별 집합에 있고 전체 주식의 수를 고려하기 때문에 행동 공간의 크기는 기하 급수적으로 증가하여 “차원의 저주”[15]로 이어진다.
따라서 DDPG 알고리즘은이 문제를 해결하기 위해 상태를 결정적으로 동작에 매핑하는 데 제안됩니다.

DDPG와 마찬가지로 DDPG는 experience replay buffer R을 사용하여 전환을 저장하고 모델을 업데이트하며 경험 샘플 간의 상관 관계를 효과적으로 줄일 수 있습니다.


critic network 및 actor network가 experience buffer로부터의 transitions에 의해 업데이트 된 후, target actor network 및 target critic network는 다음과 같이 업데이트된다 :

4 Performance Evaluations

Alg 1에서 DDPG 알고리즘의 성능을 평가합니다.
결과는 DDPG 에이전트를 사용한 제안 된 방법이 다우 존스 산업 평균 및 전통적인 분 – 분산 포트폴리오 할당 전략보다 더 높은 수익을 달성 함을 보여줍니다 [16, 17].

4.1 Data Preprocessing

우리는 트레이딩 주식으로 2011 년 1 월 1 일의 다우 존스 30 주식을 추적 및 선택하고, 01/01/2009부터 2011/9/30까지의 과거 일일 가격을 사용하여 에이전트를 교육하고 실적을 테스트합니다. 이 데이터 세트는 Wharton Research Data Services (WRDS) [18]를 통해 액세스 한 Compustat 데이터베이스에서 다운로드됩니다.
우리의 실험은 훈련, 검증 및 거래의 3 단계로 구성됩니다.
훈련 단계에서 Alg. 1은 잘 훈련 된 거래 에이전트를 생성합니다.
그런 다음 유효성 검사 단계는 학습 속도, 에피소드 수 등과 같은 주요 매개 변수 조정을 위해 수행됩니다.
마지막으로 거래 단계에서 제안 된 계획의 수익성을 평가합니다. 전체 데이터 세트는 그림 3과 같이 이러한 목적으로 세 부분으로 나뉩니다.
2009 년 1 월 1 일부터 2014 년 12 월 31 일까지의 데이터를 교육에 사용하며, 2010 년 1 월 1 일부터 2010 년 1 월 1 일까지의 데이터를 유효성 검사에 사용합니다.
우리는 훈련 자료와 검증 데이터 모두에 대해 우리의 에이전트를 교육하여 사용 가능한 데이터를 최대한 활용합니다.
마지막으로 거래 데이터에 대한 에이전트의 실적을 테스트합니다. 거래 데이터는 2011 년 1 월 1 일부터 2018 년 9 월 30 일까지입니다. 거래 데이터를보다 잘 활용하기 위해 우리는 거래 단계에서 에이전트를 계속 교육하여 에이전트가 시장 역학에보다 잘 적응할 수 있도록 개선 할 것입니다.

4.2 Experimental Setting and Results of Stock Trading

우리는 DDPG agent가 훈련 된 일일 주가의 벡터로 30 개의 주식 데이터를 설정함으로써 환경을 구축합니다.
학습 속도 및 에피소드 수를 업데이트하기 위해 에이전트는 유효성 검사 데이터에서 유효성이 검사됩니다. 마지막으로 우리는 거래 데이터에 대해 에이전트를 운영하고 DJI (Dow Jones Industrial Average) 및 최소 분산 포트폴리오 할당 전략과 성능을 비교합니다.
결과를 평가하기 위해 최종 포트폴리오 값, 연간 수익률, 연간 표준 오류 및 샤프 비율이라는 네 가지 메트릭이 사용됩니다. 최종 포트폴리오 가치는 거래 단계의 마지막 시점의 포트폴리오 가치를 반영합니다. 연간 수익은 연간 포트폴리오 수익률을 나타냅니다. 연간 표준 오류는 우리 모델의 강건 함을 보여줍니다. 샤프 비율은 그러한 평가를 제공하기 위해 수익과 위험을 결합합니다 [19].
그림 4에서 우리는 DDPG 전략이 다우 존스 산업 평균과 최소 분산 포트폴리오 할당보다 훨씬 우월함을 알 수 있습니다. 표 1에서 알 수 있듯이 DDPG 전략은 연간 수익률 22.24 %를 달성하며 다우 존스 산업 평균 (Dow Jones Industrial Average)의 16.40 % 및 최소 분산 포트폴리오 할당의 15.93 %보다 월등히 높습니다. DDPG 전략의 샤프 비율 (sharpe ratio) 또한 훨씬 높으며, 이는 DDPG 전략이 다우 존스 산업 평균 및 최소 분산 포트폴리오 할당 모두를 상회하여 위험과 수익의 균형을 맞추는 것을 의미합니다. 따라서 결과는 제안 된 DDPG 전략이 벤치 마크 다우 존스 산업 평균 및 전통적인 분 – 분산 포트폴리오 배분 방법을 능가하는 거래 전략을 효과적으로 개발할 수 있음을 보여줍니다.

5 Conclusion

본 논문에서는 DDPG (Deep Deterministic Policy Gradient) 에이전트가 주식 거래 전략을 학습 할 수있는 가능성을 모색했다.
결과는 우리의 숙련 된 에이전트가 누적 수익률에서 다우 존스 산업 평균 및 최소 분산 포트폴리오 할당 방법보다 우월함을 보여줍니다.
Sharpe 비율에 대한 비교는 우리의 방법이 위험과 수익의 균형을 잡는 데있어서 다른 방법보다 훨씬 견고 함을 보여줍니다.
미래의 연구는 더 정교한 모델을 탐구하고, 더 큰 규모의 데이터를 다루고, 지능적인 행동을 관찰하고 예측 계획을 통합하는 흥미로운 일이 될 것이다.


0 개 댓글

답장을 남겨주세요