최근 deepseek가 엄청나게 저렴한 비용으로 거대언어모델을 학습시켜 화제였다. 그 비결에 RL이 있었다고 한다. 항상 RL 관련 이야기가 나오면 피했지만, 이제 엔지니어에게 CV, NLP, RL의 경계가 있을까 싶기도 하다. 이런 생각을 가지던 차 같은 생활관에 있는 탁서윤 상병님이 자신이 가진 책을 꺼내 보여주었다. 2019년 초, RL을 공부하려고 했을 때 인터넷에서 찾을 수 있었던 유일한 한국 자료가 팡요랩이었다. 이 책의 저자 노승은씨는 팡요랩 주인장이시다. 그땐 이해를 실패했던 내용을 이젠 이해할 수 있지 않을까 싶은 마음에 반갑기도 하고, 다시 이해해보고 한번쯤 나의 프로덕트에 적용해보고 싶다는 생각이 들었다. 계산신경과학과도 재미있는 접점을 만들 수 있을 것 같은 강화학습의 기초를 배워 두어야겠다.