Unity ML-agents Project Repository of RLKorea

Python 14.32% C# 80.44% Objective-C 0.21% ShaderLab 0.66% Objective-C++ 0.12% HLSL 0.32% ASP 2.71% Dockerfile 0.06% CSS 0.86% HTML 0.04% Jupyter Notebook 0.22% Batchfile 0.04%

unity_ml_agents's People

Contributors

Stargazers

Watchers

unity_ml_agents's Issues

pip install agents==0.8.1 오류

안녕하세요 이번에 책을 사게 되어 열심히 프로젝트를 따라하려고 하는 초보자 입니다.

오류가 발생해서 문의 드립니다.
ERROR: Cannot uninstall 'pywin32'. It is a distutils installed project and thus we cannot accurately determine which files belong to it which would lead to only a partial uninstall.

다 설치 되는데 저기서 에러메세지가 뜹니다. 어떻게 해결하면 될까요?

Pong Goal object 관련 질문

질문드리기에 앞서 저번 질문 친절하게 답변해 주셔서 감사합니다.
다름이 아니라 이번에는 Pong 환경에서 아래 jpg를 보시다시피 파란색 쪽(GoalA)는 정상적으로 작동을 하는 반면에
빨간색 쪽(GoalB)는 골대에서 튕겨져 나오면서 속력이 줄어듭니다. 어떻게 해결해야 할까요?

(※ 스크립트 코드는 github에 올려주신걸 사용했기 때문에 따로 문제될건 없을것 같습니다)

책 2장 ML-Agents 3DBall 예제를 돌리는데, Unity 실행되지만 아무런 반응없이(공은 굴러가고) , python에서 학습시 연결오류가 발생합니다.
[환경]
Windows, Unity 2019.1.14f1, python 3.6, mlagents 0.8.1,mlagents-envs 0.8.1
[오류]
env = UnityEnvironment(file_name=env_name)
==>
UnityTimeOutException: The Unity environment took too long to respond. Make sure that :
The environment does not need user interaction to launch
The Academy's Broadcast Hub is configured correctly
The Agents are linked to the appropriate Brains
The environment and the Python interface have compatible versions.

No episode was completed since last summary

When I start training my drone I'm having this issue like it is not calculating reward for drone agent.

시각적 관측 여러개 사용 및 시각적 관측 + 수치적 관측 복합 사용 질문건

안녕하세요

현재 책을 통해 많은 프로젝트를 진행하고 있는 학생입니다.

다른 것이 아니라 내장 알고리즘 말고 파이썬으로 학습을 진행하려고 하는데.

시각적 관측을 여러개 사용하는 경우에는 어떻게 코드를 작성해야될지 잘몰라서 질문드리고,

또한, 만약 시각적 관측과 수치적 관측을 복합적으로 사용하려면 코드를 어떻게 작성을 해야되나요..

책 덕분에 많은 것을 배우고 있습니다.
너무 좋은 자료 감사합니다.

Gridworld 질문이요 (질문이 지워졋네요..ㅠ)

네 답변 감사합니다.

현재 쓰리디로 gridworld 환경을 셋팅하고 있는데..

Unity에서 SetActionMask를 사용하여

var positionX = (int)transform.position.x ;
var positionY = (int)transform.position.y;
var positionZ = (int)transform.position.z ;
var maxPosition = 9;
var minPosition = 0;

    if (positionX == minPosition)
    {
        SetActionMask(Left);
    }

    if (positionX == maxPosition)
    {
        SetActionMask(Right);
    }

    if (positionY == minPosition)
    {
        SetActionMask(Down);
    }

    if (positionY == maxPosition)
    {
        SetActionMask(Up);
    }

    if (positionZ == maxPosition)
    {
        SetActionMask(Forward);
    }

    if (positionZ == minPosition)
    {
        SetActionMask(Backward);
    }

이런 코드를 통해 Tensorflow에서 액션을 정할때 조건에 충족되면 해당 액션을 피하려고 하고 있습니다.

하지만 저런 조건에 충족하여도 Tensorflow에서는 해당 액션을 취합니다.

이 부분이 해결이 안되서 고생하고 있습니다. 조언 좀 부탁드립니다.

참고로 : 위의 지붕도 있지만 render을 안해놓은거 뿐입니다.

SetActionMask 함수 질문이요

안녕하세요 책읽고 있는 학생입니다.

다름이 아니라 SetActionMask 함수는 Tensorflow 환경에서 적용이 안되나요?

지금 다른 강화학습 환경을 만들고 있는데 SetActionMask를 지정해서. "어느 범위 이상이면 그행동을 하지 마라"를 지정하고 있는 상황입니다. 답변 부탁드립니다.

env.reset() 질문입니다.

안녕하세요. 계속 질문을 드리게 되네요,..
아무래도 자료도 많이 없고 그래서 죄송합니다.

질문은 아래와 같습니다.

env_info = env.reset(train_mode=train_mode,
config=sokoban_reset_parameters[game_level])[default_brain]

# DDDQN 에이전트 생성
agent = DDDQN_Agent()

step = 0
start_level_episode = 0
rewards = deque(maxlen=print_interval)
losses = deque(maxlen=print_interval)
successes = deque(maxlen=print_interval)

start_time = datetime.datetime.now()

# 학습 과정
for episode in range(run_episode + test_episode):
    if episode > run_episode:
        train_mode = False
        env_info = env.reset(train_mode=train_mode)[default_brain]

    **env_info = env.reset(train_mode=train_mode)[default_brain] **//이 부분을 추가해도 학습하는데 지장없나요?****
    state = env_info.vector_observations[0]
    state = np.reshape(state, [1, state_size])
    episode_rewards = 0 
    done = False
    success = 0
    step = 0

    while not done:
        step += 1
        action = agent.get_action(state)
        
        **env_info = env.step(action)[default_brain] //이부분에서 에러가 나타납니다.**

학습하는데 볼드로 표시한 부분을 집어넣어도 학습하는데 지장이 없나요?

episode is completed, env.reset() 이런식으로 뜹니다.ㅠ

학습하는데 지장이 없을까요?

Python Unity 실행 화면

Sokoban이나 Drone 을 실행할때 아래 화면 처럼 유니티 실행화면이 작게 출력이 됩니다.
크기를 키울 수 있는 방법이 없을까요?

Reward를 받기 힘든 Environment 에서 Time horizon 셋팅?

책에서 설명 되지 않는 부분이지만 궁금해서 질문해요.
Unity 로 제가 구성한 환경에서 에이전트들이 이상하게도 학습이 잘 이뤄지지 않고 있습니다.
그 이유로 Time horizon 문제라고 생각하는데요. 지금 환경에서는 한 에이전트가 1.0 의 Reward를 받기까지 1000 time step 이 걸리는데요. 여기서 모든 스텝 하나하나가 Reward 에 다가가기 까지 중요한 행동이 됩니다. 그러면 저의 환경에서 1000 time step을 모두 저장한다고 하고 0.99 Discount factor 를 가진다고 하면, 1000 step 에서의 1.0 Reward 는 무의미한 값이 되어 에이전트가 잘 학습이 이뤄지지 않는다고 생각하고 있습니다. 그래서 Discount factor 를 올려보고 테스트를 해보지만 학습이 잘 안되네요.

혹시 제가 시도해볼만한 방법이 있을까요?

환경에 여러 에이전트들을 복사해서 만들었을 경우?

질문이 좀 많네요. 책에선 다루지 않는 내용이지만 궁금해서 질문드려요.

Unity ML-agent 예제들을 보면 같은 에이전트를 복사하여 학습속도를 높인거 같은데요.
학습을 위해서는 각 에이전트들의 state,action,reward, next_state, 들을 한 메모리에 공유하면 될까요?
그리고 이 각 에이전트들은 같은 네트워크에서 나오는 Action 결과를 이용해서 움직이면 될까요?

적대적 DQN 만들기를 보면 두개의 Brain 사용과 Single Brain 사용의 차이점은 단지 데이터가 따로따로 들어오는지 아니면 하나의 Brain 으로 들어오는지 설정한다고 봐도 될까요?

마지막으로 Pytorch를 이용해도 문제 없는지 궁금합니다. 감사합니다.

Learning speed 문제

안녕하세요.
현재 ML-Agent version 0.8 을 설치 할 수 없어서 0.12 버전으로 진행하고 있습니다.
그런데 예제 1_DQN.py 을 실행하면 스텝 30000 이후로 급격하게 속도가 느려지네요.

전이학습 질문 드립니다

안녕하세요 전에 답변 주셔서 잘해결했습나다. 너무 감사합니다.

다름이 아니라 강화학습도 전이 학습 가능할꺼 같은데. 전이학습 하는 방법에 대해 조언좀 주실수 있나요?

reinforcement-learning-kr / unity_ml_agents Goto Github PK

unity_ml_agents's People

Contributors

Stargazers

Watchers

Forkers

unity_ml_agents's Issues

Recommend Projects

Recommend Topics

Recommend Org