Cuando se usa el marco saltando la envoltura para Optai Gym, ¿cuál es el propósito de la línea NP.max? -- deep-learning campo con artificial-intelligence campo con wrapper campo con openai-gym campo con openai camp Relacionados El problema

When using the frame skipping wrapper for OpenAI Gym, what is the purpose of the np.max line?


0
vote

problema

Español

Estoy implementando la siguiente envoltura utilizada comúnmente en el gimnasio de Optai para saltarse el marco. Se puede encontrar en DQN / Atari_Wrappers.py

Estoy muy confundido acerca de la siguiente línea:

  docfx template export default0  

He agregado comentarios en todo el código para las partes que entiendo y para ayudar a cualquiera que pueda ayudar.

docfx template export default1111 Pila de los dos estados en docfx template export default2 .

docfx template export default3 Devuelve el máximo a lo largo del eje 0.

Pero lo que no entiendo es por qué estamos haciendo esto o lo que realmente está haciendo.

  docfx template export default4  
Original en ingles

I'm implementing the following wrapper used commonly in OpenAI's Gym for Frame Skipping. It can be found in dqn/atari_wrappers.py

I'm very confused about the following line:

max_frame = np.max(np.stack(self._obs_buffer), axis=0) 

I have added comments throughout the code for the parts I understand and to aid anyone who may be able to help.

np.stack(self._obs_buffer) stacks the two states in _obs_buffer.

np.max returns the maximum along axis 0.

But what I don't understand is why we're doing this or what it's really doing.

class MaxAndSkipEnv(gym.Wrapper):     """Return only every 4th frame"""     def __init__(self, env=None, skip=4):         super(MaxAndSkipEnv, self).__init__(env)         # Initialise a double ended queue that can store a maximum of two states         self._obs_buffer = deque(maxlen=2)         # _skip = 4         self._skip       = skip      def _step(self, action):         total_reward = 0.0         done = None         for _ in range(self._skip):             # Take a step              obs, reward, done, info = self.env.step(action)             # Append the new state to the double ended queue buffer              self._obs_buffer.append(obs)             # Update the total reward by summing the (reward obtained from the step taken) + (the current              # total reward)             total_reward += reward             # If the game ends, break the for loop              if done:                 break          max_frame = np.max(np.stack(self._obs_buffer), axis=0)          return max_frame, total_reward, done, info  
              

Lista de respuestas

0
 
vote

Al final del range()0 BOOP EL range()111111611 tiene los dos últimos marcos. Aquellos dos marcos se pueden combinar max, lo que resulta en una observación, que contiene alguna información temporal.

 

At the end of the for loop the self._obs_buffer holds the last two frames. Those two frames are then max-pooled over, resulting in an observation, that contains some temporal information.

 
 

Relacionados problema

0  Cuando se usa el marco saltando la envoltura para Optai Gym, ¿cuál es el propósito de la línea NP.max?  ( When using the frame skipping wrapper for openai gym what is the purpose of the ) 
Estoy implementando la siguiente envoltura utilizada comúnmente en el gimnasio de Optai para saltarse el marco. Se puede encontrar en DQN / Atari_Wrappers.py ...

0  ¿Por qué obtengo un 'hecho' inmediatamente después de cargar puntos de control para probar un modelo?  ( Why do i get a done immediately after i load checkpoints to test a model ) 
Lo que obtuve de la ejecución, le imprimo [hecho, recompensa]: Cuando intenté implementar el papel TD3, obtuve el problema anterior. Después de guardar u...

0  ¿Quién tiene acceso al API GPT-3 de OptaI?  ( Who has access to the openai api gpt 3 ) 
Hola, chicos, me di cuenta de que Optai lanzó el acceso temprano a su nuevo API GPT-3, me preguntaba si alguien de ustedes recibió el acceso ...

3  Nix Optai Python Dev-Environment Build Fallage  ( Nix openai python dev environment build failure ) 
Estoy tratando de hacer un entorno de desarrollo de Python37 que contiene el paquete de PYPI Processing ./openai-0.2.6-py3-none-any.whl ERROR: Could not find...

5  No se pudo encontrar el módulo atari_py ale_interface ale_c.dll (o una de sus dependencias)  ( Could not find module atari py ale interface ale c dll or one of its dependenc ) 
Estoy tratando de trabajar con el módulo de gimnasio de Optai pero recibo este error: >>> import atari_py Traceback (most recent call last): File "<stdin...

0  Construir un modelo que responda la pregunta desde el conjunto de datos usando GPT3  ( Build a model that answers question from dataset using gpt3 ) 
Estoy tratando de construir un bot de chat, que le dan algunos corpus de texto, responderá las preguntas cuando le preguntamos algo de ese texto. He oído que ...

0  Python, Keras. Error al construir el modelo de entrenamiento: TypeError: el objeto 'int' no es iterable  ( Python keras error while building training model typeerror int object is n ) 
Estoy teniendo problemas con mi aporte en mi modelo de entrenamiento de KERAS. El error que estoy recibiendo es 'int Objeto no es interable. Estoy usando la s...

5  ImportError: No se puede encontrar Framework /System/Library/FrameWorks/opengl.Framework  ( Importerror cant find framework system library frameworks opengl framework ) 
Estoy tratando de ejecutar este simple ejemplo de gimnasio en el nuevo _macos Big Sur _. import gym env = gym.make('CartPole-v0') env.reset() for _ in rang...

0  No se puede configurar Frozenlake-V0's is_slippery a FALSO  ( Cant set frozenlake v0s is slippery to false ) 
Estoy realmente lo siento si esta pregunta se repite desde algún lugar o contiene un error tonto en el programa, pero quería probar APAI con Frozenlake-V0 y s...

1  DQN: ¿Acceso a observaciones en bruto después de la conversión de espacio de observación en un entorno de caja?  ( Dqn access to raw observations after conversion of observation space into a box ) 
Estoy adaptando el código PyTorch desde el curso de Tabor en DQNS ( https://github.com/philtabor/deep-q-leapling-paper-to-code ) para trabajar con la bibliote...




© 2022 respuesta.top Reservados todos los derechos. Centro de preguntas y respuestas reservados todos los derechos