{ "cells": [ { "cell_type": "code", "execution_count": 34, "id": "8104e2db-b1a8-40a0-a238-5d9149fd74b0", "metadata": {}, "outputs": [], "source": [ "from mlagents_envs.environment import UnityEnvironment\n", "import mlagents_envs\n", "import numpy as np" ] }, { "cell_type": "code", "execution_count": 74, "id": "6f477382-acc9-4aec-907a-7f58caf955ed", "metadata": {}, "outputs": [], "source": [ "import random" ] }, { "cell_type": "code", "execution_count": 83, "id": "b7f60f26-0a90-4ea5-b2c2-b5683bda56a6", "metadata": {}, "outputs": [], "source": [ "env = UnityEnvironment()" ] }, { "cell_type": "code", "execution_count": 84, "id": "5929b410-12c3-4bd9-b984-b2c29a76c3f3", "metadata": {}, "outputs": [], "source": [ "env.reset()" ] }, { "cell_type": "code", "execution_count": 85, "id": "f108ff09-9f42-4405-add3-6df941c48f8b", "metadata": { "scrolled": true, "tags": [] }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 1. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 1. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 1. , 1. , 0. , 0. ,\n", " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 1. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 1. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 1. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 1. , 1. , 0. , 0. ,\n", " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 1. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 1. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", " 2. , 1. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", " 1. , 1. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 1. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 2. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 1. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 1. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 0. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n", "Step\n", "(, )\n", "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", " [0., 1., 0., 0., 0.],\n", " [0., 1., 1., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.],\n", " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", " 0. , 2. , 2. , 1. , 0. , 0. ,\n", " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", "0.0\n" ] }, { "ename": "UnityCommunicatorStoppedException", "evalue": "Communicator has exited.", "output_type": "error", "traceback": [ "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m", "\u001b[0;31mUnityCommunicatorStoppedException\u001b[0m Traceback (most recent call last)", "Input \u001b[0;32mIn [85]\u001b[0m, in \u001b[0;36m\u001b[0;34m()\u001b[0m\n\u001b[1;32m 1\u001b[0m \u001b[38;5;28;01mwhile\u001b[39;00m \u001b[38;5;28;01mTrue\u001b[39;00m:\n\u001b[0;32m----> 2\u001b[0m \u001b[43menv\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mstep\u001b[49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m 3\u001b[0m \u001b[38;5;28mprint\u001b[39m(\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mStep\u001b[39m\u001b[38;5;124m\"\u001b[39m)\n\u001b[1;32m 4\u001b[0m asd \u001b[38;5;241m=\u001b[39m env\u001b[38;5;241m.\u001b[39mget_steps(\u001b[38;5;124m'\u001b[39m\u001b[38;5;124mnpc?team=0\u001b[39m\u001b[38;5;124m'\u001b[39m)\n", "File \u001b[0;32m~/opt/miniforge3/lib/python3.9/site-packages/mlagents_envs/timers.py:305\u001b[0m, in \u001b[0;36mtimed..wrapped\u001b[0;34m(*args, **kwargs)\u001b[0m\n\u001b[1;32m 303\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21mwrapped\u001b[39m(\u001b[38;5;241m*\u001b[39margs, \u001b[38;5;241m*\u001b[39m\u001b[38;5;241m*\u001b[39mkwargs):\n\u001b[1;32m 304\u001b[0m \u001b[38;5;28;01mwith\u001b[39;00m hierarchical_timer(func\u001b[38;5;241m.\u001b[39m\u001b[38;5;18m__qualname__\u001b[39m):\n\u001b[0;32m--> 305\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[43mfunc\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n", "File \u001b[0;32m~/opt/miniforge3/lib/python3.9/site-packages/mlagents_envs/environment.py:350\u001b[0m, in \u001b[0;36mUnityEnvironment.step\u001b[0;34m(self)\u001b[0m\n\u001b[1;32m 348\u001b[0m outputs \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_communicator\u001b[38;5;241m.\u001b[39mexchange(step_input, \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_poll_process)\n\u001b[1;32m 349\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m outputs \u001b[38;5;129;01mis\u001b[39;00m \u001b[38;5;28;01mNone\u001b[39;00m:\n\u001b[0;32m--> 350\u001b[0m \u001b[38;5;28;01mraise\u001b[39;00m UnityCommunicatorStoppedException(\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mCommunicator has exited.\u001b[39m\u001b[38;5;124m\"\u001b[39m)\n\u001b[1;32m 351\u001b[0m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_update_behavior_specs(outputs)\n\u001b[1;32m 352\u001b[0m rl_output \u001b[38;5;241m=\u001b[39m outputs\u001b[38;5;241m.\u001b[39mrl_output\n", "\u001b[0;31mUnityCommunicatorStoppedException\u001b[0m: Communicator has exited." ] } ], "source": [ "while True:\n", " env.step()\n", " print(\"Step\")\n", " asd = env.get_steps('npc?team=0')\n", " print(asd)\n", " print(asd[0][0])\n", " _id = asd[0][0].obs[0][0][0]\n", " print(_id)\n", " env.set_action_for_agent('npc?team=0', 0, mlagents_envs.environment.ActionTuple(discrete=np.array([[1, 0, random.randint(0,2)]])))" ] }, { "cell_type": "code", "execution_count": 86, "id": "db100c84-22ab-491b-b68d-4d5c1bbc66a3", "metadata": {}, "outputs": [], "source": [ "env.close()" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.9.12" } }, "nbformat": 4, "nbformat_minor": 5 }