From 1e4f90c0edb8e6bdc60ea731c4723501455ceddc Mon Sep 17 00:00:00 2001 From: Andrey Gumirov Date: Tue, 19 Apr 2022 19:31:15 +0700 Subject: [PATCH 1/3] Removed useless temporary files --- Assets/ML-Agents/Timers/DemoScene01_timers.json | 1 - Assets/ML-Agents/Timers/DemoScene01_timers.json.meta | 7 ------- Assets/ML-Agents/Timers/Greatest_map_ever_timers.json.meta | 7 ------- Assets/ML-Agents/Timers/dont touch me plz_timers.json | 1 - Assets/ML-Agents/Timers/dont touch me plz_timers.json.meta | 7 ------- 5 files changed, 23 deletions(-) delete mode 100755 Assets/ML-Agents/Timers/DemoScene01_timers.json delete mode 100755 Assets/ML-Agents/Timers/DemoScene01_timers.json.meta delete mode 100755 Assets/ML-Agents/Timers/Greatest_map_ever_timers.json.meta delete mode 100755 Assets/ML-Agents/Timers/dont touch me plz_timers.json delete mode 100755 Assets/ML-Agents/Timers/dont touch me plz_timers.json.meta diff --git a/Assets/ML-Agents/Timers/DemoScene01_timers.json b/Assets/ML-Agents/Timers/DemoScene01_timers.json deleted file mode 100755 index 3914503..0000000 --- a/Assets/ML-Agents/Timers/DemoScene01_timers.json +++ /dev/null @@ -1 +0,0 @@ -{"count":1,"self":249.99626239999998,"total":250.70272609999998,"children":{"InitializeActuators":{"count":1,"self":0.0005131,"total":0.0005131,"children":null},"AgentSendState":{"count":8389,"self":0.1187579,"total":0.1187579,"children":null},"DecideAction":{"count":8389,"self":0.5871921,"total":0.5871921,"children":null}},"gauges":{},"metadata":{"timer_format_version":"0.1.0","start_time_seconds":"1649259643","unity_version":"2019.4.36f1","command_line_arguments":"C:\\Program Files\\Unity\\Hub\\Editor\\2019.4.36f1\\Editor\\Unity.exe -projectpath D:\\real_shooter -useHub -hubIPC -cloudEnvironment production -licensingIpc LicenseClient-user -hubSessionId 91406950-b5ad-11ec-a63c-e7b76cbae13d -accessToken EBt97pMhHqClFDnjD_uh-3vplxP-uI2yS0WK-hSxfuM012f","communication_protocol_version":"1.5.0","com.unity.ml-agents_version":"2.0.1","scene_name":"DemoScene01","end_time_seconds":"1649259893"}} \ No newline at end of file diff --git a/Assets/ML-Agents/Timers/DemoScene01_timers.json.meta b/Assets/ML-Agents/Timers/DemoScene01_timers.json.meta deleted file mode 100755 index fe18e4a..0000000 --- a/Assets/ML-Agents/Timers/DemoScene01_timers.json.meta +++ /dev/null @@ -1,7 +0,0 @@ -fileFormatVersion: 2 -guid: 1b328c4e26e7a994e8a42f269ca7419b -TextScriptImporter: - externalObjects: {} - userData: - assetBundleName: - assetBundleVariant: diff --git a/Assets/ML-Agents/Timers/Greatest_map_ever_timers.json.meta b/Assets/ML-Agents/Timers/Greatest_map_ever_timers.json.meta deleted file mode 100755 index 1400775..0000000 --- a/Assets/ML-Agents/Timers/Greatest_map_ever_timers.json.meta +++ /dev/null @@ -1,7 +0,0 @@ -fileFormatVersion: 2 -guid: 80ef0d75029e25243857877facd14d75 -TextScriptImporter: - externalObjects: {} - userData: - assetBundleName: - assetBundleVariant: diff --git a/Assets/ML-Agents/Timers/dont touch me plz_timers.json b/Assets/ML-Agents/Timers/dont touch me plz_timers.json deleted file mode 100755 index 699e26c..0000000 --- a/Assets/ML-Agents/Timers/dont touch me plz_timers.json +++ /dev/null @@ -1 +0,0 @@ -{"count":1,"self":14.5494256,"total":14.5766034,"children":{"InitializeActuators":{"count":1,"self":0,"total":0,"children":null},"AgentSendState":{"count":497,"self":0.0020012999999999997,"total":0.0020012999999999997,"children":null},"DecideAction":{"count":497,"self":0.0241768,"total":0.0241768,"children":null}},"gauges":{},"metadata":{"timer_format_version":"0.1.0","start_time_seconds":"1649741696","unity_version":"2019.4.35f1","command_line_arguments":"D:\\Unity\\2019.4.35f1\\Editor\\Unity.exe -projectpath C:\\Users\\kiril\\real-shooter -useHub -hubIPC -cloudEnvironment production -licensingIpc LicenseClient-kiril -hubSessionId 21e9de90-ba14-11ec-9398-079edccf5e34 -accessToken oIpf_7gKWQQRilVTeJehUsFhrxasdzsG_K3j5Swtgx0009f","communication_protocol_version":"1.5.0","com.unity.ml-agents_version":"2.0.1","scene_name":"dont touch me plz","end_time_seconds":"1649741711"}} \ No newline at end of file diff --git a/Assets/ML-Agents/Timers/dont touch me plz_timers.json.meta b/Assets/ML-Agents/Timers/dont touch me plz_timers.json.meta deleted file mode 100755 index db7171f..0000000 --- a/Assets/ML-Agents/Timers/dont touch me plz_timers.json.meta +++ /dev/null @@ -1,7 +0,0 @@ -fileFormatVersion: 2 -guid: 249f8a9af2b0bc041a08a0009a6fdf44 -TextScriptImporter: - externalObjects: {} - userData: - assetBundleName: - assetBundleVariant: From fa6b5f602ee65d16f94119d8ed74599852c988b4 Mon Sep 17 00:00:00 2001 From: Andrey Gumirov Date: Sat, 7 May 2022 22:58:25 +0700 Subject: [PATCH 2/3] Added test NB --- test-ml-agents.ipynb | 20623 +++++++++++++++++++++++++++++++++++++++++ 1 file changed, 20623 insertions(+) create mode 100644 test-ml-agents.ipynb diff --git a/test-ml-agents.ipynb b/test-ml-agents.ipynb new file mode 100644 index 0000000..1e2d31e --- /dev/null +++ b/test-ml-agents.ipynb @@ -0,0 +1,20623 @@ +{ + "cells": [ + { + "cell_type": "code", + "execution_count": 34, + "id": "8104e2db-b1a8-40a0-a238-5d9149fd74b0", + "metadata": {}, + "outputs": [], + "source": [ + "from mlagents_envs.environment import UnityEnvironment\n", + "import mlagents_envs\n", + "import numpy as np" + ] + }, + { + "cell_type": "code", + "execution_count": 74, + "id": "6f477382-acc9-4aec-907a-7f58caf955ed", + "metadata": {}, + "outputs": [], + "source": [ + "import random" + ] + }, + { + "cell_type": "code", + "execution_count": 83, + "id": "b7f60f26-0a90-4ea5-b2c2-b5683bda56a6", + "metadata": {}, + "outputs": [], + "source": [ + "env = UnityEnvironment()" + ] + }, + { + "cell_type": "code", + "execution_count": 84, + "id": "5929b410-12c3-4bd9-b984-b2c29a76c3f3", + "metadata": {}, + "outputs": [], + "source": [ + "env.reset()" + ] + }, + { + "cell_type": "code", + "execution_count": 85, + "id": "f108ff09-9f42-4405-add3-6df941c48f8b", + "metadata": { + "scrolled": true, + "tags": [] + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 1. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 1. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 78.21462], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 1. , 1. , 0. , 0. ,\n", + " 0. , 80.694435], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.29597], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 1. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 1. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 90.925804], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.28178], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26389], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 1. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 1. , 1. , 0. , 0. ,\n", + " 0. , 83.26209], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25988], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.26341], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30755], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 1. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 1. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 85.95022], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.14938], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.25333], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.273026], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.27214], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", + " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", + " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", + " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", + " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", + " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", + " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", + " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", + " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", + " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", + " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", + " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", + " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", + " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", + " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", + " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", + " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", + " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", + " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", + " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", + " 2. , 1. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", + " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", + " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", + " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", + " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", + " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", + " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", + " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", + " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", + " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", + " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", + " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", + " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", + " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", + " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", + " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", + " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", + " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", + " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", + " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", + " 1. , 1. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", + " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", + " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", + " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", + " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", + " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", + " 2. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 2. ,\n", + " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 1. ,\n", + " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", + " 0. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. , 0. ,\n", + " 1. , 2. , 1. , 0. , 0. , 0. , 91.2745],\n", + " dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.26514], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 1. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 2. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 1. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 1. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 0. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n", + "Step\n", + "(, )\n", + "DecisionStep(obs=[array([[0., 1., 0., 0., 0.],\n", + " [0., 1., 0., 0., 0.],\n", + " [0., 1., 1., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.],\n", + " [0., 0., 0., 0., 0.]], dtype=float32), array([ 0. , 0. , 0. , 3. , 3. , 3. ,\n", + " 0. , 2. , 2. , 1. , 0. , 0. ,\n", + " 0. , 91.30669], dtype=float32)], reward=0.0, agent_id=0, action_mask=[array([False]), array([False]), array([False])], group_id=0, group_reward=0.0)\n", + "0.0\n" + ] + }, + { + "ename": "UnityCommunicatorStoppedException", + "evalue": "Communicator has exited.", + "output_type": "error", + "traceback": [ + "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m", + "\u001b[0;31mUnityCommunicatorStoppedException\u001b[0m Traceback (most recent call last)", + "Input \u001b[0;32mIn [85]\u001b[0m, in \u001b[0;36m\u001b[0;34m()\u001b[0m\n\u001b[1;32m 1\u001b[0m \u001b[38;5;28;01mwhile\u001b[39;00m \u001b[38;5;28;01mTrue\u001b[39;00m:\n\u001b[0;32m----> 2\u001b[0m \u001b[43menv\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mstep\u001b[49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m 3\u001b[0m \u001b[38;5;28mprint\u001b[39m(\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mStep\u001b[39m\u001b[38;5;124m\"\u001b[39m)\n\u001b[1;32m 4\u001b[0m asd \u001b[38;5;241m=\u001b[39m env\u001b[38;5;241m.\u001b[39mget_steps(\u001b[38;5;124m'\u001b[39m\u001b[38;5;124mnpc?team=0\u001b[39m\u001b[38;5;124m'\u001b[39m)\n", + "File \u001b[0;32m~/opt/miniforge3/lib/python3.9/site-packages/mlagents_envs/timers.py:305\u001b[0m, in \u001b[0;36mtimed..wrapped\u001b[0;34m(*args, **kwargs)\u001b[0m\n\u001b[1;32m 303\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21mwrapped\u001b[39m(\u001b[38;5;241m*\u001b[39margs, \u001b[38;5;241m*\u001b[39m\u001b[38;5;241m*\u001b[39mkwargs):\n\u001b[1;32m 304\u001b[0m \u001b[38;5;28;01mwith\u001b[39;00m hierarchical_timer(func\u001b[38;5;241m.\u001b[39m\u001b[38;5;18m__qualname__\u001b[39m):\n\u001b[0;32m--> 305\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[43mfunc\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n", + "File \u001b[0;32m~/opt/miniforge3/lib/python3.9/site-packages/mlagents_envs/environment.py:350\u001b[0m, in \u001b[0;36mUnityEnvironment.step\u001b[0;34m(self)\u001b[0m\n\u001b[1;32m 348\u001b[0m outputs \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_communicator\u001b[38;5;241m.\u001b[39mexchange(step_input, \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_poll_process)\n\u001b[1;32m 349\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m outputs \u001b[38;5;129;01mis\u001b[39;00m \u001b[38;5;28;01mNone\u001b[39;00m:\n\u001b[0;32m--> 350\u001b[0m \u001b[38;5;28;01mraise\u001b[39;00m UnityCommunicatorStoppedException(\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mCommunicator has exited.\u001b[39m\u001b[38;5;124m\"\u001b[39m)\n\u001b[1;32m 351\u001b[0m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_update_behavior_specs(outputs)\n\u001b[1;32m 352\u001b[0m rl_output \u001b[38;5;241m=\u001b[39m outputs\u001b[38;5;241m.\u001b[39mrl_output\n", + "\u001b[0;31mUnityCommunicatorStoppedException\u001b[0m: Communicator has exited." + ] + } + ], + "source": [ + "while True:\n", + " env.step()\n", + " print(\"Step\")\n", + " asd = env.get_steps('npc?team=0')\n", + " print(asd)\n", + " print(asd[0][0])\n", + " _id = asd[0][0].obs[0][0][0]\n", + " print(_id)\n", + " env.set_action_for_agent('npc?team=0', 0, mlagents_envs.environment.ActionTuple(discrete=np.array([[1, 0, random.randint(0,2)]])))" + ] + }, + { + "cell_type": "code", + "execution_count": 86, + "id": "db100c84-22ab-491b-b68d-4d5c1bbc66a3", + "metadata": {}, + "outputs": [], + "source": [ + "env.close()" + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "Python 3 (ipykernel)", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.9.12" + } + }, + "nbformat": 4, + "nbformat_minor": 5 +} From aa7b50554b7b572df14bc2a184b240e4a972b78e Mon Sep 17 00:00:00 2001 From: Andrey Gumirov Date: Sat, 7 May 2022 23:00:24 +0700 Subject: [PATCH 3/3] Added project version --- ProjectSettings/ProjectVersion.txt | 2 ++ 1 file changed, 2 insertions(+) create mode 100644 ProjectSettings/ProjectVersion.txt diff --git a/ProjectSettings/ProjectVersion.txt b/ProjectSettings/ProjectVersion.txt new file mode 100644 index 0000000..bf8f7eb --- /dev/null +++ b/ProjectSettings/ProjectVersion.txt @@ -0,0 +1,2 @@ +m_EditorVersion: 2019.4.36f1 +m_EditorVersionWithRevision: 2019.4.36f1 (660c164b2fc5)