Q Learning Java Ex2

This Java code defines a Q-learning algorithm to find optimal paths through a grid world. It initializes a Q-table and reward matrix for the grid. It then trains the Q-values over multiple episodes starting from different starting states, and tests by finding the shortest paths from each starting state to the goal using the learned values.

Uploaded by

liliana_sfar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

204 views4 pages

Q Learning Java Ex2

Uploaded by

liliana_sfar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 4

import java.util.

Random;
public class QLearning2
{
private static final int Q_SIZE = 16;
private static final double GAMMA = 0.8;
private static final int ITERATIONS = 10;
private static final int NUM_INITIALS = 6;
private static final int GOAL_STATE = 15;
private static final int INITIAL_STATES[] = new int[] {1, 3, 5, 2, 4, 0};
private static final int R[][] = new int[][]
{{-1, 0, -1, -1, 0, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1},
{0, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1},
{-1, -1, -1, 0, -1, -1, 0, -1, -1, -1, -1, -1, -1, -1, -1, -1},
{-1, -1, 0, -1, -1, -1, -1, 0, -1, -1, -1, -1, -1, -1, -1, -1},
{0, -1, -1, -1, -1, -1, -1, -1, 0, -1, -1, -1, -1, -1, -1, -1},
{-1, -1, -1, -1, -1, -1, 0, -1, -1, 0, -1, -1, -1, -1, -1, -1},
{-1, -1, 0, -1, -1, 0, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1},
{-1, -1, -1, 0, -1, -1, -1, -1, -1, -1, -1, 0, -1, -1, -1, -1},
{-1, -1, -1, -1, 0, -1, -1, -1, -1, 0, -1, -1, 0, -1, -1, -1},
{-1, -1, -1, -1, -1, 0, -1, -1, 0, -1, 0, -1, -1, 0, -1, -1},
{-1, -1, -1, -1, -1, -1, -1, -1, -1, 0, -1, -1, -1, -1, 0, -1},
{-1, -1, -1, -1, -1, -1, -1, 0, -1, -1, -1, -1, -1, -1, -1, 100},
{-1, -1, -1, -1, -1, -1, -1, -1, 0, -1, -1, -1, -1, -1, -1, -1},
{-1, -1, -1, -1, -1, -1, -1, -1, -1, 0, -1, -1, -1, -1, 0, -1},
{-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 0, -1, -1, 0, -1, -1},
{-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 0, -1, -1, -1, 100}};
private static int q[][] = new int[Q_SIZE][Q_SIZE];
private static int currentState = 0;
private static void train()
{
initialize();
// Perform training, starting at all initial states.
for(int j = 0; j < ITERATIONS; j++)
{
for(int i = 0; i < NUM_INITIALS; i++)
{
episode(INITIAL_STATES[i]);
}
}
// Print out Q Matrix
// System.out.println("Q Matrix values:");
// for(int i = 0; i < Q_SIZE; i++)
// {
// for(int j = 0; j < Q_SIZE; j++)
// {
// System.out.print(q[i][j] + ",\t");
// }
// System.out.print("\n");
// }
// System.out.print("\n");
return;
}
private static void test()
{
int newState = 0;
// Perform tests, starting at all initial states.
System.out.println("Shortest routes from initial states:");
for(int i = 0; i < NUM_INITIALS; i++)
{
currentState = INITIAL_STATES[i];
newState = 0;
do
{
newState = maximum(currentState, true);
System.out.print(currentState + ", ");
currentState = newState;
}while(currentState < GOAL_STATE); //Loop Until currentState = GOAL_
STATE
System.out.print(GOAL_STATE + "\n");
}
return;
}
private static void episode(final int initialState)
{
currentState = initialState;
// Travel from state to state until goal state is reached.
do
{
chooseAnAction();
}while(currentState == GOAL_STATE); // Loop Until currentState = GOAL_ST
ATE
// When currentState = GOAL_STATE, Run through the set once more to
// for convergence.
for(int i = 0; i < Q_SIZE; i++)
{
chooseAnAction();
}
return;
}
private static void chooseAnAction()
{
int possibleAction = 0;
// Randomly choose a possible action connected to the current state.
possibleAction = getRandomAction(Q_SIZE);
if(R[currentState][possibleAction] >= 0){
q[currentState][possibleAction] = reward(possibleAction);
currentState = possibleAction;
}
return;
}
private static int getRandomAction(final int upperBound)
{
int action = 0;
boolean choiceIsValid = false;
// Randomly choose a possible action connected to the current state.
while(choiceIsValid == false)
{
// Get a random value between 0(inclusive) and UpperBound(exclusive)
.
action = new Random().nextInt(upperBound);
if(R[currentState][action] > -1){
choiceIsValid = true;
}
}
return action;
}
private static void initialize()
{
for(int i = 0; i < Q_SIZE; i++)
{
for(int j = 0; j < Q_SIZE; j++)
{
q[i][j] = 0;
}
}
return;
}
private static int maximum(final int state, final boolean returnIndexOnly)
{
// if(ReturnIndexOnly = true, the Q matrix index is returned.
// if(ReturnIndexOnly = false, the Q matrix value is returned.
int winner = 0;
boolean foundNewWinner = false;
boolean done = false;
while(!done)
{
foundNewWinner = false;
for(int i = 0; i < Q_SIZE; i++)
{
if(i != winner){ // Avoid self-comparison.
if(q[state][i] > q[state][winner]){
winner = i;
foundNewWinner = true;
}
}
}
if(foundNewWinner == false){
done = true;
}
}
if(returnIndexOnly == true){
return winner;
}else{
return q[state][winner];
}
}
private static int reward(final int action)
{
return (int)(R[currentState][action] + (GAMMA * maximum(action, false)))
;
}
public static void main(String[] args)
{
train();
test();
return;
}
}

Arista Lab Guide Training v2.0
No ratings yet
Arista Lab Guide Training v2.0
53 pages
RLbook Solutions Manual
100% (1)
RLbook Solutions Manual
35 pages
Qustion Bank With Solution
No ratings yet
Qustion Bank With Solution
147 pages
Unit 5
No ratings yet
Unit 5
65 pages
AI Seminar RL
No ratings yet
AI Seminar RL
27 pages
Deep Learning Binoy-19-3-RL Q Learning
No ratings yet
Deep Learning Binoy-19-3-RL Q Learning
26 pages
Intro To Reinforcement Learning - DQ Q AC A3C
No ratings yet
Intro To Reinforcement Learning - DQ Q AC A3C
36 pages
WT262 800xa Network Loops
No ratings yet
WT262 800xa Network Loops
31 pages
21L7734 Shais Quiz3 Aml 8A
No ratings yet
21L7734 Shais Quiz3 Aml 8A
25 pages
RL MJJ
No ratings yet
RL MJJ
32 pages
S18 Reinforcement Learning 2
No ratings yet
S18 Reinforcement Learning 2
46 pages
ML - Unit 3 - Part II
No ratings yet
ML - Unit 3 - Part II
51 pages
CZ3005 Module 5 - Reinforcement Learning
No ratings yet
CZ3005 Module 5 - Reinforcement Learning
31 pages
Min Max
No ratings yet
Min Max
14 pages
PRTG Desktop Manual
No ratings yet
PRTG Desktop Manual
116 pages
Q Learning
No ratings yet
Q Learning
38 pages
ICT 7 Activity Sheet: Quarter 3 - Week 1
No ratings yet
ICT 7 Activity Sheet: Quarter 3 - Week 1
7 pages
Pleiger Control Loop: User's Manual V1.30
100% (2)
Pleiger Control Loop: User's Manual V1.30
26 pages
Algorithms To Solve An MDP
No ratings yet
Algorithms To Solve An MDP
24 pages
7 - Reinforcement Learning
No ratings yet
7 - Reinforcement Learning
23 pages
Q-Learning: Reinforcement Learning Basic Q-Learning Algorithm Common Modifications
No ratings yet
Q-Learning: Reinforcement Learning Basic Q-Learning Algorithm Common Modifications
22 pages
MAS Lab7 QFA
No ratings yet
MAS Lab7 QFA
10 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
14 pages
M95 AT Commands Manual V1.2 PDF
No ratings yet
M95 AT Commands Manual V1.2 PDF
241 pages
Hota ML ReinforcementLearning
No ratings yet
Hota ML ReinforcementLearning
12 pages
Adobe Scan Nov 18, 2024
No ratings yet
Adobe Scan Nov 18, 2024
13 pages
Lecture 05
No ratings yet
Lecture 05
16 pages
Plagiarism Certificate
No ratings yet
Plagiarism Certificate
2 pages
39-Q Learning Numerical
No ratings yet
39-Q Learning Numerical
13 pages
CRM in Cooperatiive B
No ratings yet
CRM in Cooperatiive B
59 pages
AWS Certified Security Specialty
No ratings yet
AWS Certified Security Specialty
13 pages
Walking Through Original DQN Paper - by Stas Olekhnovich - Medium
No ratings yet
Walking Through Original DQN Paper - by Stas Olekhnovich - Medium
13 pages
Aiml Min - Max Tictactoe - 4
No ratings yet
Aiml Min - Max Tictactoe - 4
12 pages
Unit II
No ratings yet
Unit II
10 pages
Q-Learning in RL With Openai Gym: Joo Soon Lee
No ratings yet
Q-Learning in RL With Openai Gym: Joo Soon Lee
34 pages
Manual of Laser Die Cutting Machine PDF
No ratings yet
Manual of Laser Die Cutting Machine PDF
35 pages
RL Theory Tutorial
No ratings yet
RL Theory Tutorial
80 pages
Q Learning Ejemplo
100% (1)
Q Learning Ejemplo
11 pages
Q Learning
No ratings yet
Q Learning
6 pages
Problem Set 1
No ratings yet
Problem Set 1
15 pages
New CZ3005 Module 5 - Reinforcement Learning
No ratings yet
New CZ3005 Module 5 - Reinforcement Learning
31 pages
A Comparative Study of Analogue and Digital Mixing Techniques
No ratings yet
A Comparative Study of Analogue and Digital Mixing Techniques
99 pages
AI Outputs (4,5,6,7)
No ratings yet
AI Outputs (4,5,6,7)
16 pages
Alight Motion @AhmedoPlus
No ratings yet
Alight Motion @AhmedoPlus
11 pages
Soft Computing Lab
No ratings yet
Soft Computing Lab
16 pages
Experiment 6
No ratings yet
Experiment 6
7 pages
Tutorial Questions (Annexure I) Que S-Tion No Questions Co BTL
No ratings yet
Tutorial Questions (Annexure I) Que S-Tion No Questions Co BTL
6 pages
Homework #3: MDPS, Q-Learning, &: Pomdps
No ratings yet
Homework #3: MDPS, Q-Learning, &: Pomdps
18 pages
Slides21 Games2 PDF
No ratings yet
Slides21 Games2 PDF
38 pages
Sample Question Paper - Object Oriented Programming-12063
50% (2)
Sample Question Paper - Object Oriented Programming-12063
4 pages
Muhammad Muaaz Aamer BSCS 2021 FAST NU LHR - Take Home Quiz No 3
No ratings yet
Muhammad Muaaz Aamer BSCS 2021 FAST NU LHR - Take Home Quiz No 3
4 pages
Solution - AI Question Paper March 2024
No ratings yet
Solution - AI Question Paper March 2024
4 pages
21BCE9125 DAA Assignment-8
No ratings yet
21BCE9125 DAA Assignment-8
9 pages
112 Q Learning N
100% (1)
112 Q Learning N
15 pages
Part 2 - Building A Deep Q-Network To Play Gridworld - Catastrophic Forgetting and Experience Replay - by NandaKishore Joshi - Towards Data Science
No ratings yet
Part 2 - Building A Deep Q-Network To Play Gridworld - Catastrophic Forgetting and Experience Replay - by NandaKishore Joshi - Towards Data Science
8 pages
Veritas 5360 Appliance Product Description Guide
No ratings yet
Veritas 5360 Appliance Product Description Guide
79 pages
NI EMR Training Ceritification Catalog LTR CMYK en WL
No ratings yet
NI EMR Training Ceritification Catalog LTR CMYK en WL
32 pages
Class-Work-1 (26-08-2024)
No ratings yet
Class-Work-1 (26-08-2024)
5 pages
Ai Lab Assignment 4 (21bce7212)
No ratings yet
Ai Lab Assignment 4 (21bce7212)
5 pages
Screening Test
No ratings yet
Screening Test
9 pages
DrayTek White Paper Router Security Best Practice
No ratings yet
DrayTek White Paper Router Security Best Practice
24 pages
BL - En.u4aie21144 DRL
No ratings yet
BL - En.u4aie21144 DRL
5 pages
Lab2 q1 200001064
No ratings yet
Lab2 q1 200001064
2 pages
Q-Learning in C++
No ratings yet
Q-Learning in C++
4 pages
Tut RL-1
No ratings yet
Tut RL-1
2 pages
Notações Dos Algoritimos
No ratings yet
Notações Dos Algoritimos
10 pages
A12 Spring2024
No ratings yet
A12 Spring2024
5 pages
1 You Will Work With A
No ratings yet
1 You Will Work With A
2 pages
Ai - Ai417de01 Lab - Week 09
No ratings yet
Ai - Ai417de01 Lab - Week 09
2 pages
6b Soln
No ratings yet
6b Soln
3 pages
Question 1)
No ratings yet
Question 1)
2 pages
Akabir Ki Pakki Kabron or Gumbad Ke Dalail Ke Scan Darkar Hain - Reference & Scan Requests - Islami Mehfil
No ratings yet
Akabir Ki Pakki Kabron or Gumbad Ke Dalail Ke Scan Darkar Hain - Reference & Scan Requests - Islami Mehfil
23 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
6 pages
44 Ucs
No ratings yet
44 Ucs
6 pages
Logsap 25-35 Unit Publications Guide
No ratings yet
Logsap 25-35 Unit Publications Guide
51 pages
AI Lab Tasks
No ratings yet
AI Lab Tasks
2 pages
Excerpt From: Bible and Is An Exercise On Dynamic Blocks. in The Book, The
No ratings yet
Excerpt From: Bible and Is An Exercise On Dynamic Blocks. in The Book, The
6 pages
Cs Project Class 12 Cbse
No ratings yet
Cs Project Class 12 Cbse
39 pages
Verilog HDL Basics Lab Assignments: Lab Work 1. Study of Module Declaration and Module Instantiation Principles
No ratings yet
Verilog HDL Basics Lab Assignments: Lab Work 1. Study of Module Declaration and Module Instantiation Principles
3 pages
DB2 Administrators Unix Commands Surviva PDF
No ratings yet
DB2 Administrators Unix Commands Surviva PDF
7 pages
03 Project Management and Primavera Terminologies
No ratings yet
03 Project Management and Primavera Terminologies
12 pages
Solidworks With CAM
No ratings yet
Solidworks With CAM
2 pages
Mod Menu Crash 2022 08 14-16 02 24
No ratings yet
Mod Menu Crash 2022 08 14-16 02 24
10 pages
A Real Time Co Simulation Framework For Virtual Test and Validation On A High Dynamics Vehicle Test Bed
No ratings yet
A Real Time Co Simulation Framework For Virtual Test and Validation On A High Dynamics Vehicle Test Bed
7 pages
HTTP WWW - Winpcap.org Install Default - WinPcap - The Windows Packet Capture Library
No ratings yet
HTTP WWW - Winpcap.org Install Default - WinPcap - The Windows Packet Capture Library
3 pages
Datasheet ECxxx Eng 11 15
No ratings yet
Datasheet ECxxx Eng 11 15
2 pages
Edc17Cv41 Can Faults: Vin: Customer Number Plate: Pic: Model: Engine Type: Engine Serial No
No ratings yet
Edc17Cv41 Can Faults: Vin: Customer Number Plate: Pic: Model: Engine Type: Engine Serial No
2 pages
Extjs Tutorial PDF
No ratings yet
Extjs Tutorial PDF
2 pages
150+ C Pattern Programs
From Everand
150+ C Pattern Programs
Hernando Abella
No ratings yet
150+ JavaScript Pattern Programs
From Everand
150+ JavaScript Pattern Programs
Hernando Abella
No ratings yet

Q Learning Java Ex2

Uploaded by

Q Learning Java Ex2

Uploaded by

import java.util.

You might also like