In diesem Projekt hat unsere Gruppe eine Rennumgebung in Python simuliert, in der ein Agent ein Fahrzeug steuern konnte – inklusive Lenkung und Gas geben. Der Agent erhielt von der Umgebung Feedback in Form von Rewards, abhängig von der ausgeführten Aktion. Mithilfe des Reinforcement-Learning-Algorithmus PPO (Proximal Policy Optimization) lernte der Agent, seine Entscheidungen kontinuierlich zu verbessern, um das Auto immer effizienter über die Rennstrecke zu steuern.