Esta investigación aborda el problema de asignación de turnos de personal en una estación de servicio (EDS) llamada Transpiedecuesta SA. La solución propuesta consta de dos fases. En la primera fase, se utiliza un modelo de aprendizaje automático para modelar la demanda de combustible, pronosticando así los requisitos de personal hora a hora. La segunda fase implica la implementación de un algoritmo de aprendizaje reforzado Q-Learning en Python, entrenando a un agente con una función de recompensa y políticas para asignar eficientemente empleados en diferentes turnos durante 3 meses. Los resultados muestran un cronograma de asignación sin turnos fijos, con métricas adecuadas para aproximadamente 16 empleados y un costo total de asignación menor al promedio de la nómina real de la empresa. En términos de costo computacional, se emplearon 25 minutos y un máximo de 1,5 GB de memoria RAM para realizar 1200 episodios de simulación.