本发明涉及应急管理技术领域,尤其涉及一种基于强化学习的应急物资储备动态优化方法及系统,包括根据目标电力设施区域的灾害场景数据和应急物资消耗数据,通过机器学习算法得到应急物资需求预测结果;基于应急物资需求预测结果,利用蒙特卡洛仿真方法量化得到应急物资储备的风险概率分布;根据风险概率分布和应急物资储备系统的多维度实时状态信息,构建应急物资储备数字孪生模型;将强化学习算法引入应急物资储备数字孪生模型中,通过交互学习得到最优应急物资储备策略。本发明通过结合数字孪生技术和强化学习算法等方法,提高应急物资储备的准确性和效率,能够迅速、准确地提供所需应急物资,从而显著提升了应急响应能力。