近日,經(jīng)濟(jì)管理學(xué)院謝芳副教授在《Expert Systems with Applications》上發(fā)表題為《Integrating simulation, optimization and reinforcement learning for a general class of stochastic scheduling problems》的學(xué)術(shù)論文。煙臺(tái)大學(xué)經(jīng)濟(jì)管理學(xué)院為該論文第一單位,謝芳副教授為論文第一作者,
論文圍繞隨機(jī)調(diào)度問題展開研究,在考慮活動(dòng)持續(xù)時(shí)間不確定、資源約束及時(shí)序關(guān)系等多重制約因素下,將離散時(shí)間馬爾可夫鏈(DTMC)、近似動(dòng)態(tài)規(guī)劃(ADP)與強(qiáng)化學(xué)習(xí)納入統(tǒng)一的研究框架。結(jié)合模擬、優(yōu)化算法及遺傳算法等技術(shù),分析了不同方法對(duì)求解隨機(jī)資源受限項(xiàng)目調(diào)度問題(SRCPSP)的性能影響,構(gòu)建了可計(jì)算的閉環(huán)策略。結(jié)果表明,所提出的Sim-Opt-RL框架在15組測(cè)試實(shí)例中9組表現(xiàn)優(yōu)于現(xiàn)有算法,處理120個(gè)活動(dòng)的實(shí)例平耗時(shí)小于30分鐘。本研究首次將模擬、優(yōu)化與強(qiáng)化學(xué)習(xí)集成于隨機(jī)調(diào)度問題的閉環(huán)策略設(shè)計(jì),為復(fù)雜不確定環(huán)境下的資源調(diào)度提供了可擴(kuò)展的算法框架與決策參考。
論文鏈接:
http://www.sciencedirect.com/science/article/abs/pii/S0957417425011108
來稿時(shí)間:6月6日 審核:袁健惠 責(zé)任編輯:裴書峰