إطلاق النماذج· Berkeley AI (BAIR)· 1 نوفمبر 2025· قبل 9 أشهر· قراءة دقيقة 1

RL بدون تعلم TD

في هذا المنشور، سأقدم خوارزمية التعلم المعزز (RL) بناءً على نموذج "بديل": فرق تسد. على عكس الطرق التقليدية، لا تعتمد هذه الخوارزمية على تعلم الفرق الزمني (TD) (...

لماذا يهم

تعمل النماذج الجديدة على إعادة ضبط حدود القدرة والأداء والسعر. تقوم الفرق بإعادة تقييم ما يجب البناء عليه عندما يؤدي الإطلاق إلى تغيير ما هو ممكن لكل دولار.