این پژوهش به بررسی استفاده از یادگیری تقویتی عمیق در بهینهسازی سبد سرمایهگذاری میپردازد و به ادغام آن با تئوری مدرن سبد سرمایهگذاری پرداخته و تحولاتی را در استراتژیهای مدیریت مالی نشان میدهد. در حالی که تئوری مدرن سبد سرمایهگذاری به عنوان یک چارچوب ریاضی برای حداکثرسازی بازده مورد انتظار با در نظر گرفتن ریسک شناخته میشود، نواقص آن، نظیر فرضیات مربوط به توزیع نرمال بازدهها و غفلت از هزینههای معاملاتی، نیاز به راهحلهای انطباقپذیر را در بازارهای مالی پیچیده و پویا به وضوح نمایان میسازد. این پژوهش نشان میدهد که با بکارگیری یادگیری تقویتی عمیق، سرمایهگذاران قادر خواهند بود تا با بهرهبرداری از دادههای لحظهای و تواناییهای تصمیمگیری پویا، استراتژیهای سرمایهگذاری کارآمدتر و قدرتمندتری را توسعه دهند. همچنین، چالشهایی نظیر کیفیت داده، پیچیدگی محاسباتی و قابلیت تفسیر مدلهای یادگیری تقویتی عمیق به صورت عمیق مورد بحث قرار گرفته است. در این پژوهش، یک مدل شبکه عصبی الگوریتم لونبرگ- ماد یادگیری تقویتی عمیق، برای بهینه سازی سبد سهام بر اساس دادههای تاریخی پیشنهاد شدهاست. بدین منظور، از دادههای 10 شرکت پذیرفته شده در بورس اوراق بهادار تهران که دارای نقدینگی بالا در بازه زمانی 1390 تا 1400 بودند، استفاده شده است. نتایج بهدستآمده از این مطالعه نشان میدهد که الگوریتمهای یادگیری تقویتی عمیق در انتخاب پورتفوی میتواند به افزایش ۱۵ درصدی بازده تجمعی در مقایسه با روشهای سنتی منجر شود. علاوه بر این، این مقاله به تحلیلگران و سرمایهگذاران توصیه میکند که از تکنیکهای پیشرفتهای برای بهبود پایداری عملکرد شرکتها استفاده کنند تا بتوانند تصمیمات بهتری در زمینه سرمایهگذاری اتخاذ نمایند. در نهایت، این تحقیق راهکارهایی برای پژوهشهای آینده در این زمینه ارائه میدهد.