مدلهای کلاسیک بهینه سازی پرتفوی، زمانی که محدودیت های بازار سرمایه و معیارهای تشکیل پرتفوی کم باشد قابل استفاده هستند. ولی با توجه به واقعیت های بازار سرمایه و ضعف مدل های کلاسیک در کشف روابط پیچیده و غیرخطی میتوان پی برد که مسئله پیچیده تر و فراتر از مدل های کلاسیک است. در حل مسائل این چنین پیچیده، علوم بین رشته ای، کامپیوترها و مدل های مبتنی بر یادگیری ماشین به کمک انسانها آمده اند و رویکردی موفق در حل این مسائل داشته اند. اخیراً تکنیکهای یادگیری عمیق، همچون شبکه عصبی بازگشتی برای بهینه سازی سبد سهام طراحی شدهاند. در این پژوهش، یک مدل شبکه عصبی کانولوشن یادگیری تقویتی عمیق، برای بهینه سازی سبد سهام بر اساس دادههای تاریخی پیشنهاد شدهاست. بدین منظور، ازبازدهی های روزانه 20شرکت پذیرفته شده در بورس اوراق بهادار تهران که دارای نقدینگی بالا در بازه زمانی 1392تا 0410بودند، استفاده شده است. نتایج به دست آمده از این تحقیق نشان می دهد بر اساس ارزیابی بازده پرتفوی، شاخص ریسک و شاخص شارپ و اینکه در همه معیارها نتایج به دست آمده پرتفوی مدل شبکه عصبی کانولوشن یادگیری عمیق در حد مطلوبی بوده است، می توان بیان داشت مدل شبکه عصبی کانولوشن یادگیری عمیق دارای توانایی مطلوبی در تشکیل پرتفوی بهینه سهام می باشد