EITC/AI/ARL Advanced Reinforcement Learning مصنوعی ذہانت میں کمک سیکھنے کے لیے DeepMind کے نقطہ نظر پر یورپی IT سرٹیفیکیشن پروگرام ہے۔
EITC/AI/ARL Advanced Reinforcement Learning کا نصاب مندرجہ ذیل ڈھانچے کے اندر منظم ڈیپ مائنڈ کے نقطہ نظر سے کمک سیکھنے کی تکنیکوں میں نظریاتی پہلوؤں اور عملی مہارتوں پر توجہ مرکوز کرتا ہے، جس میں اس EITC سرٹیفیکیشن کے حوالے کے طور پر جامع ویڈیو ڈیڈیکٹک مواد شامل ہے۔
کمک سیکھنے (آر ایل) مشین لرننگ کا ایک ایسا شعبہ ہے جس سے متعلق ہے کہ ذہین ایجنٹوں کو ماحولیات میں کس طرح اقدامات کرنے چاہ. تاکہ اجر reward ثواب کے تصور کو زیادہ سے زیادہ بنایا جاسکے۔ کمک سیکھنا تین بنیادی مشینوں کے سیکھنے کے نمونوں میں سے ایک ہے ، اس کے ساتھ ساتھ زیر نگرانی سیکھنے اور غیر سروے شدہ سیکھنا بھی ہے۔
کمبل سیکھنے میں لیبل لگا ان پٹ/آؤٹ پٹ جوڑے پیش کرنے کی ضرورت نہ کرنے ، اور واضح طور پر درست کرنے کے لئے ذیلی زیادہ سے زیادہ کارروائیوں کی ضرورت نہ کرنے میں نگرانی سیکھنے سے مختلف ہے۔ اس کی بجائے اس کی توجہ ریسرچ (غیرمحل علاقہ) اور استحصال (موجودہ علم کے) کے مابین ایک توازن تلاش کرنے پر ہے۔
ماحول عام طور پر ایک مارکوف فیصلے کے عمل (MDP) کی شکل میں بیان کیا جاتا ہے ، کیونکہ اس تناظر میں بہت سے کمک سیکھنے کے الگورتھم متحرک پروگرامنگ تکنیک استعمال کرتے ہیں۔ کلاسیکی متحرک پروگرامنگ کے طریقوں اور کمک سیکھنے کے الگورتھم کے مابین بنیادی فرق یہ ہے کہ مؤخر الذکر MDP کے عین مطابق ریاضیاتی ماڈل کا علم نہیں لیتے ہیں اور وہ بڑے MDPs کو نشانہ بناتے ہیں جہاں عین طریقے سے ناقابل استعمال ہوجاتے ہیں۔
اس کی عام حیثیت کی وجہ سے ، کمک سیکھنے کا بہت سارے شعبوں میں مطالعہ کیا جاتا ہے ، جیسے گیم تھیوری ، کنٹرول تھیوری ، آپریشنز ریسرچ ، انفارمیشن تھیوری ، انکار پر مبنی اصلاح ، ملٹی ایجنٹ سسٹم ، بھیڑ انٹلیجنس اور اعدادوشمار۔ آپریشنز ریسرچ اینڈ کنٹرول لٹریچر میں کمک سیکھنے کو لگ بھگ متحرک پروگرامنگ یا نیورو متحرک پروگرامنگ کہا جاتا ہے۔ کمک سیکھنے میں دلچسپی کے مسائل کا زیادہ سے زیادہ کنٹرول کے نظریہ میں بھی مطالعہ کیا گیا ہے ، جس کا تعلق زیادہ تر حل حل کی موجودگی اور خصوصیات ، اور ان کے عین مطابق حساب کتاب کے ل al الگورتھم سے ہے ، اور خاص طور پر عدم موجودگی میں ماحول کا ایک ریاضیاتی ماڈل۔ معاشیات اور گیم تھیوری میں ، کمک سیکھنے کو یہ سمجھانے کے لئے استعمال کیا جاسکتا ہے کہ پابند عقلیت کے تحت توازن کس طرح پیدا ہوسکتا ہے۔
بنیادی کمک کو مارکوف فیصلے کے عمل (MDP) کے طور پر نمونہ بنایا گیا ہے۔ ریاضی میں ، مارکوف کا فیصلہ کرنے والا عمل (MDP) ایک مجرد وقت کا اسٹاکسٹک کنٹرول عمل ہوتا ہے۔ یہ ایسے حالات میں ماڈلنگ کے فیصلے کے لئے ریاضی کا ایک فریم ورک مہیا کرتا ہے جہاں نتائج جزوی طور پر بے ترتیب اور جزوی طور پر فیصلہ ساز بنانے والے کے ماتحت ہوتے ہیں۔ ایم ڈی پیز متحرک پروگرامنگ کے ذریعہ حل شدہ اصلاح کے مسائل کا مطالعہ کرنے کے لئے مفید ہیں۔ ایم ڈی پیز کم سے کم 1950 کے عشرے سے ہی جانا جاتا تھا۔ مارکوف کے فیصلے کے عمل کے بارے میں تحقیق کا ایک بنیادی ادارہ رونالڈ ہاورڈ کی 1960 کی کتاب ، متحرک پروگرامنگ اور مارکوف پروسیسیس کے نتیجے میں نکلا ہے۔ یہ روبوٹکس ، خودکار کنٹرول ، معاشیات اور تیاری سمیت بہت سے شعبوں میں استعمال ہوتے ہیں۔ MDPs کا نام روسی ریاضی دان آندرے مارکوف سے آیا ہے کیونکہ وہ مارکوف کی زنجیروں کی توسیع ہیں۔
ہر وقت مرحلہ پر ، عمل کچھ ریاست S میں ہوتا ہے ، اور فیصلہ کرنے والا کوئی بھی ایسی کارروائی کا انتخاب کرسکتا ہے جو ریاست S میں دستیاب ہو۔ عمل اگلے ہی مرحلے میں تصادفی طور پر کسی نئی ریاست S میں منتقل ہو کر ، اور اس کو دے کر جواب دے گا فیصلہ کرنے والا ایک متعلقہ انعام (را ، ایس ، ایس) بناتا ہے۔
اس امکان کو جو عمل اپنی نئی حالت S میں لے جاتا ہے ، منتخب کردہ عمل a سے متاثر ہوتا ہے۔ خاص طور پر ، یہ ریاست کی منتقلی کی تقریب Pa (S، S ') کے ذریعہ دی گئی ہے۔ اس طرح ، اگلی ریاست S 'موجودہ ریاست S اور فیصلہ ساز بنانے والے کے عمل پر انحصار کرتی ہے۔ لیکن ایس اور اے کی حیثیت سے ، یہ پچھلی تمام ریاستوں اور اقدامات سے مشروط طور پر آزاد ہے۔ دوسرے الفاظ میں ، ایم ڈی پی کی ریاستی تبدیلی مارکوف کی جائداد کو پورا کرتی ہے۔
مارکوف کے فیصلے کے عمل مارکوف زنجیروں کی توسیع ہیں۔ فرق میں اعمال (انتخاب کی اجازت) اور انعامات (محرک عطا کرنا) کا اضافہ ہے۔ اس کے برعکس ، اگر ہر ریاست کے لئے صرف ایک ہی عمل موجود ہے (مثال کے طور پر "انتظار") اور تمام انعامات ایک جیسے ہیں (مثال کے طور پر "صفر") ، ایک مارکوف کے فیصلے کا عمل مارکوف کی زنجیر سے کم ہوتا ہے۔
کمک سیکھنے کا ایک ایجنٹ اپنے ماحول کے ساتھ وقت کے مختلف مراحل میں بات کرتا ہے۔ ہر وقت t ، ایجنٹ کو موجودہ حالت S (t) اور انعام r (t) ملتا ہے۔ اس کے بعد وہ دستیاب اعمال کے سیٹ سے ایک ایکشن (t) کا انتخاب کرتا ہے ، جو بعد میں ماحول کو بھیجا جاتا ہے۔ ماحول نئی حالت S (t + 1) میں منتقل ہوتا ہے اور منتقلی سے وابستہ اجر r (t + 1) کا تعین ہوتا ہے۔ کمک سیکھنے کے ایجنٹ کا مقصد ایک ایسی پالیسی سیکھنا ہے جو متوقع مجموعی انعام کو زیادہ سے زیادہ بنائے۔
MDP کے بطور مسئلہ تشکیل دینا ایجنٹ کی موجودہ ماحولیاتی حالت کا براہ راست مشاہدہ کرتا ہے۔ اس معاملے میں کہا جاتا ہے کہ اس مسئلے کی پوری نگرانی ہے۔ اگر ایجنٹ کو صرف ریاستوں کے ذیلی حصے تک رسائی حاصل ہے ، یا اگر مشاہدہ شدہ ریاستیں شور سے خراب ہو گئیں تو ، کہا جاتا ہے کہ اس ایجنٹ کو جزوی طور پر مشاہدہ کیا جاتا ہے ، اور باضابطہ طور پر اس مسئلے کو جزوی طور پر قابل مشاہدہ مارکوف کے فیصلے کے عمل کے طور پر وضع کیا جانا چاہئے۔ دونوں ہی صورتوں میں ، ایجنٹ کو دستیاب کارروائیوں کے سیٹ کو محدود کیا جاسکتا ہے۔ مثال کے طور پر ، اکاؤنٹ بیلنس کی حالت مثبت ہونے تک محدود ہوسکتی ہے۔ اگر ریاست کی موجودہ قیمت 3 ہے اور ریاست کی منتقلی 4 سے قیمت کو کم کرنے کی کوشش کرتی ہے تو ، منتقلی کی اجازت نہیں ہوگی۔
جب ایجنٹ کی کارکردگی کا موازنہ کسی ایجنٹ سے کیا جاتا ہے جو بہتر طور پر کام کرتا ہے تو ، کارکردگی میں فرق ندامت کے تصور کو جنم دیتا ہے۔ بہتر سے بہتر طور پر کام کرنے کے ل agent ، ایجنٹ کو لازمی طور پر اپنے افعال کے طویل مدتی نتائج (یعنی مستقبل کی آمدنی کو زیادہ سے زیادہ بنانے) کے بارے میں استدلال کرنا چاہئے ، حالانکہ اس سے وابستہ فوری اجر منفی ہوسکتا ہے۔
اس طرح ، کمک سیکھنے خاص طور پر ان مسائل کے لئے موزوں ہے جس میں طویل مدتی بمقابلہ قلیل مدتی انعام کی تجارت شامل ہے۔ اس کو روبوٹ کنٹرول ، لفٹ شیڈولنگ ، ٹیلی مواصلات ، بیکگیممان ، چیکرس اور گو (الفاگو) سمیت مختلف مسائل پر کامیابی سے لاگو کیا گیا ہے۔
دو عناصر کمک سیکھنے کو طاقتور بناتے ہیں: کارکردگی کو بہتر بنانے کے لئے نمونوں کا استعمال اور بڑے ماحول سے نمٹنے کے لئے فنکشن کے قریب ہونے کا استعمال۔ ان دو اہم اجزاء کی بدولت ، کمک سیکھنے کو درج ذیل صورتحال میں بڑے ماحول میں استعمال کیا جاسکتا ہے۔
- ماحول کا ایک ماڈل معلوم ہے ، لیکن تجزیاتی حل دستیاب نہیں ہے۔
- ماحول کا صرف ایک نقلی نمونہ دیا گیا ہے (تخروپن پر مبنی اصلاح کا مضمون)۔
- ماحول کے بارے میں معلومات اکٹھا کرنے کا واحد طریقہ یہ ہے کہ اس کے ساتھ بات چیت کی جائے۔
ان میں سے دو پریشانیوں کو منصوبہ بندی کے مسائل پر غور کیا جاسکتا ہے (چونکہ ماڈل کی کچھ شکل دستیاب ہے) ، جبکہ آخری ایک حقیقی تعلیم کا مسئلہ سمجھا جاسکتا ہے۔ تاہم ، کمک سیکھنے منصوبہ بندی کے دونوں دشواریوں کو مشین لرننگ کے مسائل میں بدل دیتا ہے۔
اس ریسرچ بمقابلہ استحصال تجارت کا سب سے زیادہ مطالعہ کثیر مسلح ڈاکو مسئلے کے ذریعہ اور برنیٹاس اور کٹھاکیس (1997) میں محدود ریاستی خلائی ایم ڈی پیز کے لئے کیا گیا ہے۔
کمک سیکھنے کے لئے چالاک کے چالاک طریقہ کار کی ضرورت ہوتی ہے۔ کسی تخمینے کے امکان کے مطابق تقسیم کے حوالہ کے بغیر تصادفی سے اقدامات کا انتخاب ناقص کارکردگی کو ظاہر کرتا ہے۔ (چھوٹے) محدود مارکوف کے فیصلے کے عمل کا معاملہ نسبتا well اچھی طرح سے سمجھا جاتا ہے۔ تاہم ، الگورتھم کی کمی کی وجہ سے جو ریاستوں کی تعداد (یا ریاست کے لامحدود مقامات سے متعلق مسائل کی پیمائش) کے ساتھ اچھ .ا ہے ، اس کی تلاش کے آسان طریقے سب سے زیادہ عملی ہیں۔
یہاں تک کہ اگر ریسرچ کے معاملے کو نظرانداز نہیں کیا جاتا ہے اور یہاں تک کہ اگر ریاست مشاہدہ کر رہی ہے ، تو بھی یہ مسئلہ باقی ماضی کے تجربے کو استعمال کرنے کے لئے باقی ہے جو یہ جان سکتا ہے کہ کون سے اقدامات زیادہ اجتماعی انعامات کا باعث بنتے ہیں۔
سرٹیفیکیشن کے نصاب سے اپنے آپ کو تفصیل سے آشنا کرنے کے لیے آپ نیچے دی گئی جدول کو بڑھا سکتے ہیں اور اس کا تجزیہ کر سکتے ہیں۔
EITC/AI/ARL Advanced Reinforcement Learning Certification Curriculum ایک ویڈیو فارم میں کھلی رسائی کے تدریسی مواد کا حوالہ دیتا ہے۔ سیکھنے کے عمل کو مرحلہ وار ڈھانچے (پروگرام -> اسباق -> عنوانات) میں تقسیم کیا گیا ہے جس میں نصاب کے متعلقہ حصوں کا احاطہ کیا گیا ہے۔ ڈومین کے ماہرین کے ساتھ لامحدود مشاورت بھی فراہم کی جاتی ہے۔
سرٹیفیکیشن کے طریقہ کار کی تفصیلات کے لیے چیک کریں۔ یہ کیسے کام کرتا ہے.
نصاب حوالہ وسائل
ڈیپ ری انفورسمنٹ لرننگ اشاعت کے ذریعہ انسانی سطح پر کنٹرول
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
یو سی برکلے میں گہری کمک کمک سیکھنے سے متعلق اوپن ایکسیس کورس
http://rail.eecs.berkeley.edu/deeprlcourse/
آر ایل نے منیفولڈ ڈاٹ ای سے K- آربیڈ ڈاکو کے مسئلے پر درخواست دی
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
EITC/AI/ARL ایڈوانسڈ ریانفورسمنٹ لرننگ پروگرام کے لیے مکمل آف لائن سیلف لرننگ تیاری کا مواد پی ڈی ایف فائل میں ڈاؤن لوڈ کریں۔
EITC/AI/ARL تیاری کے مواد - معیاری ورژن
EITC/AI/ARL تیاری کا مواد - جائزہ سوالات کے ساتھ توسیع شدہ ورژن