TPU v2 (ٹینسر پروسیسنگ یونٹ ورژن 2) ایک خصوصی ہارڈ ویئر ایکسلریٹر ہے جسے گوگل نے مشین لرننگ ورک بوجھ کے لیے تیار کیا ہے۔ یہ خاص طور پر ڈیپ لرننگ ماڈلز کی کارکردگی اور کارکردگی کو بڑھانے کے لیے ڈیزائن کیا گیا ہے۔ اس جواب میں، ہم TPU v2 کے لے آؤٹ ڈھانچے کو تلاش کریں گے اور ہر کور کے اجزاء پر تبادلہ خیال کریں گے۔
TPU v2 لے آؤٹ کو متعدد کوروں میں منظم کیا گیا ہے، ہر ایک مختلف اجزاء پر مشتمل ہے۔ ہر کور متوازی طور پر میٹرکس ضرب کی کارروائیوں کی ایک بڑی تعداد کو انجام دینے کی صلاحیت رکھتا ہے، جو بہت سے مشین لرننگ الگورتھم میں ایک بنیادی آپریشن ہے۔
ہر TPU v2 کور کے مرکز میں پروسیسنگ عناصر (PEs) کی ایک صف ہے۔ یہ PEs اصل حسابات کو انجام دینے کے لیے ذمہ دار ہیں۔ وہ میٹرکس ضرب کے لیے انتہائی بہتر بنائے گئے ہیں اور یہ آپریشنز اعلی تھرو پٹ اور کم تاخیر کے ساتھ انجام دے سکتے ہیں۔ ہر کور میں PEs کی تعداد مخصوص TPU v2 ماڈل کے لحاظ سے مختلف ہوتی ہے۔
PEs مقامی میموری کے درجہ بندی سے جڑے ہوئے ہیں، جس میں کیش کی مختلف سطحیں شامل ہیں۔ یہ کیچز انٹرمیڈیٹ نتائج کو ذخیرہ کرنے اور بیرونی میموری تک رسائی کی ضرورت کو کم کرنے کے لیے استعمال کیے جاتے ہیں، جو کارکردگی کے لحاظ سے ایک اہم رکاوٹ ہو سکتی ہے۔ TPU v2 صلاحیت اور تاخیر کے درمیان توازن فراہم کرنے کے لیے آن-چِپ SRAM (سٹیٹک رینڈم-ایکسیس میموری) اور آف-چِپ DRAM (ڈائنامک رینڈم-ایکسیس میموری) کا مجموعہ استعمال کرتا ہے۔
PEs اور میموری کے درجہ بندی کے علاوہ، ہر TPU v2 کور میں ایک کنٹرول یونٹ بھی شامل ہوتا ہے۔ کنٹرول یونٹ ہدایات پر عمل درآمد اور مختلف اجزاء کے درمیان ڈیٹا کے بہاؤ کو منظم کرنے کے لیے ذمہ دار ہے۔ یہ اس بات کو یقینی بناتا ہے کہ PEs کا صحیح استعمال کیا گیا ہے اور یہ کہ کمپیوٹیشنز ایک موثر انداز میں آگے بڑھ رہی ہیں۔
مزید برآں، TPU v2 ایک اعلی بینڈوتھ انٹرکنیکٹ فیبرک کو شامل کرتا ہے جو متعدد کور کو ایک دوسرے کے ساتھ بات چیت کرنے کی اجازت دیتا ہے۔ یہ باہم مربوط ڈیٹا کو موثر طریقے سے شیئر کرنے اور کور کے درمیان ہم آہنگی کو قابل بناتا ہے، جو متوازی پروسیسنگ کے لیے اہم ہے۔ یہ اس بات کو یقینی بناتا ہے کہ TPU v2 مربوط طریقے سے متعدد کوروں کو استعمال کرتے ہوئے اپنی کارکردگی کو مؤثر طریقے سے پیمانہ بنا سکتا ہے۔
خلاصہ کرنے کے لیے، TPU v2 لے آؤٹ متعدد کوروں کے ارد گرد تشکیل دیا گیا ہے، ہر ایک پراسیسنگ عناصر، ایک مقامی میموری کا درجہ بندی، ایک کنٹرول یونٹ، اور ایک اعلی بینڈوتھ انٹرکنیکٹ فیبرک پر مشتمل ہے۔ یہ اجزاء مشین لرننگ کے کام کے بوجھ کے موثر اور اعلیٰ کارکردگی کے نفاذ کو قابل بنانے کے لیے مل کر کام کرتے ہیں۔
سے متعلق دیگر حالیہ سوالات اور جوابات ٹی پی یو وی 2 اور وی 3 میں ڈائیونگ کرنا:
- کیا bfloat16 ڈیٹا فارمیٹ کے استعمال کے لیے TPU کے لیے خصوصی پروگرامنگ تکنیک (Python) کی ضرورت ہے؟
- TPU v3 کے مقابلے TPU v2 کی کیا بہتری اور فوائد ہیں، اور پانی کو ٹھنڈا کرنے والا نظام ان اضافہ میں کس طرح تعاون کرتا ہے؟
- TPU v2 pods کیا ہیں، اور وہ TPUs کی پروسیسنگ پاور کو کیسے بڑھاتے ہیں؟
- TPU v16 میں bfloat2 ڈیٹا ٹائپ کی کیا اہمیت ہے، اور یہ کمپیوٹیشنل پاور کو بڑھانے میں کس طرح تعاون کرتا ہے؟
- ڈیزائن اور صلاحیتوں کے لحاظ سے TPU v2 اور TPU v1 کے درمیان اہم فرق کیا ہیں؟

