Convolution آپریشن convolutional neural networks (CNNs) کے دائرے میں ایک بنیادی عمل ہے، خاص طور پر تصویر کی شناخت کے ڈومین میں۔ یہ آپریشن تصاویر سے خصوصیات نکالنے میں اہم ہے، جس سے گہرے سیکھنے والے ماڈلز کو بصری ڈیٹا کو سمجھنے اور اس کی تشریح کرنے کی اجازت دیتا ہے۔ 2D امیج پر کنوولوشن آپریشن کی ریاضیاتی تشکیل یہ سمجھنے کے لیے ضروری ہے کہ CNN کس طرح تصویروں پر کارروائی اور تجزیہ کرتے ہیں۔
ریاضیاتی طور پر، 2D امیج کے لیے کنولوشن آپریشن کو اس طرح ظاہر کیا جا سکتا ہے:
[ (I * K)(x, y) = sum_{i=-m}^{m} sum_{j=-n}^{n} I(x+i, y+j) cdot K(i, j )]کہاں ہے:
- ( I ) ان پٹ امیج کی نمائندگی کرتا ہے۔
- (K) دانا یا فلٹر کو ظاہر کرتا ہے۔
- (x, y) ) آؤٹ پٹ پکسل کے نقاط ہیں۔
- (m) اور (n) بالترتیب دانا کی نصف چوڑائی اور نصف اونچائی ہیں۔
اس مساوات میں، دانا (K) ان پٹ امیج (I) پر سلائیڈ کرتا ہے، عنصر کے حساب سے ضرب لگاتا ہے اور نتائج کا خلاصہ کرتا ہے تاکہ ایک آؤٹ پٹ پکسل ویلیو پیدا ہو۔ یہ عمل آؤٹ پٹ فیچر میپ میں ہر پکسل کے لیے دہرایا جاتا ہے، جس کے نتیجے میں ایک تبدیل شدہ تصویر بنتی ہے جو دانا کی اقدار کی بنیاد پر مخصوص خصوصیات کو نمایاں کرتی ہے۔
کنولوشن آپریشن کو قدم بہ قدم مثال کے ذریعے بہتر طور پر سمجھا جا سکتا ہے۔ ایک سادہ 3×3 کرنل ( K ) اور 5×5 ان پٹ امیج ( I ) پر غور کریں :
[ K = start{bmatrix}1 اور 0 اور -1 \
1 اور 0 اور -1 \
1 اور 0 اور -1
اختتام{bmatrix} ] [ I = شروع {bmatrix}
1 اور 2 اور 3 اور 4 اور 5 \
6 اور 7 اور 8 اور 9 اور 10 \
11 اور 12 اور 13 اور 14 اور 15 \
16 اور 17 اور 18 اور 19 اور 20 \
21 اور 22 اور 23 اور 24 اور 25
اختتام{bmatrix} ]
کنولیشن کی گنتی کرنے کے لیے، ہم ان پٹ امیج کے ہر پکسل پر دانا کا مرکز رکھتے ہیں اور درج ذیل مراحل کو انجام دیتے ہیں:
1. دانا کو پوزیشن میں رکھیں: دانا کا مرکز تصویر کے اوپری بائیں کونے میں رکھیں۔
2. عنصر وار ضرب: دانا کے ہر عنصر کو تصویر کے متعلقہ عنصر سے ضرب دیں۔
3. سمن: عنصر وار ضرب کے نتائج کا مجموعہ۔
4. دانا کو منتقل کریں۔: دانا کو اگلی پوزیشن پر منتقل کریں اور 2-3 مراحل کو دہرائیں۔
پہلی پوزیشن (اوپر سے بائیں کونے) کے لیے، حساب درج ذیل ہے:
شروع کریں(I * K)(1، 1) &= (1 cdot 1) + (2 cdot 0) + (3 cdot -1) \
&quad + (6 cdot 1) + (7 cdot 0) + (8 cdot -1) \
&quad + (11 cdot 1) + (12 cdot 0) + (13 cdot -1) \
&= 1 + 0 – 3 + 6 + 0 – 8 + 11 + 0 – 13 \
&= -6
اختتام{ملحق} ]
یہ نتیجہ، -6، پوزیشن پر آؤٹ پٹ فیچر میپ کی قدر ہے (1، 1)۔ ان پٹ امیج پر دانا کی ہر پوزیشن کے لیے اس عمل کو دہرانے سے پورے آؤٹ پٹ فیچر کا نقشہ تیار ہوتا ہے۔
کنوولوشن آپریشن عام طور پر اضافی تصورات کے ساتھ ہوتا ہے جیسے کہ پیڈنگ اور سٹرائیڈ:
- بھرتی: آؤٹ پٹ فیچر میپ کے مقامی جہتوں کو کنٹرول کرنے کے لیے، ان پٹ امیج کے بارڈر کے ارد گرد اضافی پکسلز شامل کرنا، اکثر صفر (زیرو پیڈنگ) کے ساتھ۔ پیڈنگ اس بات کو یقینی بناتی ہے کہ آؤٹ پٹ فیچر میپ میں ان پٹ امیج جیسی ہی جہتیں ہوں، مقامی معلومات کو محفوظ رکھتے ہوئے۔
- تقویت: قدم کا سائز جس کے ذریعے دانا ان پٹ امیج میں حرکت کرتا ہے۔ 1 کی ترقی کا مطلب ہے کہ دانا ایک وقت میں ایک پکسل حرکت کرتا ہے، جب کہ 2 کی ترقی کا مطلب ہے کہ دانا ایک وقت میں دو پکسلز کو حرکت دیتا ہے۔ سٹرائیڈ آؤٹ پٹ فیچر میپ کے مقامی طول و عرض کو متاثر کرتی ہے، جس میں بڑی سٹرائیڈز چھوٹے آؤٹ پٹ ڈائمینشنز کی صورت میں نکلتی ہیں۔
کنولوشن آپریشن کے آؤٹ پٹ ڈائمینشنز کا حساب درج ذیل فارمولے سے کیا جا سکتا ہے۔
[ text{Output Width} = leftlfloor frac{text{Input Width} – text{Kernel Width} + 2 cdot text{padding}}{text{Stride}} rightrfloor + 1 ] [ text{Output Height} = leftlfloor frac{text {ان پٹ اونچائی} – ٹیکسٹ{کرنل کی اونچائی} + 2 cdot ٹیکسٹ{پیڈنگ}}{text{Stride}} rightrfloor + 1 ]یہ فارمولے اس بات کو یقینی بناتے ہیں کہ آؤٹ پٹ فیچر میپ کے مقامی طول و عرض ان پٹ امیج کے طول و عرض، دانا کے سائز، پیڈنگ، اور اسٹرائیڈ کی بنیاد پر درست طریقے سے طے کیے گئے ہیں۔
convolutional عصبی نیٹ ورکس کے تناظر میں، متعدد convolutional تہوں کو ایک ساتھ اسٹیک کیا جاتا ہے، ہر ایک سیکھنے کے قابل دانا کے اپنے سیٹ کے ساتھ۔ یہ پرتیں آہستہ آہستہ ان پٹ امیج سے اعلیٰ درجے کی خصوصیات نکالتی ہیں، جس سے نیٹ ورک پیچیدہ نمونوں اور اشیاء کو پہچان سکتا ہے۔ ہر پرت میں دانا کو تربیتی عمل کے دوران بیک پروپیگیشن کے ذریعے سیکھا جاتا ہے، جو دیئے گئے کام پر نیٹ ورک کی کارکردگی کو بہتر بناتا ہے۔
Convolutional تہوں کے بعد اکثر ایکٹیویشن فنکشنز ہوتے ہیں، جیسے ReLU (Rectified Linear Unit)، جو ماڈل میں غیر لکیری کو متعارف کراتے ہیں۔ یہ غیر خطوطی نیٹ ورک کو مزید پیچیدہ نمائندگی سیکھنے کی اجازت دیتا ہے۔ مزید برآں، پولنگ لیئرز، جیسے کہ زیادہ سے زیادہ پولنگ یا اوسط پولنگ، فیچر کے نقشوں کے مقامی طول و عرض کو کم کرنے کے لیے استعمال کیے جاتے ہیں، جس سے ماڈل کو کمپیوٹیشنل طور پر زیادہ موثر اور اوور فٹنگ کا کم خطرہ ہوتا ہے۔
تصویر کی شناخت کے لیے ایک قابل عمل نیورل نیٹ ورک کی ایک عملی مثال مشہور LeNet-5 فن تعمیر ہے، جسے ہاتھ سے لکھے ہوئے ہندسوں کی شناخت کے لیے ڈیزائن کیا گیا ہے۔ LeNet-5 متعدد convolutional اور pooling تہوں پر مشتمل ہے، جس کے بعد مکمل طور پر جڑی ہوئی تہیں ہیں۔ کنوولیشنل پرتیں ان پٹ امیجز سے خصوصیات نکالتی ہیں، جبکہ مکمل طور پر منسلک پرتیں حتمی درجہ بندی کرتی ہیں۔
LeNet-5 کے تناظر میں کنوولوشن آپریشن کو واضح کرنے کے لیے، پہلی convolutional تہہ پر غور کریں، جو ایک 32×32 ان پٹ امیج لیتی ہے اور چھ 5×5 کرنل لگاتی ہے جس میں 1 اور بغیر پیڈنگ کے ہیں۔ آؤٹ پٹ فیچر کے نقشوں میں 28×28 کے طول و عرض ہیں، جن کا حساب درج ذیل ہے:
[ text{Output Width} = leftlfloor frac{32 – 5 + 2 cdot 0}{1} rightrfloor + 1 = 28 ] [ text{Output Height} = leftlfloor frac{32 – 5 + 2 cdot 0}{1} rightrfloor + 1 = 28]چھ گٹھلیوں میں سے ہر ایک الگ 28×28 فیچر کا نقشہ تیار کرتا ہے، جو ان پٹ امیج کے مختلف پہلوؤں کو کیپچر کرتا ہے۔ یہ فیچر میپس پھر ایک ReLU ایکٹیویشن فنکشن اور 2 × 2 زیادہ سے زیادہ پولنگ لیئر کے ذریعے 2 کی ترقی کے ساتھ گزرے ہیں، جس کے نتیجے میں 14×14 فیچر میپس بنتے ہیں۔
LeNet-5 میں بعد کی پرتیں کنوولوشن اور پولنگ آپریشنز کو لاگو کرتی رہتی ہیں، فیچر نقشوں کی گہرائی کو بڑھاتے ہوئے مقامی جہتوں کو آہستہ آہستہ کم کرتی ہیں۔ حتمی مکمل طور پر جڑی ہوئی پرتیں نکالی گئی خصوصیات کی بنیاد پر درجہ بندی کرتی ہیں، پیش گوئی کردہ ہندسوں کی کلاس کو آؤٹ پٹ کرتی ہیں۔
Convolution آپریشن convolutional عصبی نیٹ ورکس کا سنگ بنیاد ہے، جس سے امیجز سے بامعنی خصوصیات کو نکالا جا سکتا ہے۔ کنوولوشن آپریشن کی ریاضیاتی تشکیل میں ان پٹ امیج پر دانا کو سلائیڈ کرنا، عنصر کے حساب سے ضرب کرنا، اور نتائج کا خلاصہ کرنا شامل ہے۔ اضافی تصورات جیسے کہ پیڈنگ اور سٹرائیڈ آؤٹ پٹ فیچر میپ کے مقامی جہتوں کو کنٹرول کرنے میں اہم کردار ادا کرتے ہیں۔ متحرک پرتیں، ایکٹیویشن فنکشنز اور پولنگ لیئرز کے ساتھ مل کر، LeNet-5 جیسے طاقتور امیج ریکگنیشن ماڈلز کے بلڈنگ بلاکس بناتی ہیں، جو بصری ڈیٹا میں پیچیدہ نمونوں اور اشیاء کو پہچاننے کی صلاحیت رکھتی ہیں۔
سے متعلق دیگر حالیہ سوالات اور جوابات اعلی درجے کی کمپیوٹر وژن:
- ایکٹیویشن فنکشن کا فارمولہ کیا ہے جیسا کہ رییکٹیفائیڈ لائنر یونٹ ماڈل میں غیر لکیری کو متعارف کرانے کے لیے؟
- کنولوشن نیورل نیٹ ورکس میں نقصان کے فنکشن کا ریاضیاتی فارمولا کیا ہے؟
- زیادہ سے زیادہ پولنگ کے لیے مساوات کیا ہے؟
- ویڈیوز میں ایکشن کی شناخت کے لیے 3D convolutions کے استعمال کے کیا فوائد اور چیلنجز ہیں، اور Kinetics ڈیٹاسیٹ تحقیق کے اس شعبے میں کس طرح تعاون کرتا ہے؟
- نظری بہاؤ کے تخمینے کے تناظر میں، FlowNet تصویروں کے جوڑوں کو پروسیس کرنے کے لیے ایک انکوڈر-ڈیکوڈر فن تعمیر کو کس طرح استعمال کرتا ہے، اور فلائنگ چیئرز ڈیٹاسیٹ اس ماڈل کی تربیت میں کیا کردار ادا کرتا ہے؟
- U-NET فن تعمیر کس طرح کنکشن کو چھوڑتا ہے تاکہ سیمنٹک سیگمنٹیشن آؤٹ پٹس کی درستگی اور تفصیل کو بڑھایا جا سکے، اور یہ کنکشن بیک پروپیگیشن کے لیے کیوں اہم ہیں؟
- ٹریننگ کی کارکردگی اور غیر امتیازی اجزاء کو ہینڈل کرنے کے لحاظ سے دو مرحلے کے ڈٹیکٹر جیسے تیز R-CNN اور ایک مرحلے کا پتہ لگانے والے RetinaNet کے درمیان کیا اہم فرق ہیں؟
- انٹرسیکشن اوور یونین (IoU) کا تصور چوکور نقصان کے استعمال کے مقابلے آبجیکٹ کا پتہ لگانے والے ماڈلز کی تشخیص کو کیسے بہتر بناتا ہے؟
- ResNet آرکیٹیکچرز میں بقایا کنکشن کس طرح بہت گہرے اعصابی نیٹ ورکس کی تربیت میں سہولت فراہم کرتے ہیں، اور تصویر کی شناخت کے ماڈلز کی کارکردگی پر اس کا کیا اثر پڑا؟
- 2012 میں AlexNet کی طرف سے متعارف کرائی جانے والی کون سی اہم اختراعات تھیں جنہوں نے convolutional عصبی نیٹ ورکس اور تصویر کی شناخت کے شعبے کو نمایاں طور پر آگے بڑھایا؟
ایڈوانسڈ کمپیوٹر ویژن میں مزید سوالات اور جوابات دیکھیں

