مبانی شبکه‌های عصبی: پرسپترون تا بهینه‌سازی

سلام به خوانندگان گرامی سایت تجدد! امروز در دنیایی زندگی می‌کنیم که پیشرفت هوش مصنوعی، به‌ویژه در زمینه یادگیری عمیق، با سرعتی باورنکردنی در حال وقوع است. این حوزه طی تنها یک دهه، از توانایی‌های ابتدایی به قابلیت‌هایی خیره‌کننده دست یافته است، تا حدی که شاید بسیاری از ما نسبت به این پیشرفت‌های سریع «حساسیت‌زدایی» شده‌ایم.

برای درک بهتر این انقلاب، کافی است نگاهی به گذشته بیندازیم. تنها یک دهه پیش، پیشرفته‌ترین سیستم‌های تولید چهره مبتنی بر یادگیری عمیق، تصاویری را تولید می‌کردند که در مقایسه با استانداردهای امروز، واقع‌گرایی بسیار پایینی داشتند. اما با گذشت چند سال، پیشرفت در تولید تصاویر بسیار چشمگیر شد و تصاویر واقعی‌تری تولید گشتند. و تنها چند سال بعد، این تصاویر جان گرفتند و اطلاعات زمانی، ویدئو و حرکت نیز به آن‌ها اضافه شد.

یک نمونه بارز این پیشرفت، ویدئویی است که در سال ۲۰۲۰ در دوره MIT 6.S191 ساخته شد و کلاس را معرفی می‌کرد. این ویدئو که در آن زمان غوغا به پا کرد و به دلیل واقع‌گرایی‌اش بسیار وایرال شد، یک جهش بزرگ در قابلیت‌های مدل‌های یادگیری عمیق محسوب می‌شد. اما نکته قابل توجه اینجاست که برای تولید آن کلیپ دو دقیقه‌ای، دو ساعت داده صوتی حرفه‌ای، ۵۰ ساعت داده ویدئویی حرفه‌ای با کیفیت بالا، و ۱۵,۰۰۰ دلار آمریکا هزینه محاسباتی نیاز بود. و همه اینها صرفاً برای یک اسکریپت از پیش تعریف‌شده و غیرقابل تعامل بود.

اما امروز در سال ۲۰۲۵، وضعیت کاملاً متفاوت است. همان‌طور که در یک نمایش زنده و ویرایش‌نشده نشان داده شد، می‌توان تنها با ضبط صدای یک سخنران در لحظه، بلافاصله صدای او را کلون کرد و سپس یک مکالمه زنده و پویا با آن صدای شبیه‌سازی‌شده انجام داد. این نمایش نشان می‌دهد که مدل‌های هوش مصنوعی مولد تا چه حد پویا و انعطاف‌پذیر شده‌اند.

یادگیری عمیق چیست و جایگاه آن کجاست؟

برای درک یادگیری عمیق، ابتدا باید جایگاه آن را در اکوسیستم هوش مصنوعی (AI) و یادگیری ماشینی (ML) درک کنیم:

هوش مصنوعی (Artificial Intelligence – AI): به معنای توانایی پردازش اطلاعات برای تصمیم‌گیری یا اقدام در آینده است. هوش مصنوعی، عمل ساخت الگوریتم‌های مصنوعی برای انجام دقیقاً همین فرآیند است: استفاده از اطلاعات و داده‌ها برای تصمیم‌گیری‌های آینده.
یادگیری ماشینی (Machine Learning – ML): زیرمجموعه‌ای از هوش مصنوعی است که بر عدم برنامه‌نویسی صریح کامپیوتر برای پردازش داده‌ها و تصمیم‌گیری تمرکز دارد. در عوض، یادگیری ماشینی تلاش می‌کند تا الگوهایی را در داده‌ها یاد بگیرد تا بتواند تصمیم‌گیری کند.
یادگیری عمیق (Deep Learning – DL): به سادگی، زیرمجموعه‌ای از یادگیری ماشینی است که این فرآیند را با استفاده از شبکه‌های عصبی عمیق انجام می‌دهد. در واقع، کل این دوره آموزشی در MIT بر این ایده اصلی تمرکز دارد: “شما یاد خواهید گرفت چگونه به کامپیوترها آموزش دهید که چگونه مستقیماً از طریق مشاهده و داده‌ها، وظایف را یاد بگیرند”. یادگیری عمیق در طیف وسیعی از کاربردها از جمله تشخیص تصویر، پردازش زبان طبیعی و خودروهای خودران استفاده می‌شود.

این پیشرفت‌های شگفت‌انگیز، که بسیاری از آنها ریشه‌های چندین دهه‌ای دارند، به دلیل هم‌زمانی سه عامل کلیدی که اخیراً به اوج خود رسیده‌اند، در حال حاضر مشاهده می‌شوند:

داده (Data): داده‌ها در سراسر جهان فراوان‌تر شده‌اند و این امر پیشرفت یادگیری عمیق را به جلو می‌راند.
قدرت محاسباتی (Compute): قدرت محاسباتی قوی‌تر و تجاری‌تر شده است، به ویژه معماری‌های GPU (واحد پردازش گرافیکی) که محرک اصلی پیشرفت در یادگیری عمیق هستند.
جعبه‌ابزارهای متن‌باز (Open Source Toolboxes): ابزارهایی مانند TensorFlow، PyTorch و Keras کار را برای همگان، حتی در یک دوره یک‌هفته‌ای، بسیار آسان و ساده کرده‌اند تا با این معماری‌ها کار کنند و مستقیماً مدل بسازند.

در صفحات بعدی، به جزئیات بیشتری درباره بلوک‌های سازنده این فناوری قدرتمند، یعنی نورون‌ها و نحوه ساخت شبکه‌های عصبی، خواهیم پرداخت.

صفحه ۲ از ۶: بلوک‌های سازنده شبکه‌های عصبی: پرسپترون و توابع فعال‌سازی

هر شبکه عصبی، هر چقدر هم که پیچیده باشد، از بلوک‌های ساختمانی اساسی به نام نورون‌ها یا پرسپترون‌ها تشکیل شده است. ایده یک پرسپترون یا یک نورون واحد بسیار ساده است.

عملکرد پرسپترون (نورون): یک پرسپترون اطلاعات را در سه مرحله اصلی پردازش می‌کند تا یک خروجی تولید کند:

ضرب نقطه‌ای ورودی‌ها و وزن‌ها (Dot Product and Weights):
- ابتدا، مجموعه‌ای از ورودی‌ها (X1 تا XM) دریافت می‌شود.
- هر یک از این ورودی‌ها در یک وزن (Weight) مربوطه (W1 تا WM) ضرب می‌شوند. این وزن‌ها اهمیت هر ورودی را برای نورون تعیین می‌کنند.
افزودن بایاس (Adding a Bias):
- پس از ضرب ورودی‌ها در وزن‌ها و جمع کردن نتایج، یک مقدار اضافی به نام بایاس (Bias) به این مجموع اضافه می‌شود.
- بایاس به نورون اجازه می‌دهد که خروجی خود را بدون توجه به ورودی‌هایش، به سمت بالا یا پایین شیفت دهد. این بخش (ضرب نقطه‌ای ورودی‌ها در وزن‌ها به علاوه بایاس) معمولاً به صورت Z نشان داده می‌شود که نتیجه قبل از اعمال تابع فعال‌سازی است.
تابع فعال‌سازی غیرخطی (Nonlinear Activation Function):
- نتیجه نهایی (Z) از یک تابع فعال‌سازی غیرخطی (Nonlinear Activation Function) عبور داده می‌شود که خروجی نهایی نورون (Y) را تولید می‌کند. این تابع، یک تابع یک‌بعدی غیرخطی است.

چرا توابع فعال‌سازی غیرخطی ضروری هستند؟ هدف اصلی توابع فعال‌سازی، معرفی غیرخطی بودن به مدل است. بدون یک تابع فعال‌سازی غیرخطی، حتی یک شبکه عصبی پیچیده نیز تنها یک مدل خطی خواهد بود.

مشکل مدل‌های خطی:
- داده‌های واقعی در جهان به شدت غیرخطی هستند.
- یک مدل خطی تنها می‌تواند روابط خطی را بین ورودی‌ها و خروجی‌ها کشف کند. به عنوان مثال، اگر داده‌ها به گونه‌ای باشند که با یک خط مستقیم قابل تفکیک نباشند (مانند نقاط قرمز و سبز در یک طرح دایره‌ای)، یک مدل خطی نمی‌تواند به درستی آنها را طبقه‌بندی کند.
مزیت غیرخطی بودن:
- مزیت داشتن غیرخطی بودن این است که به ما اجازه می‌دهد تا توابع پیچیده دلخواه را با عمق کافی در مدل خود تقریب بزنیم.
- این همان چیزی است که شبکه‌های عصبی غیرخطی را فوق‌العاده قدرتمند می‌سازد.

مثال‌هایی از توابع فعال‌سازی رایج:

تابع سیگموید (Sigmoid Function):
- این تابع می‌تواند روی هر عدد حقیقی عمل کند اما خروجی آن فقط بین ۰ و ۱ است.
- این تابع برای خروجی‌های احتمالی (مانند احتمال موفقیت یا عدم موفقیت) بسیار مناسب است.
واحد خطی تصحیح‌شده (Rectified Linear Unit – ReLU):
- این تابع خروجی‌هایی را تولید می‌کند که اکیداً مثبت هستند.
- این تابع قبل از صفر خطی و بعد از صفر نیز خطی است، اما در نقطه x=0 دارای یک غیرخطی بودن است.

در صفحه بعد، خواهیم دید که چگونه می‌توان این نورون‌های ساده را برای ساخت شبکه‌های عصبی پیچیده‌تر ترکیب کرد و به لایه‌ها و شبکه‌های عمیق دست یافت.

صفحه ۳ از ۶: ساخت شبکه‌های عصبی: از لایه‌های ساده تا شبکه‌های عمیق و کاربردهای عملی

همان‌طور که در صفحه قبل دیدیم، یک پرسپترون واحد می‌تواند اطلاعات را پردازش کند. اما قدرت واقعی یادگیری عمیق در ترکیب چندین نورون برای ساخت شبکه‌ها است.

لایه‌های متراکم (Dense Layers):

شبکه عصبی با چندین خروجی: اگر بخواهیم یک شبکه عصبی با چندین خروجی (به جای یک خروجی) داشته باشیم، به سادگی می‌توانیم چندین پرسپترون را به صورت موازی ایجاد کنیم. هر نورون ورودی‌های یکسانی را دریافت می‌کند، اما به دلیل وزن‌ها و بایاس‌های متفاوت، خروجی‌های متفاوتی را تولید می‌کند.
این نوع لایه‌ها معمولاً لایه‌های متراکم (Dense Layers) یا لایه‌های خطی (Linear Layers) نامیده می‌شوند، زیرا هر ورودی به هر خروجی در آن لایه متصل است و عملیات خطی انجام می‌دهد (به جز تابع فعال‌سازی).

شبکه‌های عصبی با لایه‌های پنهان (Single Hidden Layer Neural Networks):

یک شبکه عصبی با یک لایه پنهان، لایه‌ای است که بین لایه ورودی و لایه خروجی قرار می‌گیرد.
به آن پنهان (Hidden) گفته می‌شود زیرا ما داده‌هایی که در این لایه اتفاق می‌افتند را مستقیماً مشاهده نمی‌کنیم. لایه ورودی داده‌هایی است که ما به مدل می‌دهیم، و لایه خروجی نیز نتایجی است که ما بر آنها نظارت می‌کنیم.
این نوع شبکه شامل دو لایه تحول است: یکی از ورودی‌ها به لایه پنهان (با وزن‌های W1)، و دیگری از لایه پنهان به خروجی‌ها (با وزن‌های W2). هر واحد (نورون) در لایه پنهان نیز به همان روش پرسپترون عمل می‌کند: ضرب نقطه‌ای، افزودن بایاس و عبور از تابع فعال‌سازی.

شبکه‌های عصبی عمیق (Deep Neural Networks):

یک شبکه عصبی عمیق (Deep Neural Network) چیزی بیش از انباشتگی متوالی لایه‌های خطی و به دنبال آن غیرخطی، دوباره و دوباره، به صورت سلسله مراتبی نیست.
این مدل‌ها به صورت سلسله مراتبی عمیق‌تر و عمیق‌تر می‌شوند و عملیات خطی و غیرخطی را ترکیب می‌کنند.
تعداد لایه‌ها (عمق): عمق بیشتر در یک شبکه به معنای پیچیدگی بیشتر در شبکه است. برای کارهای پیچیده‌تر، به عمق بیشتری نیاز است زیرا غیرخطی بودن سلسله مراتبی بیشتری را معرفی می‌کنید. یک لایه منفرد با یک غیرخطی بودن، ظرفیت بیانی محدودی دارد.
تعداد خروجی‌ها: تعداد خروجی‌ها در یک لایه، با تعریف مسئله (Problem Definition) ارتباط دارد. اگر می‌خواهید چیزهای بیشتری را پیش‌بینی کنید، به خروجی‌های بیشتری نیاز دارید. برای مثال، تولید یک تصویر نیاز به تولید مقادیر برای هر پیکسل دارد (که خروجی‌های زیادی است)، در حالی که پیش‌بینی دمای فردا فقط یک خروجی عددی است.

مثالی از کاربرد عملی: پیش‌بینی موفقیت در یک کلاس بیایید یک مثال واقعی را بررسی کنیم: ساخت یک شبکه عصبی برای پیش‌بینی اینکه آیا یک دانشجو در کلاس موفق خواهد شد یا خیر.

ورودی‌ها: این مدل دو ورودی می‌گیرد:
- ۱. تعداد جلسات سخنرانی که شرکت می‌کنید.
- ۲. تعداد ساعاتی که برای پروژه نهایی خود صرف می‌کنید.
خروجی: یک خروجی منفرد خواهد داشت: احتمال قبولی در کلاس (یک عدد بین ۰ و ۱ که نشان‌دهنده احتمال قبولی است).
داده‌های آموزشی: با استفاده از داده‌های دانشجویان گذشته (نقاط سبز برای قبولی و نقاط قرمز برای عدم قبولی)، می‌توانیم مدل را آموزش دهیم.

این مثال نشان می‌دهد که چگونه می‌توان یک شبکه عصبی ساده را برای یک مسئله واقعی ساخت. اما نکته مهم اینجاست که مدل در ابتدا کاملاً بی‌تجربه است. دقیقاً مانند یک نوزاد که هیچ دانشی از جهان واقعی ندارد. در صفحه بعدی، به این نکته مهم می‌پردازیم که چگونه این مدل‌ها یاد می‌گیرند و خود را بهبود می‌بخشند.

صفحه ۴ از ۶: آموزش شبکه‌های عصبی: تابع زیان، بهینه‌سازی و پس‌انتشار

همان‌طور که در مثال پیش‌بینی قبولی در کلاس دیدیم، یک شبکه عصبی در ابتدا “آموزش‌دیده نیست” و پیش‌بینی‌های نادرستی انجام می‌دهد. برای بهبود عملکرد مدل، باید آن را آموزش داد. آموزش مدل به این معنی است که مدل باید بتواند پیش‌بینی‌های بد را تشخیص داده و quantify (کمی‌سازی) کند.

تابع زیان (Loss Function):

تعریف: تابع زیان یک شبکه عصبی، معیاری برای اندازه‌گیری فاصله پیش‌بینی‌های آن از پاسخ‌های واقعی (ground truth) داده‌ها است.
هدف: هرچه زیان کوچکتر باشد، به این معنی است که پیش‌بینی‌ها به واقعیت نزدیک‌تر هستند.
زیان تجربی (Empirical Loss): هنگام آموزش شبکه‌های عصبی، ما به دنبال یافتن مدل‌هایی هستیم که زیان را نه تنها برای یک نقطه داده، بلکه برای کل مجموعه داده به حداقل برسانند. این به معنای میانگین زیان برای هر نقطه داده در مجموعه داده است.
انواع توابع زیان:
- زیان آنتروپی متقاطع سافت‌مکس (Softmax Cross-Entropy Loss): برای مسائل طبقه‌بندی دودویی (مانند “بله/خیر”) استفاده می‌شود. این تابع، تفاوت بین دو توزیع احتمال دودویی را اندازه‌گیری می‌کند.
- زیان میانگین مربعات خطا (Mean Squared Error – MSE Loss): برای پیش‌بینی مقادیر پیوسته (مانند نمره درصدی) استفاده می‌شود. این تابع، تفاوت بین پیش‌بینی و مقدار واقعی را مربع کرده و جمع می‌کند تا یک معیار فاصله ایجاد کند.

هدف بهینه‌سازی (Optimization Objective): هدف نهایی در طول فرآیند آموزش، یافتن و ساخت شبکه‌ها یا مدل‌هایی است که زیان را در مجموعه داده به حداقل برسانند. از نظر ریاضی، این به معنای یافتن وزن‌هایی (W) است که منجر به حداقل زیان در کل مجموعه داده شوند. “W” در اینجا مجموعه‌ای از تمام وزن‌ها در تمام لایه‌های شبکه است.

گرادیان کاهشی (Gradient Descent):

مفهوم: اگر بتوانیم “منظر زیان” (Loss Landscape) را ترسیم کنیم (که در ابعاد بالا قابل تصور نیست)، هدف یافتن پایین‌ترین نقطه در این منظر است که متناظر با حداقل زیان است.
فرآیند (در کد شبه‌گونه):
1. تصادفی‌سازی وزن‌ها (Random Initialization): با یک نقطه تصادفی در منظر زیان شروع می‌کنیم.
2. محاسبه گرادیان (Compute the Gradient): گرادیان (Gradient) به ما نشان می‌دهد که در کدام جهت، زیان از نقطه فعلی افزایش می‌یابد. این به ما جهت تغییر وزن‌ها برای افزایش زیان را نشان می‌دهد.
3. گام برداشتن در جهت مخالف (Take a Step in the Opposite Direction): ما یک گام کوچک در جهت مخالف گرادیان (یعنی به سمت پایین تپه زیان) برمی‌داریم. این گام توسط نرخ یادگیری (Learning Rate) کنترل می‌شود.
4. تکرار (Repeat): این فرآیند بارها و بارها تکرار می‌شود تا زمانی که به یک حداقل محلی (Local Minimum) در منظر زیان برسیم.

پس‌انتشار (Backpropagation):

مفهوم: پس‌انتشار، فرآیند محاسبه گرادیان در یک شبکه عصبی است. این فرآیند به ما می‌گوید که چگونه یک تغییر کوچک در وزن‌های ما، زیان را تغییر می‌دهد.
نحوه کار: پس‌انتشار بر اساس قاعده زنجیره‌ای (Chain Rule) در حساب دیفرانسیل است. از لایه خروجی شروع می‌شود و به صورت گام به گام گرادیان‌ها را به سمت عقب، تا لایه ورودی، برای هر وزن در شبکه محاسبه می‌کند.
اهمیت: در پایان این فرآیند، برای هر وزن در شبکه، ما یک جهت داریم که نشان می‌دهد آیا افزایش آن وزن کمی، زیان ما را بالا می‌برد یا پایین.
پیاده‌سازی عملی: اگرچه از نظر تئوری صرفاً کاربرد قاعده زنجیره‌ای است، اما در عمل می‌تواند بسیار پیچیده و محاسباتی باشد. خوشبختانه، فریم‌ورک‌های یادگیری عمیق مدرن مانند TensorFlow و PyTorch این فرآیند را به صورت خودکار انجام می‌دهند و نیازی به پیاده‌سازی دستی آن نیست.

با درک این مفاهیم اساسی آموزش، در صفحه بعدی به چالش‌های عملی و راه‌حل‌های مربوط به آموزش شبکه‌های عصبی خواهیم پرداخت.

صفحه ۵ از ۶: ملاحظات عملی در آموزش شبکه‌های عصبی: نرخ یادگیری، دسته‌بندی و بیش‌برازش

بهینه‌سازی شبکه‌های عصبی در عمل بسیار دشوار است. منظر زیان (Loss Landscape) یک شبکه عصبی عمیق بسیار پیچیده و پر از پستی و بلندی است، به همین دلیل اعمال تکنیک‌های پس‌انتشار و بهینه‌سازی چالش‌برانگیز است.

نرخ یادگیری (Learning Rate):

تعریف: نرخ یادگیری، اندازه گام‌هایی را که در جهت مخالف گرادیان برمی‌داریم، دیکته می‌کند. این مقدار تعیین می‌کند که ما با چه سرعتی به گرادیان‌های محاسبه‌شده گوش می‌دهیم.
چالش‌ها:
- نرخ یادگیری خیلی کوچک: ممکن است باعث شود مدل در حداقل‌های محلی (Local Minima) گیر کند که بهترین حداقل‌ها نیستند.
- نرخ یادگیری خیلی بزرگ: می‌تواند منجر به رفتار ناپایدار شود، جایی که مدل بیش از حد گام برمی‌دارد و از نقطه پایدار یادگیری خارج می‌شود (واگرا می‌شود).
راه‌حل‌ها:
- تجربه و آزمایش (Trial and Error): یکی از روش‌های رایج، امتحان کردن چندین نرخ یادگیری و دیدن اینکه کدام یک بهترین عملکرد را دارد.
- الگوریتم‌های تطبیقی (Adaptive Algorithms): این الگوریتم‌ها نرخ یادگیری را بر اساس نحوه بهینه‌سازی در فضای جستجو تنظیم می‌کنند. نرخ یادگیری می‌تواند بر اساس گرادیان‌ها، شیب منظر زیان و سرعت یادگیری افزایش یا کاهش یابد. مثال‌های رایج شامل Adam (که بسیار پرکاربرد است) و سایر الگوریتم‌های با پیشوند ‘Ada’ مانند Adagrad، Adadelta، RMSprop هستند.

گرادیان کاهشی تصادفی در مقابل گرادیان کاهشی دسته‌ای (Stochastic vs. Mini-batch Gradient Descent):

گرادیان کاهشی (Full Gradient Descent): در این روش، گرادیان بر روی تمام نقاط داده در مجموعه داده محاسبه می‌شود. این روش از نظر محاسباتی بسیار گران است و در بسیاری از مسائل واقعی عملی نیست، زیرا در هر مرحله بهینه‌سازی، نیاز به پردازش کل مجموعه داده داریم.
گرادیان کاهشی تصادفی (Stochastic Gradient Descent – SGD): برای سرعت بخشیدن به فرآیند، SGD گرادیان را تنها بر روی یک نقطه داده تصادفی محاسبه می‌کند. این گرادیان بسیار پر سروصدا (noisy) است زیرا یک نقطه داده ممکن است نماینده کل مجموعه داده نباشد، اما بسیار سریع‌تر است.
گرادیان کاهشی مینی-بچ (Mini-batched Gradient Descent): این روش یک حد وسط بین دو روش قبلی است. گرادیان را بر روی یک دسته کوچک (mini-batch) از K نقطه داده (معمولاً ۳۲ یا ۱۲۸) محاسبه می‌کند. این روش:
- پایدارتر و قوی‌تر است نسبت به SGD، زیرا گرادیان میانگین‌گیری شده بر روی چندین نمونه است.
- سریع‌تر است نسبت به گرادیان کاهشی کامل.
- به دلیل پایداری بیشتر گرادیان، به ما امکان می‌دهد نرخ یادگیری بزرگ‌تری انتخاب کنیم.
- امکان موازی‌سازی آموزش را فراهم می‌کند، به ویژه با استفاده از GPUها، که منجر به افزایش سرعت قابل توجهی می‌شود.

بیش‌برازش (Overfitting) و منظم‌سازی (Regularization):

بیش‌برازش (Overfitting): این یک مشکل اساسی در یادگیری ماشین است. زمانی رخ می‌دهد که مدل بیش از حد روی داده‌های آموزشی خود حافظه کند، به طوری که عملکرد آن در داده‌های جدید و ندیده (داده‌های آزمایشی) آسیب می‌بیند. مدل به جای یادگیری نمایش‌های عمومی از داده‌ها، جزئیات خاص و نویز داده‌های آموزشی را حفظ می‌کند.
- مثال: اگر یک مجموعه داده آموزشی بسیار کوچک و یک شبکه عصبی بسیار بزرگ داشته باشید، مدل به سادگی تمام داده‌های مجموعه آموزشی را حفظ می‌کند. اما وقتی داده‌های آزمایشی جدیدی به آن نشان داده می‌شود، به دلیل عدم توانایی در تعمیم، عملکرد خوبی نخواهد داشت.
هدف نهایی: ما به عملکرد مدل در داده‌های جدید و ندیده (Test Data) اهمیت می‌دهیم، نه لزوماً در داده‌های آموزشی.
منظم‌سازی (Regularization): تکنیک‌هایی هستند که برای دلسرد کردن مدل از حافظه کردن پیچیده داده‌های آموزشی استفاده می‌شوند. این امر برای عملکرد کلی مدل حیاتی است.

تکنیک‌های منظم‌سازی رایج:

دراپ‌اوت (Dropout): محبوب‌ترین تکنیک منظم‌سازی. در طول آموزش، به صورت تصادفی برخی از فعال‌سازی‌های نورون‌های پنهان را با احتمال مشخصی (مثلاً ۵۰٪) روی صفر تنظیم می‌کنیم. این کار:
- مدل را مجبور می‌کند که به خروجی‌های هیچ یک از نورون‌های خاص بیش از حد وابسته نباشد.
- باعث می‌شود مدل مسیرهای متعددی را برای تصمیم‌گیری یاد بگیرد.
- حتی اگر داده‌های ورودی دو بار یکسان باشند، به دلیل تصادفی بودن دراپ‌اوت، مدل مسیر متفاوتی را طی می‌کند و نمی‌تواند داده‌ها را دقیقاً “به خاطر بسپارد”.
توقف زودهنگام (Early Stopping): این تکنیک شامل نظارت بر انحراف بین زیان آموزش و زیان آزمون/اعتبارسنجی (validation loss) است.
- در ابتدا، هر دو زیان آموزش و اعتبارسنجی کاهش می‌یابند که نشان‌دهنده یادگیری مدل است.
- در نقطه‌ای، زیان آموزش همچنان به کاهش ادامه می‌دهد (مدل بیشتر حافظه می‌کند)، اما زیان اعتبارسنجی شروع به افزایش می‌کند. این نقطه نشان‌دهنده شروع بیش‌برازش است.
- با توقف زودهنگام، مدلی را که در این نقطه به دست آمده است، ذخیره می‌کنیم، حتی اگر زیان آموزش بعد از آن نقطه بهبود یابد. این تضمین می‌کند که مدلی را انتخاب کرده‌ایم که بهترین تعمیم‌پذیری را دارد.
- این کار معمولاً با اجرای یک “آزمایش” کوچک بر روی یک زیرمجموعه از داده‌های اعتبارسنجی در هر چند صد یا هزار مرحله آموزش انجام می‌شود تا یک تخمین تقریبی از زیان اعتبارسنجی به دست آید.

در صفحه پایانی، به جمع‌بندی نکات و نگاهی به آینده یادگیری عمیق خواهیم پرداخت.

صفحه ۶ از ۶: نتیجه‌گیری و آینده یادگیری عمیق

در این مقاله، سفر خود را با درک پیشرفت‌های چشمگیر در یادگیری عمیق در طول یک دهه آغاز کردیم و دیدیم که چگونه این فناوری از تولید تصاویر ابتدایی به قابلیت‌های مکالمه زنده و کلون‌سازی صدا دست یافته است.

ما به تعریف و جایگاه یادگیری عمیق در میان هوش مصنوعی و یادگیری ماشینی پرداختیم، جایی که یادگیری عمیق به عنوان زیرمجموعه‌ای از یادگیری ماشینی، بر استفاده از شبکه‌های عصبی عمیق برای یادگیری از داده‌ها تاکید دارد.

سپس، به بلوک‌های ساختمانی اساسی شبکه‌های عصبی، یعنی پرسپترون‌ها یا نورون‌های واحد، پرداختیم. آموختیم که چگونه آنها اطلاعات را با استفاده از ضرب نقطه‌ای ورودی‌ها و وزن‌ها، افزودن یک بایاس و عبور از یک تابع فعال‌سازی غیرخطی پردازش می‌کنند. تأکید شد که غیرخطی بودن، برای قدرت و انعطاف‌پذیری شبکه‌های عصبی برای مدل‌سازی داده‌های پیچیده دنیای واقعی حیاتی است.

در ادامه، چگونگی انباشت این نورون‌ها برای تشکیل لایه‌های متراکم و سپس شبکه‌های عصبی عمیق با لایه‌های پنهان متعدد را بررسی کردیم. مثال پیش‌بینی قبولی در کلاس نشان داد که چگونه این مدل‌ها می‌توانند برای حل مسائل واقعی ساخته شوند.

مهم‌ترین بخش مقاله، فرآیند آموزش شبکه‌های عصبی را پوشش داد. آموختیم که مدل‌ها چگونه با توابع زیان (مانند زیان آنتروپی متقاطع برای طبقه‌بندی و MSE برای مقادیر پیوسته) پیش‌بینی‌های خود را ارزیابی می‌کنند. سپس، وارد مفهوم گرادیان کاهشی شدیم، الگوریتمی برای یافتن وزن‌هایی که زیان را به حداقل می‌رسانند، و نقش حیاتی پس‌انتشار در محاسبه گرادیان‌ها را درک کردیم.

نهایتاً، به ملاحظات عملی در آموزش شبکه‌های عصبی پرداختیم که شامل:

نقش حیاتی نرخ یادگیری در پایداری و سرعت آموزش.
مزایای گرادیان کاهشی مینی-بچ نسبت به گرادیان کامل و تصادفی در تعادل بین سرعت و دقت.
مشکل بیش‌برازش که زمانی رخ می‌دهد که مدل داده‌های آموزشی را بیش از حد حفظ کند.
و تکنیک‌های منظم‌سازی مانند دراپ‌اوت برای جلوگیری از بیش‌برازش با دلسرد کردن مدل از اتکا به نورون‌های خاص و توقف زودهنگام برای ذخیره بهترین مدل بر اساس عملکرد آن در داده‌های اعتبارسنجی.

همه این پیشرفت‌ها و کاربردهای گسترده، به لطف هم‌زمان شدن فراوانی داده‌ها، افزایش قدرت محاسباتی (به ویژه GPUها) و در دسترس بودن جعبه‌ابزارهای متن‌باز میسر شده است.

یادگیری عمیق نه تنها یک رشته هیجان‌انگیز است، بلکه ابزاری قدرتمند است که در طیف وسیعی از کاربردها، از تشخیص تصویر و پردازش زبان طبیعی گرفته تا وسایل نقلیه خودران، مورد استفاده قرار می‌گیرد. امید است که این مقاله، درک عمیق‌تری از این حوزه انقلابی را برای شما فراهم کرده باشد.

Posted in اندیشه ، فلسفه