يتم التشغيل بواسطة Blogger.

أرشيف المدونة الإلكترونية

تعزيز التعلم من خلال التجربة ، تفكر أجهزة الكمبيوتر في كيفية القيام بأشياء لا يستطيع أي مبرمج تعليمها.



في جانب محاكاة كمبيوتر بسيطة ، تقوم مجموعة من السيارات ذاتية القيادة بمناورة تبدو مجنونة على طريق سريع افتراضي من أربعة حارات. يحاول نصفهم الانتقال من الممرات اليمنى بينما يحاول النصف الآخر الاندماج من اليسار. يبدو الأمر وكأنه نوع من الصعوبة قد يلف سيارة روبوت ، لكنهم يديرونها بدقة.
أنا أشاهد محاكاة القيادة في أكبر مؤتمر للذكاء الاصطناعي لهذا العام ، والذي عقد في برشلونة في ديسمبر الماضي. ما هو أكثر مدعاة للإعجاب هو أن البرنامج الذي يحكم سلوك السيارات لم يبرمج بالمعنى التقليدي على الإطلاق. تعلمت كيفية الدمج ، بسلامة وأمان ، ببساطة عن طريق الممارسة. أثناء التدريب ، قام برنامج التحكم بإجراء المناورة مرارا وتكرارا ، ليغير تعليماته قليلا مع كل محاولة. في معظم الأحيان ، حدث الاندماج بطريقة بطيئة للغاية وتدخلت السيارات مع بعضها البعض. ولكن كلما كان الدمج سلسًا ، يتعلم النظام تفضيل السلوك الذي أدى إليه.
هذا النهج ، المعروف باسم التعلم التعزيزي ، هو إلى حد كبير كيف أن AlphaGo ، وهو جهاز كمبيوتر طورته شركة فرعية تابعة لـ Alphabet يدعى DeepMind ، أتقن لعبة اللوحة المعقدة بشكل مستحيل Go وضرب أحد أفضل اللاعبين البشريين في العالم في مباراة رفيعة المستوى العام الماضي . الآن ، قد يؤدي تعلم التعزيز إلى ضخ المزيد من الذكاء إلى ألعاب أكثر من مجرد ألعاب. بالإضافة إلى تحسين السيارات ذاتية القيادة ، يمكن للتكنولوجيا الحصول على روبوت لفهم الأشياء التي لم ترها من قبل ، ويمكنها معرفة التكوين الأمثل للمعدات في مركز البيانات.

ة

اشترك

ينسخ التعلم التعزيزى مبدأ بسيط للغاية من الطبيعة. وثقها الطبيب النفسي إدوارد ثورندايك منذ أكثر من 100 عام. وضعت Thorndike القطط داخل مربعات يمكنهم الهروب منها فقط عن طريق الضغط على رافعة. بعد قدرا كبيرا من السرعة والميلان ، ستقف الحيوانات في النهاية على الرافعة عن طريق الصدفة. بعد أن تعلموا ربط هذا السلوك بالنتيجة المرجوة ، تمكنوا في النهاية من الهروب بسرعة متزايدة.

يعتقد بعض الباحثين الأوائل في الذكاء الاصطناعي أن هذه العملية يمكن إعادة إنتاجها بشكل مفيد في الآلات. في عام 1951 ، بنى مارفن مينسكي ، وهو طالب في جامعة هارفارد ، والذي سيصبح أحد الآباء المؤسسين لمنظمة العفو الدولية كأستاذ في معهد ماساتشوستس للتكنولوجيا ، آلة تستخدم شكلاً بسيطًا من التعلم التعويضي لمحاكاة تعلم الفئران للتنقل عبر متاهة. يتكون جهاز تسليح الألواح المقولبة العصبي العشوائي في مانسكو ، من SNARC ، من عشرات الأنابيب والمحركات والقوابض التي تحاكي سلوك 40 خلية عصبية ومشابك. عندما يخرج الفئران المحاكاة طريقها من متاهة افتراضية ، فإن قوة بعض الاتصالات المشبكية ستزيد ، مما يعزز السلوك الأساسي.
كانت هناك بعض النجاحات على مدى العقود القليلة المقبلة. في عام 1992 ، أظهر جيرالد Tesauro ، وهو باحث في شركة آي بي إم ، برنامج التي استخدمت هذه التقنية للعب لعبة الطاولة. أصبحت مهارة كافية لمنافسة أفضل اللاعبين البشر ، وهو إنجاز بارز في منظمة العفو الدولية. لكن ثبت أن تعزيز التعزيز من الصعب توسيع نطاقه ليشمل مشاكل أكثر تعقيدًا. يقول ديفيد سيلفر ، الباحث في DeepMind في المملكة المتحدة ، وهو من أبرز المؤيدين لتعلم التعزيز اليوم: "اعتقد الناس أنها فكرة رائعة لم تنجح حقاً".
ومع ذلك ، تغير هذا الرأي بشكل كبير في مارس 2016. هذا هو الوقت الذي دمر فيه AlphaGo ، وهو برنامج تم تدريبه باستخدام التعلم التعزيزي ، أحد أفضل لاعبي Go في كل العصور ، وهو Lee Sedol من كوريا الجنوبية. كان هذا العمل مذهلاً ، لأنه يكاد يكون من المستحيل بناء برنامج جيد للعب مع البرمجة التقليدية. ليس فقط أن اللعبة معقدة للغاية ، ولكن حتى اللاعبين المحترفين قد يجدون صعوبة في قول السبب في أن بعض الحركات جيدة أو سيئة ، وبالتالي فإن مبادئ اللعبة يصعب كتابتها في الكود. كان معظم الباحثين في منظمة العفو الدولية يتوقعون أن يستغرق الأمر حاسوبًا لمدة عشر سنوات للعب اللعبة بالإضافة إلى كونه إنسانًا خبيرًا.
تعزيز التعلم
  • اختراقهو نهج الذكاء الاصطناعي الذي يجعل الحواسيب تتعلم مثل الناس ، دون تعليم صريح.
  • لماذا يهم ذلكالتقدم في السيارات ذاتية القيادة وغيرها من أشكال التشغيل الآلي سوف يتباطأ بشكل كبير ما لم تكن الآلات قادرة على صقل المهارات من خلال التجربة.
  • مفتاح اللاعبين- DeepMind 
    - Mobileye 
    - OpenAI 
    - جوجل 
    - اوبر
  • توافر1 إلى 2 سنوات
تصارع للحصول على المنصب
يشرح سيلفر ، وهو بريطاني معتدل الذهن أصبح مفتونًا بالذكاء الاصطناعي باعتباره طالباً جامعياً في جامعة كامبريدج ، لماذا أصبح تعلم التعزيز في الآونة الأخيرة أمرًا هائلاً جدًا. ويقول إن المفتاح هو الجمع بينه وبين التعلم العميق ، وهو أسلوب يتضمن استخدام شبكة عصبية محاكية كبيرة جداً للتعرف على أنماط البيانات (انظر " 10 تقنيات اختراق 2013: التعلم العميق ").
يعمل التعلم التعزيز لأن الباحثين توصلوا إلى كيفية الحصول على جهاز كمبيوتر لحساب القيمة التي ينبغي تعيينها ، على سبيل المثال ، كل منعطف صحيح أو خاطئ يمكن أن يحدثه الجرذ في طريقه للخروج من متاهاته. يتم تخزين كل قيمة في جدول كبير ، ويقوم الكمبيوتر بتحديث كل هذه القيم كما يتعلم. بالنسبة للمهام الكبيرة والمعقدة ، يصبح هذا غير عمليًا من الناحية الحسابية. ولكن في السنوات الأخيرة ، أثبت التعلم العميق طريقة فعالة للغاية للتعرف على أنماط البيانات ، سواء كانت البيانات تشير إلى المنعطفات في متاهة ، أو المواقف على لوحة Go ، أو البكسلات الظاهرة على الشاشة أثناء لعبة الكمبيوتر.
في الواقع ، كان في الألعاب التي جعلت DeepMind اسمها. نشرت في عام 2013 تفاصيل عن برنامج قادر على تعلم لعب ألعاب فيديو مختلفة من Atari على مستوى فوق طاقة البشر ، مما دفع Google إلى الحصول على الشركة مقابل أكثر من 500 مليون دولار في عام 2014. وقد ألهمت هذه الأعمال وغيرها من الشركات الأخرى الباحثين والشركات الأخرى لتعزيز التعلم. ويقوم عدد من صناع الروبوتات الصناعية باختبار هذا النهج كوسيلة لتدريب أجهزتهم على أداء مهام جديدة دون الحاجة إلى برمجة يدوية. كما عمل باحثون في Google ، وهي شركة فرعية تابعة لـ Alphabet ، مع DeepMind لاستخدام التعلم التعزيز العميق لجعل مراكز البيانات أكثر كفاءة في استخدام الطاقة. من الصعب معرفة كيف تؤثر جميع العناصر في مركز البيانات على استخدام الطاقة ،

.

لكن الإعداد الذي ستلاحظ فيه على الأرجح سلوك هذا البرنامج الشبيه بالإنسان بشكل ملحوظ هو في السيارات ذاتية القيادة. غالباً ما تتعثر سيارات بدون سائق في حالات معقدة تنطوي على التفاعل مع السائقين البشريين ، مثل دوائر المرور أو نقاط التوقف الأربعة. إذا كنا لا نريدهم أن يأخذوا مخاطر غير ضرورية ، أو أن يعرقلوا الطرق بأن يكونوا مترددين أكثر من اللازم ، فإنهم سوف يحتاجون إلى اكتساب مهارات قيادة أكثر دقة ، مثل التنافس على المواقع في حشد من السيارات الأخرى.
تم عرض برنامج دمج الطرق السريعة في برشلونة بواسطة شركة Mobileye ، وهي شركة سيارات إسرائيلية تصنع أنظمة أمان للسيارات يستخدمها عشرات شركات صناعة السيارات ، بما في ذلك Tesla Motors (راجع " 50 شركة ذكية 2016 ").بعد فحص مقطع الدمج ، يظهر شاى شاليف شوارتز ، نائب رئيس شركة موبايلى للتكنولوجيا ، بعض التحديات التى ستواجهها السيارات ذاتية القيادة: دوار صاخب فى أورشليم القدس. تقاطع محموم في باريس ؛ ومشهد فوضوي بشكل جهنمي من طريق في الهند. يقول شاليف شوارتز: "إذا اتبعت سيارة ذاتية القيادة القانون بالضبط ، فعند ساعة الذروة ، قد أنتظر في حالة اندماج لمدة ساعة".
تخطط Mobileye لاختبار البرنامج على أسطول من المركبات بالتعاون مع BMW وإنتل في وقت لاحق من هذا العام. يقول كل من غوغل وأوبر إنهما يختبران أيضًا التعلم التعزيزي لمركباتهما ذاتية القيادة.



يتم تطبيق تعلم التعزيز في عدد متزايد من المجالات ، كما تقول إيما برونسكيل ، أستاذة مساعدة في جامعة ستانفورد متخصصة في هذا النهج. لكنها تقول إنها مناسبة تماماً للقيادة الآلية لأنها تتيح "سلاسل متسلسلة من القرارات". وسيستمر التقدم ببطء أكبر إذا ما اضطر المبرمجون إلى تشفير جميع هذه القرارات إلى سيارات مسبقاً.
لكن هناك تحديات يجب التغلب عليها أيضًا. يحذر أندرو نغ ، كبير العلماء في شركة بايدو الصينية ، من أن هذا النهج يتطلب كمية هائلة من   البيانات ، وأن العديد من النجاحات التي حققها قد حان عندما يمكن للحاسوب أن يمارس بلا هوادة في عمليات المحاكاة. في الواقع ، لا يزال الباحثون يكتشفون فقط كيفية جعل عملية التعلم التعزيزية في المواقف المعقدة التي يوجد فيها أكثر من هدف واحد. لقد اضطر Mobileye إلى تعديل بروتوكولاته حتى لا تكون سيارة ذاتية القيادة بارعة في تجنب الحوادث أكثر عرضة للتسبب في أي شخص آخر.
عندما تشاهد العرض التجميعي الغريب ، يبدو أن الشركة قد نجحت ، على الأقل حتى الآن. لكن في وقت لاحق من هذا العام ، ربما على طريق سريع بالقرب منك ، سيحصل تعلم التعزيز على أكثر اختباراته درامية ومهمة حتى الآن. 

التعليقات

ليست هناك تعليقات:

إرسال تعليق

جميع الحقوق محفوظة تقنيت المعلومات

تصميم : أبوهلال بدر

أكتب كلمة البحث...