استخدام الذكاء الاصطناعي لإنشاء صور ثلاثية الأبعاد ثلاثية الأبعاد في الوقت الفعلي

يمكن لطريقة جديدة تسمى tensor holography أن تمكن من إنشاء صور ثلاثية الأبعاد للواقع الافتراضي ، والطباعة ثلاثية الأبعاد ، والتصوير الطبي ، والمزيد – ويمكن تشغيلها على هاتف ذكي.دانيال اكرمان | مكتب أخبار معهد ماساتشوستس للتكنولوجياتاريخ النشر:10 مارس 2021

التسمية التوضيحية:طور باحثو معهد ماساتشوستس للتكنولوجيا طريقة لإنتاج الصور المجسمة على الفور تقريبًا. يقولون إن الطريقة القائمة على التعلم العميق فعالة للغاية بحيث يمكن تشغيلها على الهاتف الذكي. الاعتمادات:الصورة: أخبار معهد ماساتشوستس للتكنولوجيا ، مع صور من iStockphoto

التسمية التوضيحية:يوضح هذا الشكل العرض التجريبي للإسقاط المجسم ثنائي الأبعاد وثلاثي الأبعاد. تركز الصورة اليسرى على لعبة الماوس (في المربع الأصفر) بالقرب من الكاميرا ، وتركز الصورة اليمنى على التقويم المكتبي الدائم (في المربع الأزرق). الاعتمادات:بإذن من الباحثين

الصورة السابقة الصورة التالية

على الرغم من سنوات الضجيج ، إلا أن سماعات الواقع الافتراضي لم تطيح بعد بشاشات التلفزيون أو الكمبيوتر كأجهزة الانتقال لمشاهدة الفيديو. أحد الأسباب: يمكن للواقع الافتراضي أن يجعل المستخدمين يشعرون بالمرض . يمكن أن ينتج عن ذلك الغثيان وإجهاد العين لأن الواقع الافتراضي يخلق وهمًا بالمشاهدة ثلاثية الأبعاد على الرغم من أن المستخدم في الواقع يحدق في شاشة ثنائية الأبعاد بمسافة ثابتة. يمكن أن يكمن الحل لتحسين التصور ثلاثي الأبعاد في تقنية عمرها 60 عامًا أعيد تصميمها للعالم الرقمي: الصور المجسمة.

تقدم الصور المجسمة تمثيلاً استثنائياً للعالم ثلاثي الأبعاد من حولنا. بالإضافة إلى أنها جميلة. (تفضل – تحقق من الحمامة الثلاثية الأبعاد على بطاقة Visa الخاصة بك.) تقدم الصور المجسمة منظورًا متغيرًا بناءً على موضع المشاهد ، وتسمح للعين بضبط العمق البؤري للتركيز بالتناوب على المقدمة والخلفية.

لطالما سعى الباحثون إلى صنع صور ثلاثية الأبعاد يتم إنشاؤها بواسطة الكمبيوتر ، لكن العملية تتطلب عادةً جهاز كمبيوتر عملاقًا لإجراء عمليات المحاكاة الفيزيائية ، وهو ما يستغرق وقتًا طويلاً ويمكن أن يسفر عن نتائج أقل من الواقعية. الآن ، طور باحثو معهد ماساتشوستس للتكنولوجيا طريقة جديدة لإنتاج الصور المجسمة على الفور تقريبًا – ويقول الباحثون إن الطريقة القائمة على التعلم العميق فعالة للغاية بحيث يمكن تشغيلها على جهاز كمبيوتر محمول في غمضة عين.

يقول ليانج شي ، المؤلف الرئيسي للدراسة وطالب الدكتوراه في قسم الهندسة الكهربائية وعلوم الكمبيوتر (EECS) في معهد ماساتشوستس للتكنولوجيا: “اعتقد الناس سابقًا أنه باستخدام الأجهزة الموجودة على مستوى المستهلك ، كان من المستحيل إجراء حسابات ثلاثية الأبعاد في الوقت الفعلي”. “غالبًا ما يقال إن العروض التجارية الثلاثية الأبعاد المتاحة تجاريًا ستكون متوفرة في غضون 10 سنوات ، ومع ذلك فإن هذا البيان كان موجودًا منذ عقود.”

يعتقد شي أن النهج الجديد ، الذي يسميه الفريق “التصوير الهولوجرافي الموتر” ، سيجلب أخيرًا هذا الهدف بعيد المنال لمدة 10 سنوات في متناول اليد. يمكن لهذا التقدم أن يغذي انتشار الهولوغرافي في مجالات مثل الواقع الافتراضي والطباعة ثلاثية الأبعاد.

عمل شي على الدراسة ، التي نُشرت اليوم في مجلة Nature ، مع مستشاره والمؤلف المشارك Wojciech Matusik. ومن بين المؤلفين المشاركين الآخرين Beichen Li من EECS ومختبر علوم الكمبيوتر والذكاء الاصطناعي في معهد ماساتشوستس للتكنولوجيا ، بالإضافة إلى باحثين سابقين في معهد ماساتشوستس للتكنولوجيا Changil Kim (حاليًا في Facebook) و Petr Kellnhofer (الآن في جامعة ستانفورد).

البحث عن أفضل 3D

تقوم الصورة النموذجية القائمة على العدسة بترميز سطوع كل موجة ضوئية – يمكن للصورة أن تعيد إنتاج ألوان المشهد بأمانة ، لكنها في النهاية تنتج صورة مسطحة.

في المقابل ، يشفر الهولوغرام كلاً من سطوع وطور كل موجة ضوئية. يقدم هذا المزيج تصويرًا أكثر صحة لمنظر وعمق المشهد. لذلك ، في حين أن صورة “زنابق الماء” لمونيه يمكن أن تسلط الضوء على لوحة ألوان اللوحة ، يمكن للصورة الثلاثية الأبعاد أن تجلب العمل إلى الحياة ، مما يجعل الملمس ثلاثي الأبعاد الفريد لكل ضربة فرشاة. ولكن على الرغم من الواقعية ، فإن الصور المجسمة تمثل تحديًا يجب القيام به ومشاركتها.

تم تطويره لأول مرة في منتصف القرن العشرين ، وتم تسجيل الصور المجسمة المبكرة بصريًا. يتطلب ذلك تقسيم شعاع الليزر ، مع استخدام نصف الشعاع لإضاءة الموضوع والنصف الآخر يستخدم كمرجع لمرحلة موجات الضوء. يولد هذا المرجع إحساسًا فريدًا بالعمق في الهولوغرام. كانت الصور الناتجة ثابتة ، لذا لا يمكنهم التقاط الحركة. وكانت نسخًا ورقية فقط ، مما يجعل إعادة إنتاجها ومشاركتها أمرًا صعبًا.

يتخطى التصوير المجسم الذي تم إنشاؤه بواسطة الكمبيوتر هذه التحديات عن طريق محاكاة الإعداد البصري. لكن هذه العملية يمكن أن تكون عبئًا حسابيًا. يقول شي: “نظرًا لأن كل نقطة في المشهد لها عمق مختلف ، فلا يمكنك تطبيق نفس العمليات عليها جميعًا”. “هذا يزيد من التعقيد بشكل كبير.” قد يستغرق توجيه كمبيوتر عملاق متجمع لتشغيل هذه المحاكاة القائمة على الفيزياء ثوانٍ أو دقائق للحصول على صورة ثلاثية الأبعاد واحدة. بالإضافة إلى ذلك ، لا تعمل الخوارزميات الحالية على نمذجة الانسداد بدقة واقعية. لذلك اتخذ فريق شي نهجًا مختلفًا: السماح للكمبيوتر بتعليم الفيزياء لنفسه.

لقد استخدموا التعلم العميق لتسريع التصوير الهولوغرافي الناتج عن الكمبيوتر ، مما يسمح بتوليد الهولوغرام في الوقت الحقيقي. صمم الفريق شبكة عصبية تلافيفية – وهي تقنية معالجة تستخدم سلسلة من الموترات القابلة للتدريب لتقليد تقريبًا كيفية معالجة البشر للمعلومات المرئية. يتطلب تدريب الشبكة العصبية عادةً مجموعة بيانات كبيرة وعالية الجودة ، والتي لم تكن موجودة من قبل للصور المجسمة ثلاثية الأبعاد.

قام الفريق ببناء قاعدة بيانات مخصصة من 4000 زوج من الصور التي تم إنشاؤها بواسطة الكمبيوتر. يطابق كل زوج صورة – بما في ذلك معلومات اللون والعمق لكل بكسل – مع الصورة المجسمة المقابلة لها. لإنشاء الصور المجسمة في قاعدة البيانات الجديدة ، استخدم الباحثون مشاهد ذات أشكال وألوان معقدة ومتغيرة ، مع توزيع عمق البكسل بالتساوي من الخلفية إلى المقدمة ، ومع مجموعة جديدة من العمليات الحسابية القائمة على الفيزياء للتعامل مع الانسداد. نتج عن هذا النهج بيانات تدريب واقعية. بعد ذلك ، بدأت الخوارزمية في العمل.

من خلال التعلم من كل زوج من الصور ، قامت شبكة الموتر بتعديل معلمات حساباتها الخاصة ، مما أدى إلى تعزيز قدرتها على إنشاء الصور المجسمة. تعمل الشبكة المحسّنة بالكامل بأعداد أسرع من الحسابات القائمة على الفيزياء. هذه الكفاءة فاجأت الفريق بأنفسهم.

يقول ماتوسيك: “نحن مندهشون من جودة أدائها”. في أجزاء من الثانية فقط ، يمكن للصور المجسمة الموتر أن تصنع صورًا ثلاثية الأبعاد من الصور ذات معلومات العمق – والتي يتم توفيرها بواسطة الصور النموذجية التي تم إنشاؤها بواسطة الكمبيوتر ويمكن حسابها من إعداد الكاميرا المتعددة أو مستشعر LiDAR (كلاهما قياسي في بعض الهواتف الذكية الجديدة). يمهد هذا التقدم الطريق لتصوير ثلاثي الأبعاد ثلاثي الأبعاد في الوقت الفعلي. علاوة على ذلك ، تتطلب شبكة الموتر المدمجة أقل من 1 ميجابايت من الذاكرة. يقول: “إنه لا يكاد يذكر ، بالنظر إلى عشرات ومئات الجيجابايت المتوفرة على أحدث الهواتف المحمولة”.

يقول جويل كولين ، المهندس البصري الرئيسي في Microsoft الذي لم يشارك في البحث ، إن البحث “يُظهر أن العروض ثلاثية الأبعاد الحقيقية تكون عملية مع متطلبات حسابية معتدلة فقط”. ويضيف أن “هذه الورقة تظهر تحسنًا ملحوظًا في جودة الصورة مقارنة بالعمل السابق” ، مما “يضيف الواقعية والراحة للمشاهد”. يلمح كولين أيضًا إلى احتمال أن تكون العروض الثلاثية الأبعاد مثل هذه قابلة للتخصيص وفقًا لوصفة طبيب عيون المشاهد. “يمكن للعروض الثلاثية الأبعاد أن تصحح الانحرافات في العين. وهذا يجعل من الممكن الحصول على صورة عرض أكثر وضوحًا مما يمكن أن يراه المستخدم باستخدام العدسات اللاصقة أو النظارات ، والتي تصحح فقط الانحرافات ذات الترتيب المنخفض مثل التركيز والاستجماتيزم “.

“قفزة كبيرة”

من شأن التصوير ثلاثي الأبعاد في الوقت الحقيقي أن يعزز عددًا كبيرًا من الأنظمة ، من الواقع الافتراضي إلى الطباعة ثلاثية الأبعاد. يقول الفريق إن النظام الجديد يمكن أن يساعد في غمر مشاهدي الواقع الافتراضي في مشهد أكثر واقعية ، مع التخلص من إجهاد العين والآثار الجانبية الأخرى لاستخدام الواقع الافتراضي على المدى الطويل. يمكن نشر التكنولوجيا بسهولة على شاشات العرض التي تعدل مرحلة موجات الضوء. حاليًا ، تعدل شاشات العرض الاستهلاكية ذات الأسعار المعقولة السطوع فقط ، على الرغم من أن تكلفة شاشات تعديل الطور ستنخفض إذا تم تبنيها على نطاق واسع.

يقول الباحثون إن التصوير ثلاثي الأبعاد يمكن أن يعزز أيضًا تطوير الطباعة ثلاثية الأبعاد الحجمية. يمكن أن تثبت هذه التقنية أنها أسرع وأكثر دقة من الطباعة ثلاثية الأبعاد التقليدية طبقة تلو الأخرى ، حيث تسمح الطباعة ثلاثية الأبعاد الحجمي بالإسقاط المتزامن للنمط ثلاثي الأبعاد بأكمله. تشمل التطبيقات الأخرى الفحص المجهري وتصور البيانات الطبية وتصميم الأسطح بخصائص بصرية فريدة.

يقول ماتوسيك: “إنها قفزة كبيرة يمكن أن تغير تمامًا مواقف الناس تجاه التصوير المجسم”. “نشعر أن الشبكات العصبية ولدت من أجل هذه المهمة.”

كان العمل مدعومًا جزئيًا من قبل شركة Sony.

المصدر