आंखों के झपकी में 'गहरेफेक' वीडियो का पता लगाना

एथलेटिक्स सत्र 7 फाइनल | 29 समुद्री खेलों 2017 (जुलाई 2019).

Anonim

ऑनलाइन समुदायों के माध्यम से फैलाने के लिए गलत जानकारी का एक नया रूप तैयार किया गया है क्योंकि 2018 मध्यवर्ती चुनाव अभियान गर्म हो गए हैं। छद्म नाम के ऑनलाइन खाते के बाद "गहराई" कहा जाता है, जिसने तकनीक को लोकप्रिय किया - जिसने अपना नाम चुना हो क्योंकि प्रक्रिया "गहरी शिक्षा" नामक तकनीकी पद्धति का उपयोग करती है - ये नकली वीडियो बहुत यथार्थवादी दिखते हैं।

अब तक, लोगों ने अश्लील साहित्य और व्यंग्य में गहरे वीडियो का उपयोग किया है ताकि यह प्रकट हो सके कि प्रसिद्ध लोग ऐसी चीजें कर रहे हैं जो वे सामान्य रूप से नहीं करेंगे। लेकिन अभियान सत्र के दौरान लगभग कुछ गहरे झुकाव दिखाई देंगे, उम्मीदवारों को चित्रित करने के लिए कह रहे हैं कि वास्तविक उम्मीदवार नहीं होंगे या नहीं।

चूंकि ये तकनीकें इतनी नई हैं, लोगों को असली वीडियो और गहरे वीडियो के बीच अंतर बताने में परेशानी हो रही है। मेरा काम, मेरे सहयोगी मिंग-चिंग चांग और हमारे पीएचडी के साथ। छात्र यूज़ुन ली, को गहरे वीडियो के वास्तविक वीडियो को विश्वसनीय रूप से बताने का एक तरीका मिला है। यह स्थायी समाधान नहीं है, क्योंकि तकनीक में सुधार होगा। लेकिन यह एक शुरुआत है, और आशा करता है कि कंप्यूटर लोगों को कथा से सच बोलने में मदद करने में सक्षम होंगे।

वैसे भी 'गहराई' क्या है?

एक गहरी वीडियो बनाना भाषा के बीच अनुवाद करना बहुत पसंद है। Google अनुवाद जैसी सेवाएं मशीन सीखने का उपयोग करती हैं - कई भाषाओं में हजारों ग्रंथों का कंप्यूटर विश्लेषण - अनुवाद बनाने के लिए उपयोग किए जाने वाले शब्द-उपयोग पैटर्न का पता लगाने के लिए।

दीपफेक एल्गोरिदम एक ही तरीके से काम करते हैं: वे एक व्यक्ति के चेहरे की गतिविधियों की जांच के लिए एक गहरी तंत्रिका नेटवर्क नामक मशीन लर्निंग सिस्टम का उपयोग करते हैं। फिर वे एक दूसरे व्यक्ति के चेहरे की छवियों को समान आंदोलनों को संश्लेषित करते हैं। ऐसा करने से प्रभावी व्यक्ति उस वीडियो को बनाता है जो स्रोत व्यक्ति द्वारा किए गए कार्यों को करने या कहने के लिए प्रकट होता है।

इससे पहले कि वे सही तरीके से काम कर सकें, गहरे तंत्रिका नेटवर्क को बहुत सारी स्रोत जानकारी की आवश्यकता होती है, जैसे कि व्यक्तियों की तस्वीरें स्रोत या प्रतिरूपण का लक्ष्य। एक गहरी नकली एल्गोरिदम को प्रशिक्षित करने के लिए उपयोग की जाने वाली अधिक छवियां, डिजिटल प्रतिरूपण जितना अधिक यथार्थवादी होगा।

झपकी का पता लगाना

इस नए प्रकार के एल्गोरिदम में अभी भी त्रुटियां हैं। उनमें से एक को सिमुलेट चेहरे झपकी के साथ क्या करना है - या नहीं। स्वस्थ वयस्क मनुष्य हर 2 और 10 सेकंड के बीच कहीं भी झपकी लेते हैं, और एक ही झपकी एक सेकंड के दसवें और चार-दसवें के बीच होती है। बात करने वाले व्यक्ति के वीडियो में देखना सामान्य होगा। लेकिन ऐसा नहीं है कि कई गहरे वीडियो में क्या होता है।

जब किसी व्यक्ति की चेहरे की छवियों पर गहराई से एल्गोरिदम प्रशिक्षित किया जाता है, तो यह उन फ़ोटो पर निर्भर करता है जो इंटरनेट पर उपलब्ध हैं जिनका उपयोग प्रशिक्षण डेटा के रूप में किया जा सकता है। यहां तक ​​कि उन लोगों के लिए भी जिन्हें अक्सर फोटोग्राफ किया जाता है, उनकी छवियां बंद होने वाली कुछ छवियां ऑनलाइन उपलब्ध होती हैं। न केवल उस दुर्लभ तस्वीरें हैं - क्योंकि लोगों की आंखें ज्यादातर समय खुली होती हैं - लेकिन फोटोग्राफर आमतौर पर उन छवियों को प्रकाशित नहीं करते हैं जहां मुख्य विषयों की आंखें बंद होती हैं।

लोगों को झपकी देने वाली छवियों के प्रशिक्षण के बिना, गहरे रंग के एल्गोरिदम सामान्य रूप से झुर्रियों वाले चेहरे बनाने की संभावना कम होती हैं। जब हम झपकी की समग्र दर की गणना करते हैं, और तुलनात्मक रूप से प्राकृतिक सीमा के साथ तुलना करते हैं, तो हमने पाया कि वास्तविक लोगों की तुलना में गहरेफ़ेक वीडियो में वर्ण बहुत कम बार-बार झपकी देते हैं। हमारा शोध वीडियो खोलने और वीडियो में बंद होने की जांच करने के लिए मशीन लर्निंग का उपयोग करता है।

यह हमें गहरे दृश्य वीडियो का पता लगाने के लिए एक प्रेरणा देता है। इसके बाद, हम यह पता लगाने के लिए एक तरीका विकसित करते हैं कि वीडियो में व्यक्ति कब झपकी देता है। अधिक विशिष्ट होने के लिए, यह वीडियो के प्रत्येक फ्रेम को प्रश्न में स्कैन करता है, इसमें चेहरों का पता लगाता है और फिर आंखों को स्वचालित रूप से ढूंढता है। यह तब आंखों की उपस्थिति, ज्यामितीय सुविधाओं और आंदोलन का उपयोग करके पता लगाया गया है कि यह पता लगाने के लिए एक और गहरी तंत्रिका नेटवर्क का उपयोग किया जाता है या नहीं।

हम जानते हैं कि हमारा काम गहरेफेक एल्गोरिदम को प्रशिक्षित करने के लिए उपलब्ध डेटा के प्रकार में एक दोष का लाभ उठा रहा है। एक समान दोष के शिकार गिरने से बचने के लिए, हमने खुले और बंद आँखों की छवियों की एक बड़ी पुस्तकालय पर हमारी प्रणाली को प्रशिक्षित किया है। यह विधि अच्छी तरह से काम करती प्रतीत होती है, और नतीजतन, हमने 95 प्रतिशत से अधिक पहचान दर प्राप्त की है।

यह गहराई का पता लगाने पर अंतिम शब्द नहीं है। तकनीक तेजी से सुधार रही है, और नकली वीडियो उत्पन्न करने और पहचानने के बीच प्रतिस्पर्धा शतरंज के खेल के समान है। विशेष रूप से, बंद आँखों के साथ चेहरे की छवियों या प्रशिक्षण के लिए वीडियो अनुक्रमों का उपयोग करके गहरे रंग के वीडियो में ब्लिंकिंग जोड़ा जा सकता है। जो लोग जनता को भ्रमित करना चाहते हैं वे झूठे वीडियो बनाने में बेहतर होंगे - और प्रौद्योगिकी समुदाय में हम और दूसरों को उन्हें पहचानने के तरीकों को ढूंढना जारी रखना होगा।

menu
menu