पृथ्वी के समान आकार, संरचना, और तापमान वाले ग्रहों की खोज में खगोलज्ञों की रुचि हमेशा से बनी रही है। इन्हें पृथ्वी समान ग्रहों के रूप में जाना जाता है। हालांकि, इस प्रयास में कई चुनौतियाँ सामने आती हैं। छोटे, चट्टानी ग्रहों का पता लगाना बेहद कठिन है, क्योंकि वर्तमान ग्रहों की खोज की विधियाँ गैस दिग्गजों की ओर अधिक झुकी हुई हैं। इसके अतिरिक्त, किसी ग्रह का तापमान पृथ्वी के समान होने के लिए, उसे अपने मेज़बान तारे से एक समान दूरी पर एक कक्षा में घूमना होगा, जैसे पृथ्वी सूर्य के चारों ओर। इसका अर्थ है कि एक ग्रह को अपने तारे के चारों ओर घुमने में लगभग एक वर्ष लगता है। यह खगोलज्ञों के लिए एक और समस्या उत्पन्न करता है जो इन ग्रहों की खोज करने में लगे हुए हैं, क्योंकि केवल एक तारे के चारों ओर पृथ्वी समान ग्रह की खोज के लिए एक टेलीस्कोप को लगातार एक वर्ष से अधिक समय तक संचालित करना आवश्यक होगा।

समय की बचत करने के लिए, वैज्ञानिकों को ऐसे नए तरीकों की आवश्यकता है जो संभावित तारों की पहचान कर सकें, जिन्हें गहन खोज के लिए संसाधनों को समर्पित करने से पहले देखा जा सके। इसी दिशा में एक टीम ने यह जानने का प्रयास किया कि क्या ग्रहों के प्रणाली के अवलोकनीय गुण पृथ्वी समान ग्रहों की उपस्थिति का संकेत दे सकते हैं। उन्होंने पाया कि ज्ञात ग्रहों की व्यवस्था, उनके द्रव्यमान, व्यास, और निकटतम ग्रह से उनके तारे की दूरी का उपयोग करके पृथ्वी समान ग्रह के होने की भविष्यवाणी की जा सकती है।

इसके बाद, टीम ने यह परीक्षण किया कि मशीन लर्निंग इस कार्य को कितनी अच्छी तरह से संभाल सकती है। उन्होंने पृथ्वी समान ग्रहों के साथ और बिना ग्रहों के प्रणाली के नमूना सेट बनाने से शुरुआत की। खगोलज्ञों ने अब तक लगभग 5,000 सितारों की पहचान की है, जिनके चारों ओर एक एक्सोप्लानेट हैं, जो मशीन लर्निंग कार्यक्रमों को प्रशिक्षित करने के लिए बहुत छोटा नमूना आकार है। इसलिए, टीम ने बर्न मॉडल नामक एक गणनात्मक ढांचे का उपयोग करते हुए तीन सेट के ग्रहों की प्रणालियों का निर्माण किया, जो यह अनुकरण करता है कि ग्रह कैसे बनते हैं।

बर्न मॉडल 20 धूल के समूहों से शुरू होता है, जो लगभग 600 मीटर, या 2,000 फीट, चौड़े होते हैं। ये समूह गैस और धूल को एकत्रित करने की प्रक्रिया को शुरू करते हैं, जिससे पूर्ण आकार के ग्रह बनते हैं, जो 20 मिलियन वर्षों में विकसित होते हैं। इसके बाद, ग्रहों की प्रणाली 10 बिलियन वर्षों के दौरान विकसित होती है, जो एक अंत स्थिति में पहुँचती है, जिसे सिंथेटिक प्लैनेटरी सिस्टम कहा जाता है, जिसे खगोलज्ञ अपनी डेटा सेट में शामिल करते हैं। उन्होंने इस मॉडल का उपयोग करते हुए 24,365 प्रणालियों का निर्माण किया, जिनके तारे सूर्य के आकार के हैं, 14,559 प्रणालियाँ जिनके तारे सूर्य के आधे आकार के हैं, और 14,958 प्रणालियाँ जिनके तारे सूर्य के पांचवे हिस्से के आकार के हैं। उन्होंने इन समूहों को दो उप समूहों में बाँट दिया, जिसमें एक समूह में पृथ्वी समान ग्रह था और दूसरे में नहीं।

इन बड़े डेटा सेट के साथ, टीम ने फिर यह परीक्षण किया कि क्या मशीन लर्निंग तकनीक, जिसे रैंडम फॉरेस्ट मॉडल कहा जाता है, ग्रहों की प्रणालियों को उन प्रणालियों में वर्गीकृत कर सकती है जिनमें पृथ्वी समान ग्रह होने की संभावना है और जिनमें नहीं। रैंडम फॉरेस्ट में सभी आउटपुट सत्य या असत्य होते हैं, और कार्यक्रम के विभिन्न हिस्से, जिन्हें ट्री कहा जाता है, पूरे प्रशिक्षण डेटा सेट के विभिन्न उपखंडों पर निर्णय लेते हैं। टीम ने यह तय किया कि यदि किसी ग्रहों की प्रणाली में एक या अधिक पृथ्वी समान ग्रह होने की संभावना है, तो रैंडम फॉरेस्ट इसे “सत्य” के रूप में मान लेगा। शोधकर्ताओं ने अपने एल्गोरिदम की सटीकता का परीक्षण करने के लिए एक मैट्रिक्स का उपयोग किया जिसे प्रिसिजन स्कोर के रूप में जाना जाता है।

उन्होंने रैंडम फॉरेस्ट को प्रत्येक सिंथेटिक ग्रह प्रणाली के विशेष कारकों के आधार पर अपने निर्णय बनाने के लिए स्थापित किया। इन कारकों में वे ग्रहों की व्यवस्था शामिल थी जो खगोलज्ञ एक समान वास्तविक प्रणाली की खोज करते समय संभवतः पा सकते थे, उन ग्रहों की संख्या जो प्रणाली में थे, उनमें से कितने ग्रह 100 गुना पृथ्वी के द्रव्यमान से बड़े थे, और तारे के निकटतम ग्रह का आकार और दूरी। टीम ने सिंथेटिक ग्रह प्रणालियों के 80% को प्रशिक्षण डेटा के रूप में उपयोग किया और शेष 20% को पूरी हुई एल्गोरिदम के पहले परीक्षण के लिए आरक्षित रखा।

टीम ने पाया कि उनका रैंडम फॉरेस्ट मॉडल उन स्थानों की भविष्यवाणी करता है जहां पृथ्वी समान ग्रह संभवतः मौजूद थे, एक प्रिसिजन स्कोर 0.99 के साथ, जिसका अर्थ है कि यह 99% समय पृथ्वी समान ग्रहों वाले प्रणालियों की सही पहचान करता है। इस सफलता के बाद, उन्होंने अपने मॉडल का परीक्षण वास्तविक डेटा पर किया, जिसमें 1,567 सितारे शामिल थे जो एक समान आकार की श्रेणी में थे और जिन्हें कम से कम 1 ग्रह की परिक्रमा करते हुए जाना जाता है। इनमें से, 44 ने पृथ्वी समान ग्रह होने की उनके एल्गोरिदम के थ्रेशोल्ड को पार किया। टीम ने सुझाव दिया कि इस उपसमुच्चय में ज्यादातर प्रणालियाँ तब भी अस्तित्व में रहेंगी यदि कोई पृथ्वी समान ग्रह मौजूद हो।

टीम ने निष्कर्ष निकाला कि उनका मॉडल पृथ्वी समान ग्रहों के लिए उम्मीदवार तारों की पहचान कर सकता है, लेकिन कुछ चेतावनियों के साथ। एक यह थी कि उनका प्रशिक्षण डेटा अभी भी सीमित था, क्योंकि सिंथेटिक ग्रह प्रणालियों का निर्माण करना समय लेने वाला और महंगा है। हालांकि, बड़ी चेतावनी यह थी कि उन्होंने यह मान लिया कि बर्न मॉडल ग्रहों के निर्माण का सटीक अनुकरण करता है। उन्होंने सुझाव दिया कि शोधकर्ताओं को भविष्य के सिद्धांतात्मक कार्य के लिए इसकी वैधता को कड़े परीक्षण में डालना चाहिए।