पशु अधिकारों की वकालत करने के लिए कृत्रिम बुद्धिमत्ता विकसित करने पर साहित्य समीक्षा

1 मई

सैम टकर द्वारा लिखित

कार्यकारी सारांश

कृत्रिम बुद्धिमत्ता (एआई) और मशीन लर्निंग (एमएल) का क्षेत्र तेजी से विकसित हो रहा है, जो ओपन पॉज़ जैसे संगठनों के लिए अवसर और चुनौतियां दोनों प्रस्तुत कर रहा है, जिनका लक्ष्य पशु संरक्षण के लिए इन प्रौद्योगिकियों का लाभ उठाना है।

यह साहित्य समीक्षा नवीनतम शोध और तकनीकों का अन्वेषण करती है, जिनका उपयोग पशुओं के हितों को आगे बढ़ाने के साथ संरेखित एक एआई प्रणाली विकसित करने के लिए किया जा सकता है।

प्रमुख निष्कर्ष एवं सिफारिशें:

बहुभाषी डेटासेट और पूर्वाग्रह-मुक्ति तकनीकों सहित प्रभावी डेटा संग्रहण, प्रजातिवादी पूर्वाग्रहों से मुक्त और विविध सांस्कृतिक और भाषाई संदर्भों के साथ संरेखित एआई प्रणालियों के प्रशिक्षण के लिए महत्वपूर्ण है।
रणनीतिक पूर्व-प्रशिक्षण दृष्टिकोण, जैसे निर्देश ट्यूनिंग और ग्राफ-आधारित प्रशिक्षण, एआई की तर्क क्षमताओं और डोमेन-विशिष्ट ज्ञान को बढ़ा सकते हैं।
विशेषज्ञों का मिश्रण (एमओई) और मॉड्यूलर संज्ञानात्मक डिजाइन जैसे सिस्टम आर्किटेक्चर, स्वायत्त निर्णय लेने और कार्य निष्पादन में सक्षम अनुकूलनीय और विशिष्ट एआई एजेंट बनाने की संभावना रखते हैं।
मानव और एआई फीडबैक से प्राप्त मॉडलों को परिष्कृत करना, उन्नत प्रॉम्प्ट इंजीनियरिंग और प्रॉम्प्ट चेनिंग विधियों के साथ मिलकर, सिस्टम के प्रदर्शन और नैतिक संरेखण में निरंतर सुधार के लिए मार्ग प्रदान करता है।
भविष्य की दिशाओं में बहु-मोडल, संज्ञानात्मक और विकेन्द्रीकृत एआई आर्किटेक्चर में प्रगति को आगे बढ़ाना, तथा मस्तिष्क-कम्प्यूटर इंटरफेस, न्यूरोफीडबैक डिवाइस और आभासी वास्तविकता जैसी उभरती प्रौद्योगिकियों को लागू करना शामिल हो सकता है, ताकि पशु वकालत प्रयासों की प्रभावशीलता और पहुंच को नवीन और नैतिक रूप से जिम्मेदार तरीकों से बढ़ाया जा सके।

तरीका

हमने अपनी सामग्री हाल ही में प्रकाशित शोधपत्रों से ली है, मुख्य रूप से पिछले तीन महीनों में प्रकाशित शोधपत्रों से, हालांकि कुछ आधारभूत कार्य और भी पुराने हैं।

हमारी चयन प्रक्रिया में एआई पेपर प्रकाशित करने वाली कई पत्रिकाओं के संयुक्त आरएसएस फ़ीड का अनुसरण करना और हमारे मिशन के साथ प्रतिध्वनित होने वाले लोगों को चुनना शामिल था, जिसके परिणामस्वरूप लगभग 1,000 सार-संक्षेप तैयार हुए।

हमारी खोज इन सारांशों से शुरू हुई, फिर गहन, चयनात्मक अध्ययन तक विस्तारित हुई। हमने उन सभी अध्ययनों को खारिज कर दिया जो आगे की जांच में अप्रासंगिक पाए गए।

हमने इस समीक्षा को प्रयोज्यता के आधार पर व्यवस्थित किया है - तत्काल, कार्रवाई योग्य अनुसंधान से शुरू करके, तथा भविष्य की दिशाओं के साथ समाप्त किया है, जो ओपन पॉज़ के बढ़ने और एआई प्रौद्योगिकी में सुधार के साथ प्रासंगिक हो सकती हैं।

प्रत्येक पेपर का सार सामान्य शब्दों में संक्षेपित किया गया है और सीधे हाइपरलिंक किया गया है, जिससे आगे की जांच सरल हो जाती है, तथा हमारे मिशन को आगे बढ़ाने में इसके महत्व का एक संक्षिप्त विवरण उपलब्ध होता है।

समीक्षा डेटाबेस निर्माण और प्रबंधन से शुरू होती है, एलएलएम पूर्व-प्रशिक्षण और फीडबैक-आधारित फाइन-ट्यूनिंग (चाहे मनुष्यों या एआई से) के माध्यम से आगे बढ़ती है, प्रॉम्प्ट चेन और एजेंट आर्किटेक्चर की पेचीदगियों में जाती है, और संभावित एआई क्षमताओं में परिणत होती है जो ओपन पॉज़ एआई के भविष्य के लिए आशाजनक हैं।

डेटाबेस प्रबंधन और क्यूरेशन

कुशल और परिष्कृत डेटा प्रबंधन ओपन पॉज़ की एआई-संचालित पशु वकालत की आधारशिला है।

उन्नत स्वचालन का उपयोग करते हुए, हमारा लक्ष्य मजबूत पूर्व-प्रसंस्करण, सामान्यीकरण और गुणवत्ता-संवर्द्धन ढांचे के साथ अपने डेटाबेस को परिष्कृत करना है।

एलएलएम के लिए डेटा प्रबंधन के एक सर्वेक्षण में पाया गया कि यदि एलएलएम को 1 युग से परे प्रशिक्षित किया जाता है, तो उच्चतम गुणवत्ता वाले डेटा के एक छोटे उपखंड पर अतिरिक्त प्रशिक्षण दिया जाना चाहिए। लेखक आपके डेटाबेस के भीतर फ़िल्टर करने के लिए एक गुणवत्ता स्कोर रखने और अर्थपूर्ण समानता खोज का उपयोग करके स्वचालित रूप से डुप्लिकेट हटाने की सलाह देते हैं (यानी उन प्रविष्टियों को हटा दें जो अर्थपूर्ण रूप से बहुत समान हैं)। उन्होंने पाया कि डोमेन और निर्देशों की एक विविध श्रेणी आवश्यक है और अधिक जटिल निर्देश बेहतर डाउनस्ट्रीम प्रदर्शन की ओर ले जाते हैं।
SemDeDup का उपयोग LLM के लिए प्रशिक्षण सेटों में सिमेंटिक डीडुप्लीकेशन को खोजने और हटाने के लिए किया जा सकता है।
हम डेटा प्रीप्रोसेसिंग और हगिंगफेस डेटासेट के सामान्यीकरण के लिए टास्कसोर्स का उपयोग कर सकते हैं, जिससे उन्हें स्वचालित रूप से सुसंगत रूप से प्रारूपित किया जा सके।

ओपन पॉज़ के डेटाबेस प्रबंधन के लिए स्वचालन का लाभ उठाना, विशाल डेटा सेटों को कार्रवाई योग्य खुफिया जानकारी में बदलने में सहायक है।

डेटा निष्कर्षण और संरचना

एआई उपकरणों के साथ, ओपन पॉज़ असंरचित डेटा को वकालत रणनीतियों के लिए मूल्यवान अंतर्दृष्टि में बदलने का मार्ग देखता है। फिर भी, स्वचालित निष्कर्षण की सटीकता और निष्पक्षता सुनिश्चित करना सर्वोपरि है।

जेलीफ़िश , एक ओपन-सोर्स एलएलएम जो विशेष रूप से डेटा प्री-प्रोसेसिंग के लिए बनाया गया है, का उपयोग स्कीमा और एंटिटी मैचिंग जैसे अन्य डेटा कार्यों के लिए भी किया जा सकता है। यह एक छोटा मॉडल है जिसे 13B मापदंडों पर एक ही GPU पर चलाया जा सकता है और इसका उपयोग हमारे लिए आवश्यक डेटा के निष्कर्षण और संरचना को स्वचालित करने के लिए किया जा सकता है।
बोनिटो एक ओपन-सोर्स मॉडल है जो किसी भी असंरचित डेटा को निर्देश ट्यूनिंग के लिए कार्य-विशिष्ट प्रशिक्षण डेटा में परिवर्तित करता है।
एलएलमाइनर विचार तर्क की श्रृंखला के माध्यम से असंरचित दस्तावेजों से प्रश्नोत्तर जोड़े भी निकाल सकता है।
टुवर्ड्स डेटा साइंस में यह आलेख किसी भी पाठ को स्वचालित रूप से ग्राफ में बदलने के लिए एक स्वचालित रूपरेखा दिखाता है।
MANTRA का उपयोग असंरचित सोशल मीडिया डेटा से रुझान निकालने और उसका विश्लेषण करने के लिए किया जा सकता है।
ऑटोआईई का उपयोग वैज्ञानिक पीडीएफ से डेटा निकालने के लिए किया जा सकता है
हम ग्राफ में विद्यमान निम्न-स्तरीय ज्ञान से उच्च-स्तरीय ज्ञान निकालने के लिए ज्ञान पिरामिड दृष्टिकोण का उपयोग कर सकते हैं।

सोशल मीडिया की चर्चा और सघन वैज्ञानिक ग्रंथों को सुपाच्य, व्यावहारिक ज्ञान में स्वचालित रूप से परिवर्तित करने की संभावना ओपन पॉज़ के लिए रोमांचक है।

फिर भी, इन शक्तिशाली उपकरणों को अपनाने के लिए गुणवत्ता नियंत्रण और अनुकूलनशीलता में कठोरता की आवश्यकता होती है, जिससे यह सुनिश्चित हो सके कि हमारे द्वारा एकत्रित डेटा विश्वसनीय और प्रासंगिक दोनों हो, तथा ऐसे वकालत प्रयासों को बढ़ावा मिले जो न केवल प्रतिक्रियात्मक हों, बल्कि हमारे उद्देश्य के साथ गहन रूप से जुड़े भी हों।

सिंथेटिक डेटा

कृत्रिम डेटा एआई विकास के लिए महत्वपूर्ण क्षमता और खतरे का एक उपकरण है।

जब इसका विवेकपूर्ण ढंग से उपयोग किया जाता है, तो यह सामान्यीकरण को बढ़ावा देता है और वार्तालाप अनुकरण को समृद्ध करता है; फिर भी, यदि इसका कुप्रबंधन किया जाए, तो यह मॉडल स्थिरता और तर्क जैसे संज्ञानात्मक कार्यों को कमजोर कर सकता है।

संश्लेषित और प्रामाणिक डेटा का विवेकपूर्ण मिश्रण अनिवार्य है।

रिकर्सन का अभिशाप पेपर दर्शाता है कि कैसे सिंथेटिक डेटा मॉडल पतन को प्रेरित कर सकता है, जिससे मॉडल अपने प्री-ट्रेनिंग से डेटा भूल जाते हैं। यह सिंथेटिक डेटा का उपयोग करते समय बहुत सावधानी बरतने की आवश्यकता पर जोर देता है।
मालिकाना एलएलएम की नकल करने का झूठा वादा दिखाता है कि बड़े मॉडल से सिंथेटिक डेटा पर छोटे मॉडल को प्रशिक्षित करने से भ्रम बढ़ता है और तर्क और तार्किक क्षमता कम हो जाती है। यह उच्च गुणवत्ता वाले डेटा पर प्री-ट्रेनिंग के महत्व पर जोर देता है, न कि कम गुणवत्ता वाले डेटा पर फाइन-ट्यूनिंग के महत्व पर।
उपयोगकर्ता सिम्युलेटर सोक्रेटिक वास्तविक मानव-एआई वार्तालापों पर प्रशिक्षण मॉडलिंग करके और फिर इस फाइन-ट्यून्ड मॉडल का उपयोग करके सिंथेटिक डेटा के साथ बेस एलएलएम पर प्रदर्शन में सुधार करने में सक्षम था, जो तब प्लेटोएलएम नामक एक नए मॉडल के प्रशिक्षण के लिए इनपुट बन जाता है। यह दर्शाता है कि जब सिंथेटिक डेटा का उपयोग किया जाता है तो इसे प्रभावी होने के लिए मानव-जनित डेटा को यथासंभव निकटता से मॉडल करना चाहिए।
असंभव आसवन ने दिखाया कि छात्र और शिक्षक एलएम के बीच स्व आसवन का उपयोग करके, आप मानवीय प्रतिक्रिया के बिना अत्यधिक विविध और उच्च गुणवत्ता वाला डेटासेट तैयार कर सकते हैं। जब एलएम को इन आउटपुट पर प्रशिक्षित किया गया तो इसने बहुत कम मापदंडों पर काफी बेहतर परिणाम प्राप्त किए और मानव प्रतिक्रिया डेटा पर प्रशिक्षित एलएम की तुलना में बेहतर सामान्यीकरण किया। यह दर्शाता है कि सिंथेटिक डेटा को मूल ज्ञान में आसवित करने से "कच्चे" सिंथेटिक डेटा (यानी चैटजीपीटी जैसी प्रणाली के साथ निर्यात की गई बातचीत) का उपयोग करने की तुलना में बहुत बेहतर परिणाम मिलते हैं
जेनिक्सर दर्शाता है कि निर्देश ट्यूनिंग डेटा उत्पन्न करने के लिए मल्टीमॉडल मॉडल का उपयोग करने से छवि कैप्शनिंग और विज़ुअल QA कार्यों के लिए प्रदर्शन में सुधार हो सकता है। यह दर्शाता है कि सिंथेटिक डेटा मल्टीमॉडल कार्यों में सबसे अधिक सहायक है।

ओपन पॉज़ के लिए, सिंथेटिक डेटा सहायक या हानिकारक हो सकता है, यह इस बात पर निर्भर करता है कि इसका उपयोग कैसे किया जाता है। हमारी रणनीति में डेटा को संश्लेषित करने में एक संतुलित, बहुविध, आसुत और मानवीय दृष्टिकोण शामिल होना चाहिए।

भाषा और भाषाविज्ञान

अतिरिक्त भाषाओं में केवल 1% अनुकूलित, उच्च-गुणवत्ता वाले डेटा को सम्मिलित करके, AI प्रभावी रूप से नई भाषाओं में महारत हासिल कर सकता है।

हमें स्थानीय प्रचारकों से प्रामाणिक सामग्री को प्राथमिकता देनी चाहिए तथा प्रजातिवादी पूर्वाग्रह को समाप्त करने के प्रति सतर्क दृष्टिकोण अपनाते हुए, अपने डेटा फ़िल्टरिंग को परिष्कृत करना चाहिए।

भाषाई विविधता को अपनाने के लिए एक ठोस प्रयास आवश्यक है, विशेष रूप से यह सुनिश्चित करने के लिए कि हमारी प्रणाली केवल अंग्रेजी भाषा की सामग्री और सूचना स्रोतों पर ही या केवल केन्द्रित रूप से प्रशिक्षित न हो।

यह हमारे एआई मॉडल के सांस्कृतिक रूप से संवेदनशील और भाषाई रूप से सक्षम बने रहने के लिए महत्वपूर्ण होगा।

भाषा का दुनिया के बारे में हमारी धारणा पर जितना हम सोचते हैं, उससे कहीं ज़्यादा गहरा असर होता है और इस बात को उस भाषा को बोलने वाले लोगों की समझ के बिना नहीं समझा जा सकता। उदाहरण के लिए, इस शोधपत्र ने दिखाया कि अरबी और अंग्रेज़ी बोलने वाले समय को अलग-अलग दिशाओं में चलते हुए देखते हैं, जबकि अरबी बोलने वाले इसे दाएँ से बाएँ और अंग्रेज़ी बोलने वाले इसे बाएँ से दाएँ चलते हुए देखते हैं। अगर आप केवल शब्द-दर-शब्द मशीन अनुवाद का उपयोग करके समय के स्थान पर मानचित्रण के बारे में अवधारणाओं का अनुवाद करते हैं, तो आप इस बारीकियों को नहीं समझ पाएँगे, जो इस बात का एक छोटा सा उदाहरण दिखाता है कि हमें अपने डेटाबेस को बहुभाषी बनाने के लिए मूल वक्ताओं द्वारा लिखे गए पाठ का उपयोग क्यों करना चाहिए और केवल मशीन अनुवाद पर निर्भर नहीं रहना चाहिए।
भाषाई सापेक्षता नामक एक परिकल्पना है जो सुझाव देती है कि भाषा अपने बोलने वालों और उनके संज्ञान के विश्वदृष्टिकोण को प्रभावित करती है और आकार देती है, और जबकि इस दावे का सबसे मजबूत संस्करण (कि भाषा विचार को निर्धारित करती है ) संभवतः गलत है, इस दावे के कमजोर संस्करण (कि भाषा विचार को प्रभावित करती है ) का समर्थन करने के लिए मजबूत अनुभवजन्य साक्ष्य मौजूद हैं। यह AI के साथ-साथ मनुष्यों पर भी लागू होता है, जिसमें AI अक्सर एक ही संकेत पर अलग-अलग भाषा में अनुवाद किए जाने पर अलग-अलग प्रतिक्रिया देगा।
हमारे लिए विशेष चिंता की बात द लैंग्वेज बैरियर पेपर से यह निष्कर्ष है कि एलएलएम कम संसाधन वाली भाषाओं (जो प्री-ट्रेनिंग डेटा में बहुत कम दिखाई देती हैं) में दुर्भावनापूर्ण संकेतों के लिए असुरक्षित या अप्रासंगिक प्रतिक्रियाएँ देने की अधिक संभावना रखते हैं। यह प्रभाव प्री-ट्रेनिंग के दौरान एलएलएम में "हार्ड-कोडेड" प्रतीत होता है और बाद में इंस्ट्रक्शन-ट्यूनिंग के माध्यम से इसे पूर्ववत नहीं किया जा सकता है। इसका मतलब है कि अगर प्री-ट्रेनिंग के दौरान हमारे पास किसी भाषा में पर्याप्त डेटा नहीं है, तो यह बहुत कम संभावना है कि हम फ़ाइन-ट्यूनिंग के दौरान उस भाषा में प्रजातिवाद को हटाने में बहुत प्रगति कर पाएंगे, भले ही हम उस भाषा में फ़ाइन-ट्यूनिंग करें।
सौभाग्य से, हमें प्री-ट्रेनिंग के दौरान महत्वपूर्ण प्रभाव डालने के लिए कम प्रतिनिधित्व वाली भाषाओं में विशाल डेटासेट की आवश्यकता नहीं है। LLaMA Beyond English ने पाया कि मॉडल प्री-ट्रेनिंग डेटा के 1% से भी कम के साथ कम प्रतिनिधित्व वाली भाषाओं में ज्ञान और प्रतिक्रिया गुणवत्ता में शीर्ष हस्तांतरण प्राप्त कर सकते हैं। इसलिए भले ही हमारे डेटा का अधिकांश हिस्सा अंग्रेजी में हो, लेकिन अन्य भाषाओं में कम से कम थोड़ी मात्रा होने पर उन कम प्रतिनिधित्व वाली भाषाओं के लिए डाउनस्ट्रीम कार्यों में प्रदर्शन की बड़ी छलांग देखने के लिए पर्याप्त होगा - हालाँकि, Open Paws यह सुनिश्चित करने के लिए अतिरिक्त कदम उठाएगा कि हमारा डेटासेट कई अन्य भाषा समुदायों के लिए सुलभ हो और उनके अनुभवों और दृष्टिकोणों से अवगत हो। यह महत्वपूर्ण है कि हम न केवल अन्य भाषाओं में पाठों को समझने या उत्पन्न करने में सक्षम हों, बल्कि उनके सांस्कृतिक संदर्भों के प्रति संवेदनशील रहें।
एक अतिरिक्त विचार यह है कि रोमनकृत लिपियों या वर्णमालाओं का उपयोग करने वाली अन्य भाषाओं की तुलना में LLM को चीनी जैसे भाषा समूहों के साथ संघर्ष करना पड़ सकता है। टोकन-आधारित दृष्टिकोणों का उपयोग करने वाले LLM को टोकन नियोजन और चीनी अक्षरों की स्ट्रिंग को टोकन के रूप में प्रस्तुत करने में संघर्ष करना पड़ा है। यह टोकन-मुक्त LLM पेपर में दिखाया गया था जहाँ टोकन-आधारित भाषा मॉडल चीनी वर्तनी परीक्षणों में विफल हो जाते थे, जबकि टोकन के बजाय अक्षरों या बाइट्स का उपयोग करने वाले टोकन-मुक्त LLM का प्रदर्शन बहुत बेहतर था।
इसका एक संभावित स्पष्टीकरण अंग्रेजी की तुलना में चीनी अक्षरों की विविधता है। अंग्रेजी में 26 अक्षर होते हैं जबकि चीनी में 50,000 से ज़्यादा आम उपयोग में होते हैं, और जब आप प्रति टोकन अक्षरों की संख्या बढ़ाते हैं तो संभावित टोकन की संख्या तेज़ी से बढ़ती है (यानी अगर आपके पास 3-अक्षर लंबा टोकन है, तो अंग्रेजी में 17,576 संभावित टोकन हैं और चीनी में 125,000,000,000,000 संभावित टोकन हैं)
चीनी अक्षरों का उपयोग करने वाले विभिन्न भाषा रूपों के बीच कई सांस्कृतिक और भाषाई अंतर भी हैं (उदाहरण के लिए, ताइवान और चीन के सांस्कृतिक और भाषाई संदर्भ बहुत अलग हैं, जबकि मंदारिन और कैंटोनीज़ दोनों में कई अंतर होने के बावजूद समान अक्षरों का उपयोग किया जाता है)।
ताइवान एलएलएम ताइवान और चीन के बीच सांस्कृतिक और भाषाई अंतरों को संबोधित करने के लिए बनाए गए ओपन-सोर्स मॉडल और डेटासेट का एक उदाहरण है। सामान्य तौर पर, हम वैश्विक और स्थानीय अधिवक्ताओं से सीख सकते हैं कि अपने भाषा समुदायों के साथ इंटरफेस करने का सबसे अच्छा तरीका क्या है - जहाँ आम एलएलएम विधियाँ सांस्कृतिक संवेदनशीलता और जागरूकता के साथ संघर्ष करती हैं, हमें उन भाषाई समुदायों से जवाब माँगना चाहिए कि उनकी भाषा का सबसे अच्छा प्रतिनिधित्व कैसे किया जाए।

हमें यह सुनिश्चित करने की आवश्यकता है कि हम पूर्व-प्रशिक्षण के लिए विविध और बहुभाषी डेटासेट एकत्रित करें तथा विभिन्न क्षेत्रों और संस्कृतियों के स्थानीय स्वयंसेवकों को फीडबैक एकत्र करने में भाग लेने दें।

हमें विशेष रूप से चीनी भाषा में एक मॉडल को प्रशिक्षित करने पर भी विचार करना चाहिए जो बाइट्स या अक्षरों पर काम करता हो, तथा अन्य भाषाओं के लिए टोकन पर काम करने वाले एक अलग बहुभाषी मॉडल पर भी विचार करना चाहिए।

एकाधिक तौर-तरीके

मल्टीमॉडल क्षमताएं ओपन पॉज़ के एआई प्रयासों की पहुंच और प्रासंगिकता को बढ़ाने के लिए आधारशिला हैं।

एक अंतर्निहित मल्टीमॉडल नेटवर्क की तैनाती या एक एलएलएम के भीतर या उसके ऊपर कई संवेदी मॉड्यूल, उपकरण या एनकोडर को क्रमिक रूप से एकीकृत करने के बीच का चुनाव हमारे संसाधन पूल और ओपन-सोर्स एआई के प्रक्षेपवक्र पर निर्भर करता है।

फिर भी, मल्टीमॉडल डेटासेट का सक्रिय क्यूरेशन हमें तकनीकी बदलावों के बीच अनुकूलन और विकास करने की स्थिति में रखता है। मल्टीमॉडलिटी सिर्फ़ एक विकल्प नहीं है, यह एक ज़रूरी चीज़ है।

मोडैलिटी प्लग-एंड-प्ले पेपर से पता चलता है कि यूनिमॉडल एनकोडर को एलएलएम ब्लॉक के लचीले सेट में जोड़ा जा सकता है, जो प्रशिक्षण लागत को बड़े पैमाने पर कम करते हुए मोडैलिटी में सटीकता बनाए रखता है। यह एक अच्छा विकल्प हो सकता है अगर हम उम्मीद से कम फंडिंग जुटाते हैं और/या जब हम प्रशिक्षण शुरू करते हैं तो अत्याधुनिक एलएलएम अत्याधुनिक एमएलएलएम से काफी बेहतर होते हैं।
ड्रीमएलएलएम टेक्स्ट और इमेज दोनों के लिए कच्चे डेटा से सीधे सीखकर मल्टीमॉडल लर्निंग का विस्तार करता है, जिससे CLIP एम्बेडिंग जैसे मध्यवर्ती प्रतिनिधित्व की आवश्यकता नहीं होती। यह एंड-टू-एंड दृष्टिकोण इसे छवियों और टेक्स्ट सहित मल्टीमॉडल सामग्री को उनके कच्चे रूप में उत्पन्न करने और समझने में सक्षम बनाता है।
वनएलएलएम मल्टीमॉडल एनकोडर का उपयोग करके एक बार में एलएलएम में 8 मोडैलिटी जोड़ता है, जो प्रत्येक मोडैलिटी के लिए एक अलग एनकोडर का उपयोग करने की तुलना में अधिक कुशलता से कई मोडैलिटी जोड़ सकता है।
बाइटफ़ॉर्मर सभी संभावित तौर-तरीकों की अनुमति देने के लिए टोकन के बजाय बाइट स्तर पर काम करता है। अगले टोकन की भविष्यवाणी करने के बजाय, यह अगले बाइट्स की भविष्यवाणी करता है, जो अनुमान लगाने के समय फ़ाइल डिकोडिंग की आवश्यकता को समाप्त करता है।
इमेजबाइंड-एलएलएम एक मल्टी-मोडैलिटी इंस्ट्रक्शन ट्यूनिंग विधि प्रस्तुत करता है जो एलएलएम को ऑडियो, 3डी पॉइंट क्लाउड और वीडियो जैसे कई मोडैलिटी के साथ कुशलतापूर्वक एकीकृत करता है, न कि केवल छवियों और पाठ के साथ। मौजूदा दृष्टिकोणों के विपरीत जो छवि-पाठ निर्देश ट्यूनिंग पर ध्यान केंद्रित करते हैं, इमेजबाइंड-एलएलएम एक अद्वितीय बाइंड नेटवर्क और एक ध्यान-मुक्त गेटिंग तंत्र का लाभ उठाता है ताकि दृश्य और अन्य मोडैलिटी सुविधाओं को सीधे एलएलएएमए मॉडल के शब्द टोकन में संरेखित और इंजेक्ट किया जा सके, जिससे यह मल्टी-मोडैलिटी इनपुट की एक विस्तृत श्रृंखला को समझने और भाषा प्रतिक्रियाओं को उत्पन्न करने में सक्षम हो सके।

पशु अधिकार मुद्दों की बहुमुखी प्रकृति को पहचानते हुए, ओपन पॉज़ को एक बहुआयामी दृष्टिकोण अपनाना चाहिए।

पाठ, छवि और ध्वनि के साथ-साथ नए और उभरते डेटा प्रकारों के माध्यम से बहुविध डेटा संग्रहण की नींव रखकर, हम यह सुनिश्चित कर सकते हैं कि हमारे मॉडल नई तकनीकी प्रगति के साथ अद्यतन बने रहें।

पूर्व प्रशिक्षण

पशु वकालत में एआई के लिए पूर्व-प्रशिक्षण में रणनीतिक रूप से केंद्रित तर्क और भूमिका-विशिष्ट कार्यों के साथ डेटासेट को शामिल किया जाना चाहिए, संभवतः उच्च तथ्यात्मक सटीकता के लिए ग्राफ के माध्यम से दर्शाया जाना चाहिए।

विशेषज्ञों का मिश्रण वास्तुकला (या अतुल्यकालिक डोमेन-विशिष्ट विशेषज्ञ प्रशिक्षण की क्षमता के साथ इससे प्रेरित समान वास्तुकला), विभिन्न वकालत चुनौतियों का समाधान करने की कुंजी हो सकती है।

मौजूदा अध्ययन इष्टतम प्रशिक्षण मापदंडों - युग, सीखने की दरें, डेटा मात्रा और विरलता - पर मार्गदर्शन प्रदान करते हैं, जो हमें कुछ हद तक डेटा हानि के लिए तैयार करते हैं, फिर भी आवश्यक कार्यों में प्रदर्शन लाभ की आशा करते हैं।

अनसुपरवाइज्ड डोमेन डिस्कवरी क्लस्टर से संबंधित दस्तावेजों के साथ विशेषज्ञ भाषा मॉडल को स्केल करना , प्रत्येक क्लस्टर के लिए “विशेषज्ञ” एलएम को प्रशिक्षित करता है और उन्हें अनुमान के लिए जोड़ता है। यह MoE के समान ही कार्य करता है, लेकिन इसमें एसिंक्रोनस रूप से प्रशिक्षित होने का अतिरिक्त लाभ है।
हाउ टू रीवार्म योर मॉडल पेपर ने दिखाया कि मॉडल को रीवार्म करने से पहले एलएलएम पर नुकसान बढ़ता है, लेकिन लंबे समय में यह डाउनस्ट्रीम प्रदर्शन को बेहतर बनाता है, स्क्रैच से प्रशिक्षित मॉडल से बेहतर प्रदर्शन करता है - यहां तक कि बड़े डाउनस्ट्रीम डेटासेट के लिए भी। इसने यह भी दिखाया कि निरंतर प्री-ट्रेनिंग के दौरान सीखने की दर को बढ़ाना सबसे प्रभावी है और स्क्रैच से मॉडल को प्री-ट्रेनिंग करने की तुलना में प्री-ट्रेनिंग जारी रखना बहुत कम लागत पर बहुत प्रभावी हो सकता है।
'गिव अस द फैक्ट्स' नामक शोधपत्र ने दर्शाया कि ज्ञान एनकोडर और ज्ञान-निर्देशित पूर्व-प्रशिक्षण कार्यों का उपयोग एलएलएम को ग्राफ समझ बढ़ाने के लिए किया जा सकता है, तथा इससे डाउनस्ट्रीम कार्यों में मतिभ्रम में कमी आती है।
सहायक पूर्व-प्रशिक्षण डेटा के माध्यम से संदर्भ-आधारित शिक्षण को समझने से पता चला है कि ICL के लिए सहायक पूर्व-प्रशिक्षण डेटा में दुर्लभ, दीर्घ-पूंछ वाले टोकनों का अनुपात अधिक होता है और मॉडल के लिए अधिक चुनौतीपूर्ण उदाहरण प्रस्तुत करता है, जो मॉडल को विविध और जटिल संदर्भों से सीखने के लिए प्रोत्साहित कर सकता है।
चेन-ऑफ-थॉट रीजनिंग के लिए अव्यक्त कौशल खोज अप्रत्यक्ष रूप से अप्रशिक्षित डेटा से अव्यक्त तर्क कौशल की पहचान और उपयोग करके पूर्व-प्रशिक्षण प्रक्रिया का समर्थन करती है। यह अधिक केंद्रित और प्रभावी प्रशिक्षण उदाहरणों के निर्माण को सक्षम बनाता है, मॉडल के पूर्व-प्रशिक्षण चरण को उन कौशलों के साथ बढ़ाता है जो इसकी तर्क क्षमताओं को बेहतर बनाते हैं
LocMoE टोकन रूटिंग और संचार रणनीतियों को अनुकूलित करके प्रशिक्षण ओवरहेड को कम करने पर ध्यान केंद्रित करता है। यह एक नई रूटिंग रणनीति पेश करता है जो लोड संतुलन और लोकेलिटी को बढ़ावा देता है, जिससे संचार ओवरहेड कम होता है और मॉडल प्रशिक्षण प्रदर्शन में सुधार होता है। LocMoE सटीकता बनाए रखते हुए प्रशिक्षण समय में महत्वपूर्ण कमी प्रदर्शित करता है, जो मौजूदा MoE मॉडल में प्रदर्शन बाधाओं के लिए एक व्यावहारिक समाधान प्रदान करता है।
डेटा-प्रतिबंधित भाषा मॉडल को स्केल करने पर पाया गया कि 4 युग समान डेटा पर पुनः प्रशिक्षण के लिए “सबसे उपयुक्त समय” है।
विरल रूप से जुड़े फाउंडेशन मॉडल के लिए स्केलिंग कानून एक नया स्केलिंग कानून प्रस्तुत करता है जो विरलता, मॉडल आकार और प्रशिक्षण डेटा को जोड़ता है, एक "इष्टतम विरलता" स्तर की पहचान करता है जो किसी दिए गए मॉडल आकार और डेटा मात्रा के लिए प्रदर्शन को अधिकतम करता है। यह शोध कम्प्यूटेशनल लागत और मॉडल प्रदर्शन को संतुलित करने के लिए विरलता का लाभ उठाकर बड़े मॉडलों के कुशल प्रशिक्षण और तैनाती का मार्गदर्शन कर सकता है।
बड़े भाषा मॉडल के युग में लर्निंग रेट ट्यूनिंग पर पुनर्विचार LRBench++ प्रस्तुत करता है, जो पारंपरिक तंत्रिका नेटवर्क और LLM दोनों के लिए लर्निंग रेट नीतियों के मूल्यांकन और सुविधा के लिए एक बेंचमार्किंग टूल है।
ग्रोकिंग परिप्रेक्ष्य से महत्वपूर्ण डेटा आकार भाषा मॉडल के लिए महत्वपूर्ण डेटा आकार की जांच करता है ताकि याद करने से लेकर सामान्यीकरण तक बदलाव हो सके, जिसे "ग्रोकिंग" कहा जाता है। यह एक ग्रोकिंग कॉन्फ़िगरेशन पेश करता है जो विशिष्ट आरंभीकरण और वज़न क्षय समायोजन के माध्यम से सरल भाषा मॉडल में ग्रोकिंग को पुन: पेश करता है। अध्ययन एक महत्वपूर्ण डेटासेट आकार की पहचान करता है जहाँ मॉडल याद करने से परे सामान्यीकरण करना शुरू करते हैं। यह आकार मॉडल के आकार के साथ बढ़ता है, यह सुझाव देता है कि बड़े मॉडल को प्रभावी सीखने और सामान्यीकरण के लिए अधिक डेटा की आवश्यकता होती है।
ReLoRA एक ऐसी विधि है जो उच्च-रैंक न्यूरल नेटवर्क, विशेष रूप से ट्रांसफॉर्मर को कुशलतापूर्वक प्रशिक्षित करने के लिए निम्न-रैंक अपडेट लागू करती है। शोधपत्र से पता चलता है कि ReLoRA पारंपरिक प्रशिक्षण विधियों के बराबर प्रदर्शन प्राप्त कर सकता है, लेकिन बढ़ी हुई दक्षता के साथ, विशेष रूप से मॉडल के आकार के बढ़ने पर।

ओपन पॉज़ के भीतर एआई का रणनीतिक विकास एक पूर्व-प्रशिक्षण व्यवस्था पर निर्भर करता है जो मॉडल को जटिल वकालत मुद्दों को समझने में सक्षम बनाता है।

स्पष्ट तर्क और कार्य-उन्मुख उदाहरणों के साथ बुने गए डेटासेट को एम्बेड करके, और संभावित रूप से उन्हें ग्राफ़ के रूप में संरचित करके, हम मजबूत तथ्यात्मक सटीकता से लैस एक एआई विकसित करते हैं, जो जटिल वकालत कार्यों के लिए अभिन्न है।

एमओई-शैली की वास्तुकला का उपयोग करके हम विशिष्ट कौशल के विकास की अनुमति दे सकते हैं, तथा पशु वकालत के लिए आवश्यक डोमेन विशेषज्ञता को बढ़ावा दे सकते हैं।

प्रशिक्षण काल, सीखने की दरों और डेटा संरचनाओं पर अनुभवजन्य डेटा के साथ, हम एक ऐसी एआई को गढ़ सकते हैं जो न केवल तकनीकी रूप से उत्कृष्ट हो, बल्कि हमारे मिशन के नैतिक आदेशों के प्रति भी पूरी तरह से सजग हो।

छंटाई, संपीड़न, सम्मिश्रण और विलय

मॉडल संपीड़न के लिए छंटाई प्रभावी है, लेकिन यह अवधारणाओं को स्थायी रूप से हटाने का साधन नहीं है, क्योंकि छंटाई की गई जानकारी को पुनः प्राप्त किया जा सकता है।

न्यूरॉन उन्मूलन पर निर्णय, आउटपुट पर उनके सामूहिक प्रभाव के आधार पर लिया जाना चाहिए।

छोटे मॉडलों को सम्मिश्रित या विलय करके मॉडल के प्रदर्शन को बेहतर बनाया जा सकता है।

इसके अतिरिक्त, एक कॉम्पैक्ट मॉडल को प्रशिक्षित करना और फिर सीखे गए परिवर्तनों को एक बड़े मॉडल में स्थानांतरित करना, बड़े पैमाने पर प्रशिक्षण से जुड़ी लागतों को कम करने में मदद करता है।

यह एक नवीन दृष्टिकोण का सुझाव देता है: छोटे डोमेन-विशिष्ट मॉडलों के समूह को परिष्कृत करना और उनकी विशेषज्ञता को अधिक व्यापक प्रणालियों में समाहित करना, जिससे छोटे पैमाने के प्रशिक्षण निवेशों को प्रतिबिंबित करने वाला एक बड़े पैमाने का, कुशल मॉडल तैयार हो सके।

LoRA पूर्व-प्रशिक्षित मॉडल भार को स्थिर करता है और ट्रांसफॉर्मर आर्किटेक्चर की प्रत्येक परत में प्रशिक्षित रैंक अपघटन मैट्रिक्स को इंजेक्ट करता है, जिससे डाउनस्ट्रीम कार्यों के लिए प्रशिक्षित मापदंडों की संख्या बहुत कम हो जाती है। एडम के साथ फाइन-ट्यून किए गए GPT-3 175B की तुलना में, LoRA प्रशिक्षित मापदंडों की संख्या को 10,000 गुना और GPU मेमोरी की आवश्यकता को 3 गुना कम कर सकता है।
बड़े भाषा मॉडल हटाए गए अवधारणाओं को पुनः सीखते हैं, यह दर्शाता है कि मॉडल उन्नत अवधारणाओं को पहले की परतों में स्थानांतरित करके और समान अर्थ वाले प्राइम्ड न्यूरॉन्स को काटे गए अवधारणाओं को पुनः आवंटित करके, छंटाई के बाद प्रदर्शन को जल्दी से पुनः प्राप्त कर सकते हैं।
न्यूरल नेटवर्क को छाँटने के लिए सहकारी खेल सिद्धांत का उपयोग करना गेम थ्योरी असिस्टेड प्रूनिंग (GTAP) नामक एक विधि प्रस्तुत करता है, जो न्यूरल नेटवर्क के आकार को कम करता है जबकि इसकी पूर्वानुमान सटीकता को बनाए रखता है। GTAP, गेम सैद्धांतिक समाधानों के माध्यम से पूर्वानुमान गुणवत्ता पर उनके संयुक्त प्रभाव के अनुमान के आधार पर नेटवर्क में न्यूरॉन्स को खत्म करने पर आधारित है।
इवोमर्ज, वेट क्रॉसओवर के लिए मॉडल मर्जिंग और वेट म्यूटेशन के लिए फाइन-ट्यूनिंग का उपयोग करता है, तथा पारंपरिक फाइन-ट्यूनिंग की सीमाओं से परे मॉडलों को बढ़ाने के लिए एक विकासवादी प्रक्रिया की स्थापना करता है।
ब्लेंडिंग इज ऑल यू नीड (Blending Is All You Need) से पता चलता है कि जब विशिष्ट छोटे मॉडलों को सहक्रियात्मक रूप से मिश्रित किया जाता है, तो वे संभावित रूप से अपने बड़े समकक्षों की तुलना में बेहतर प्रदर्शन कर सकते हैं या उनकी क्षमताओं से मेल खा सकते हैं।
एलएम-कॉकटेल भाषा मॉडल को ठीक करने की एक विधि प्रस्तावित करता है, जबकि उनकी सामान्य क्षमताओं को संरक्षित करते हुए, भयावह भूलने की समस्या को संबोधित करता है। यह तकनीक भारित औसत के माध्यम से या तो पूर्व-प्रशिक्षित आधार मॉडल या अन्य डोमेन-विशिष्ट मॉडल के साथ ठीक-ठीक मॉडल को जोड़ती है।
प्रॉक्सी द्वारा भाषा मॉडल ट्यूनिंग प्रॉक्सी-ट्यूनिंग का परिचय देता है, जो डिकोडिंग के समय बड़े भाषा मॉडल (LLM) को उनके भार को संशोधित किए बिना अनुकूलित करने की एक विधि है। एक छोटे, फाइन-ट्यून्ड मॉडल (विशेषज्ञ) और उसके अनट्यून्ड संस्करण (एंटी-एक्सपर्ट) का उपयोग करके, प्रॉक्सी-ट्यूनिंग फाइन-ट्यूनिंग का अनुकरण करने के लिए बेस LLM के आउटपुट को समायोजित करता है। यह दृष्टिकोण बड़े LLM को कुशलतापूर्वक अनुकूलित करता है, मॉडल की सामान्य क्षमताओं और ज्ञान को बनाए रखते हुए विभिन्न कार्यों और बेंचमार्क में महत्वपूर्ण सुधार दिखाता है।
QLoRA एक कुशल फ़ाइन-ट्यूनिंग विधि है जिसे क्वांटाइज़्ड बड़े भाषा मॉडल के लिए डिज़ाइन किया गया है, जो प्रदर्शन को बनाए रखते हुए एकल GPU पर फ़ाइन-ट्यूनिंग की अनुमति देता है। यह क्वांटाइज़्ड मॉडल के माध्यम से ग्रेडिएंट को कम-रैंक एडाप्टर में बैकप्रोपगेट करता है, जिससे काफी कम मेमोरी आवश्यकताओं के साथ उच्च प्रदर्शन प्राप्त होता है।

छंटाई, संपीड़न, सम्मिश्रण और विलयन तकनीकों का एकीकरण ओपन पॉज़ के लिए एक परिवर्तनकारी अवसर का प्रतिनिधित्व करता है।

इन विधियों के माध्यम से, हम डोमेन-विशिष्ट विशेषज्ञता से युक्त कॉम्पैक्ट किन्तु प्रभावशाली एआई मॉडल विकसित कर सकते हैं, तथा बड़े मॉडलों के प्रशिक्षण में लगने वाली अत्यधिक लागत से बच सकते हैं।

इस तरह के अनुकूलित उपकरण हमें विभिन्न वकालत कार्यों के लिए एआई को तैनात करने की लचीलापन प्रदान करते हैं और पशु वकालत के क्षेत्र में उभरती चुनौतियों का सामना करने के लिए हमारी एआई क्षमताओं को तेजी से बढ़ाने के लिए सशक्त बनाते हैं।

छोटे डोमेन-विशिष्ट मॉडलों की सूझबूझ को बड़े, अधिक व्यापक मॉडलों में मिलाने से पशु वकालत के जटिल ढांचे के प्रति एआई की सूझबूझ और प्रतिक्रियाशीलता में निरंतर सुधार के लिए एक लागत-प्रभावी प्रक्षेपवक्र मिलता है। इस तरह, तकनीकी प्रगति सीधे तौर पर हमारे वकालत प्रभाव की बढ़ी हुई प्रभावकारिता और विस्तार में तब्दील हो जाती है।

मानव फीडबैक पर प्रशिक्षण

पशु वकालत में एआई प्रभावशीलता को बढ़ाने के लिए, बहुआयामी प्रशिक्षण विधियाँ सरल बाइनरी तुलनाओं से आगे निकल जाती हैं। विस्तृत फीडबैक के साथ रैंकिंग स्केल का उपयोग करना और पुष्टि और प्रति-तथ्यात्मक दोनों उदाहरणों को पेश करना वांछित और अवांछित व्यवहारों की एआई समझ में काफी सुधार कर सकता है।

इसके अलावा, DPO, CRINGE और MPO जैसे एल्गोरिदम में प्रगति, PPO की तुलना में बेहतर प्रदर्शन दर्शाती है।

मानव फीडबैक-आधारित प्रशिक्षण के क्रियान्वयन में, व्यक्तिपरक मूल्यांकन और वस्तुनिष्ठ मीट्रिक्स दोनों सहित पुरस्कार कार्यों का एक संयोजन अपनाया जाना चाहिए।

फीडबैक के लिए मानव योगदानकर्ताओं के एक व्यापक, समावेशी समूह को सुरक्षित करना, एक समग्र, नैतिक एआई परिप्रेक्ष्य को विकसित करने के लिए समान रूप से महत्वपूर्ण है।

डीपीओ, आरएल के लिए रिवॉर्ड मॉडल को प्रशिक्षित करने के बजाय सीधे मानव फीडबैक पर एलएलएम की नीति को प्रशिक्षित करता है। इसे लागू करना आसान है और प्रशिक्षित करना सस्ता है, लेकिन विभिन्न रिवॉर्ड फ़ंक्शन के साथ काम करना मुश्किल या असंभव हो सकता है। एमपीओ पेपर के अनुसार इसमें ओवरफिटिंग का जोखिम भी हो सकता है।
MPO प्रत्यक्ष वरीयता अनुकूलन और मानव प्रतिक्रिया से सुदृढीकरण सीखने के लाभों को जोड़ता है। MPO ऑफ-पॉलिसी अनुकूलन के लिए महत्व नमूनाकरण का उपयोग करता है, जो पुरस्कार मॉडल और संदर्भ नीति की आवश्यकता को हटाकर सीखने की प्रक्रिया को सरल बनाता है। यह पिछले तरीकों की जटिलता और अस्थिरता के बिना मॉडल को मानवीय प्राथमिकताओं के साथ संरेखित करने की चुनौती को संबोधित करता है।
काउंटरफैक्टुअल डायरेक्ट प्रेफरेंस ऑप्टिमाइजेशन (प्रतितथ्यात्मक प्रत्यक्ष वरीयता अनुकूलन) एलएलएम को वांछित आउटपुट को प्रोत्साहित करने और अवांछित आउटपुट को हतोत्साहित करने के लिए ठीक करने की अनुमति देता है, जिससे व्यापक मानवीय हस्तक्षेप के बिना पूर्वाग्रहों को प्रभावी ढंग से कम किया जा सकता है और नैतिक संरेखण को बढ़ाया जा सकता है।
कानूनी अनुप्रयोगों को सुविधाजनक बनाने के लिए बड़े भाषा मॉडल में तार्किक तर्क को बढ़ाना तार्किक प्रतिक्रिया से सुदृढीकरण सीखना (RLLF) पेश करता है, जिसका उद्देश्य प्रशिक्षण प्रक्रिया में तार्किक प्रतिक्रिया को एकीकृत करके LLM के तर्क को बेहतर बनाना है। RLLF को जटिल कानूनी तर्क कार्यों को संभालने में मौजूदा मॉडलों की सीमाओं के समाधान के रूप में प्रस्तावित किया गया है।
रेटिंग-आधारित सुदृढीकरण सीखना, इनाम कार्यों को सीखने के लिए जोड़ीदार वरीयताओं या प्रदर्शनों के बजाय व्यक्तिगत खंडों पर मानव रेटिंग का लाभ उठाता है। इस पद्धति का उद्देश्य नमूनों के अधिक जानकारीपूर्ण, पूर्ण मूल्यांकन प्रदान करके मौजूदा सुदृढीकरण सीखने की तकनीकों की सीमाओं को दूर करना है। RbRL का अनूठा ढांचा और बहु-वर्ग क्रॉस-एंट्रॉपी हानि फ़ंक्शन गुणात्मक मानव मूल्यांकन से प्रभावी नीति सीखने की अनुमति देता है, जो नमूना दक्षता में सुधार करने और AI व्यवहारों को मानवीय निर्णय के साथ अधिक निकटता से संरेखित करने में वादा दिखाता है।
ऐसा लगता है कि युग्मित CRINGE बाइनरी CRINGE और DPO दोनों से बेहतर प्रदर्शन करता है। अन्य एल्गोरिदम में, रैंकिंग और बारीक फीडबैक ने युग्मित तुलनाओं से बेहतर प्रदर्शन किया है, इसलिए ऐसा लगता है कि अगर इन्हें CRINGE में लागू करने का कोई तरीका है तो इससे SOTA प्रदर्शन में सुधार हो सकता है, लेकिन यह देखने के लिए और अधिक शोध की आवश्यकता है कि क्या यह संभव है।
आर्टिफीसियल आर्टिफीसियल इंटेलिजेंस (टाइपो नहीं) पेपर मल्टी-रिवॉर्ड मॉडल वोटिंग दृष्टिकोण के आधार पर वरीयता शक्ति माप मीट्रिक का प्रस्ताव करता है। इस प्रस्तावित मीट्रिक का उपयोग करके, हम मूल डेटासेट के भीतर गलत, अस्पष्ट और सामान्य वरीयताओं के बीच अंतर कर सकते हैं। फिर, हम गलत वरीयताओं के लेबल को सही कर सकते हैं और इन कम-गुणवत्ता वाले डेटा बिंदुओं पर मॉडल के ओवरफिटिंग से बचने के लिए अस्पष्ट वरीयताओं के लेबल को सुचारू कर सकते हैं।
बड़े भाषा मॉडल भाग II में आरएलएचएफ के रहस्यों से एक दिलचस्प निष्कर्ष: पुरस्कार मॉडलिंग यह है कि प्रतिक्रिया में वरीयताओं के लिए शोधकर्ताओं और डेटा कार्यकर्ताओं के बीच सहमति बहुत कम है। यह फीडबैक संग्रह के लिए स्वयंसेवकों के एक बहुत ही विविध समूह का उपयोग करने के महत्व को उजागर करता है, खासकर जब हमें भाग लेने के लिए कई गैर-तकनीकी उपयोगकर्ताओं की आवश्यकता होती है।
मानव फ़ीडबैक से सुदृढीकरण सीखने की खुली समस्याएँ और मौलिक सीमाएँ RLHF के साथ कई चिंताओं को उजागर करती हैं। सबसे पहले, डेटा वर्कर्स के चयन से पूर्वाग्रह उभरता है। दूसरा, अधिकांश RLHF एल्गोरिदम राय और लक्ष्यों की विविधता के लिए अच्छी तरह से काम नहीं करते हैं क्योंकि एक एकल पुरस्कार फ़ंक्शन मानव वरीयता की पूरी विविधता को ध्यान में रखने के लिए बहुत सरल है। "अनुमोदन" "लाभ" के बजाय अनुकूलित फ़ंक्शन बन जाता है। RLHF प्रदर्शन को बेहतर बनाने के लिए कई तकनीकों का सुझाव दिया गया है। बाइनरी फ़ीडबैक के बजाय सामग्री पर आपत्तियों के लिए प्रदर्शन और कई विकल्पों का उपयोग किया जाना चाहिए, संरेखण पूर्व-प्रशिक्षण में शुरू होना चाहिए और डेटा वर्कर्स को विविधतापूर्ण और अच्छी तरह से निर्देशित होना चाहिए
आरएलएचएफ के संरेखण कर को कम करने से यह भी पता चलता है कि प्री और पोस्ट-आरएलएचएफ वेट से मॉडल वेट एवरेजिंग, विशेष रूप से निचली ट्रांसफॉर्मर परतों पर, फीचर विविधता को बढ़ाकर प्रदर्शन-पुरस्कार व्यापार-बंद में सुधार कर सकता है। प्रस्तावित अनुकूली मॉडल औसत (एएमए) विधि संरेखण पुरस्कारों को अनुकूलित करने के लिए परत संयोजन अनुपातों को गतिशील रूप से समायोजित करती है जबकि भूलने को कम करती है, जिसे विभिन्न आरएलएचएफ एल्गोरिदम और ओपनएलएलएएमए-3बी और मिस्ट्रल-7बी जैसे मॉडलों में मान्य किया गया है।
सूक्ष्म-कणयुक्त मानवीय फीडबैक भाषा मॉडल प्रशिक्षण के लिए बेहतर पुरस्कार देता है। यह एक ऐसे ढांचे का सुझाव देता है जो दो मामलों में सूक्ष्म-कणयुक्त पुरस्कार कार्यों से प्रशिक्षण और सीखने को सक्षम बनाता है: (1) घनत्व, प्रत्येक खंड (जैसे, एक वाक्य) के उत्पन्न होने के बाद एक पुरस्कार प्रदान करना; और (2) विभिन्न फीडबैक प्रकारों (जैसे, तथ्यात्मक अशुद्धता, अप्रासंगिकता और सूचना अपूर्णता) से जुड़े कई पुरस्कार मॉडल को शामिल करना।
GPT-4 तकनीकी रिपोर्ट और सुरक्षा कार्ड RLHF के प्रभावों का विवरण देते हैं, लेकिन मॉडल आर्किटेक्चर के बारे में और विस्तार से नहीं बताते हैं। एक दिलचस्प खोज यह है कि RLHF के साथ फ़ाइन-ट्यूनिंग के माध्यम से परीक्षा परिणामों पर प्रदर्शन में कोई महत्वपूर्ण बदलाव नहीं होता है। इससे पता चलता है कि बुद्धिमत्ता में वृद्धि फ़ाइन-ट्यूनिंग के दौरान नहीं होती है, यह प्री-ट्रेनिंग के दौरान होती है, जो बदले में यह सुझाव देती है कि हमारे AI को जानवरों के मुद्दों का ज्ञान प्राप्त करने के लिए, उसे प्री-ट्रेनिंग के दौरान यह ज्ञान प्राप्त करने की आवश्यकता है। एक और दिलचस्प खोज यह है कि GPT-4 को RLHF से पहले इसकी निश्चितता की डिग्री के बारे में पता था, लेकिन बाद में नहीं। इससे पता चलता है कि "अनुमोदन" के लिए पूरी तरह से अनुकूलन करके मॉडल अपनी प्रतिक्रिया में अति आत्मविश्वास व्यक्त करना सीखता है बजाय इसके कि वह यह स्वीकार करे कि उसे कुछ नहीं पता है। GPT-4 ने नियम-आधारित पुरस्कार मॉडल के साथ एक अतिरिक्त फ़ाइन-ट्यूनिंग तकनीक का उपयोग किया ताकि यह निर्दोष अनुरोधों को अस्वीकार करना बंद कर दे (जैसा कि GPT3.5 अक्सर मूल RLHF के साइड इफ़ेक्ट के रूप में निर्दोष अनुरोधों को अस्वीकार कर देता था)। ऐसा लगता है कि यह प्रभावी रहा है और प्रशिक्षण डेटा के लिए जीरो-शॉट क्लासिफायर के रूप में GPT-4 का उपयोग करके इसे दोहराना आसान लगता है। यह नोट करना भी महत्वपूर्ण है कि सुरक्षा कार्ड निर्दिष्ट करता है कि प्री-ट्रेनिंग डेटासेट को फ़िल्टर करना भी मॉडल को संरेखित करने में महत्वपूर्ण था, जो कि हमारे द्वारा चर्चा किए गए कई अन्य शोधों का समर्थन करता है जो यह सुझाव देते हैं कि प्रजातिवाद के बिना एआई को प्राप्त करने के लिए आरएलएचएफ अपने आप में पर्याप्त नहीं होगा। वे यह भी नोट करते हैं कि मॉडल अवांछनीय व्यवहार प्रदर्शित करता है जब संकेतों के लिए "लेबलर्स को निर्देश कम निर्दिष्ट किए गए थे"। यह सुझाव देता है (चर्चा किए गए अन्य शोध के साथ) कि हमें यह सुनिश्चित करने की आवश्यकता है कि मानव प्रतिक्रिया स्वयंसेवकों को पर्याप्त निर्देश प्राप्त हों। वे एक स्व-पुनरावृत्त प्रक्रिया के माध्यम से मतिभ्रम को कम करने में भी सक्षम थे जहां जीपीटी-4 एक प्रतिक्रिया उत्पन्न करेगा, फिर मतिभ्रम की जांच करेगा, अगर मतिभ्रम पाए जाते हैं तो प्रतिक्रिया को फिर से लिखेंगे

मानवीय प्रतिक्रिया विविधतापूर्ण, बारीक और रैंकिंग-आधारित होनी चाहिए। मानवीय प्रतिक्रिया के आधार पर प्रशिक्षण को लागू करने के लिए इस्तेमाल किया जाने वाला विशिष्ट एल्गोरिदम संभवतः PPO के बजाय DPO, MPO या CRINGE का कोई प्रकार होना चाहिए और हमें एकल पुरस्कार फ़ंक्शन के बजाय कई पुरस्कार फ़ंक्शन का उपयोग करके बेहतर परिणाम देखने की संभावना है।

एआई फीडबैक पर प्रशिक्षण

स्थिर पुरस्कार मॉडल का उपयोग करने वाले एआई के प्रदर्शन की छत मानव क्षमता के बराबर है, लेकिन पुनरावृत्त आत्म-संशोधन असीम उन्नति का संकेत देता है। आत्म-आलोचना के माध्यम से विकसित होने वाला एआई मानव दक्षता तक सीमित नहीं है - हालाँकि सॉफ़्टवेयर और हार्डवेयर प्रतिबंध लगाते हैं।

स्व-खेल, संवाद, स्कोरिंग, फीडबैक और आलोचना विधियों के साथ-साथ पुनरावृत्तीय आईपीओ जैसी तकनीकें एआई की स्वायत्त वृद्धि के लिए अग्रणी मार्ग हैं।

सेल्फ-प्ले फ़ाइनट्यूनिंग एक सेल्फ-प्ले मैकेनिज़्म का उपयोग करता है, जो एलएलएम को उनके प्रशिक्षण डेटा को उत्पन्न करके और उनकी क्षमताओं को पुनरावृत्त रूप से परिष्कृत करके सुधार करने की अनुमति देता है। यह दृष्टिकोण खेलों में सेल्फ-प्ले की ताकत का लाभ उठाता है, जिसे बाहरी मार्गदर्शन के बिना कार्यों पर बेहतर प्रदर्शन प्राप्त करने के लिए एलएलएम पर लागू किया जाता है।
ASPIRE बड़े भाषा मॉडल को उत्पन्न उत्तरों में उनके आत्मविश्वास का आकलन करने में सक्षम बनाता है, जिससे चयनात्मक भविष्यवाणी क्षमताओं में प्रभावी रूप से सुधार होता है। यह दृष्टिकोण मॉडल की विश्वसनीयता और सटीकता को बढ़ाता है, विशेष रूप से जटिल प्रश्न-उत्तर कार्यों में, आंतरिक प्रतिक्रिया तंत्र के आधार पर अपने प्रदर्शन को स्व-मूल्यांकन और समायोजित करने के लिए मॉडल को ठीक करके
एआई स्व-प्रशिक्षण के लिए यूरेका दृष्टिकोण में सुदृढीकरण सीखने के कार्यों के लिए पुरस्कार कार्यों को स्वायत्त रूप से डिजाइन करने के लिए बड़े भाषा मॉडल का उपयोग करना शामिल है। यह एआई को सफलता के मानदंडों को बार-बार परिष्कृत करके विभिन्न कार्यों पर अपने प्रदर्शन को बेहतर बनाने में सक्षम बनाता है, मानवीय हस्तक्षेप के बिना पुरस्कार कार्यों को विकसित करने और बढ़ाने के लिए अपनी कोडिंग क्षमताओं का लाभ उठाता है। यह विधि दिखाती है कि कैसे एआई परिणामों के आधार पर अपने सीखने के उद्देश्यों को बनाकर और समायोजित करके प्रभावी रूप से स्व-प्रशिक्षण कर सकता है, और अधिक स्वायत्त और कुशल सीखने की प्रक्रियाओं को बढ़ावा देता है।
SELF दो-चरणीय शिक्षण प्रक्रिया प्रस्तुत करता है: मेटा-स्किल लर्निंग, जहाँ मॉडल स्व-प्रतिक्रिया और परिशोधन के लिए आधारभूत कौशल प्राप्त करता है, और स्व-विकास, जहाँ यह अपने स्व-निर्मित डेटा से उत्पन्न, परिशोधित और सीखकर पुनरावृत्त रूप से सुधार करता है। यह दृष्टिकोण LLM को स्वायत्त रूप से अपनी क्षमताओं को बढ़ाने की अनुमति देता है, जिससे मॉडल प्रशिक्षण में व्यापक मानवीय हस्तक्षेप की आवश्यकता कम हो जाती है।
स्व-वार्ता के माध्यम से एलएलएम-आधारित कार्य-उन्मुख संवाद एजेंटों को बूटस्ट्रैप करना क्लाइंट और एजेंट भूमिकाओं के बीच संवादों का अनुकरण करता है, जिसे एक ऐसी प्रक्रिया के माध्यम से परिष्कृत किया जाता है जो पर्यवेक्षित फाइन-ट्यूनिंग के लिए गुणवत्ता और प्रासंगिकता सुनिश्चित करती है। अध्ययन दर्शाता है कि स्व-निर्मित वार्तालाप कार्य-उन्मुख सेटिंग्स में संवाद एजेंटों के प्रदर्शन में काफी सुधार कर सकते हैं, जो मैन्युअल रूप से एनोटेट किए गए डेटासेट पर निर्भरता को कम करने की विधि की क्षमता को उजागर करता है।
GRATH ने प्रीट्रेन्ड LLM में सत्यनिष्ठा को बेहतर बनाने के लिए एक पोस्ट-प्रोसेसिंग विधि पेश की है, जिसमें डेटा निर्माण के लिए आउट-ऑफ-डोमेन (OOD) प्रॉम्प्ट और मॉडल फ़ाइन-ट्यूनिंग के लिए डायरेक्ट प्रेफरेंस ऑप्टिमाइज़ेशन (DPO) का उपयोग किया जाता है। यह स्व-पर्यवेक्षित दृष्टिकोण एनोटेटेड डेटा की आवश्यकता के बिना मॉडल सत्यनिष्ठा को बढ़ाता है, अन्य विधियों और यहां तक कि बड़े मॉडलों की तुलना में सत्यनिष्ठा बेंचमार्क पर बेहतर प्रदर्शन प्रदर्शित करता है।
भाषा मॉडलिंग के लिए प्रबलित स्व-प्रशिक्षण (ReST) ऑफ़लाइन सुदृढीकरण सीखने की दक्षता को स्व-निर्मित प्रशिक्षण डेटा की लचीलेपन के साथ जोड़ता है। इसे एक पुनरावृत्त प्रक्रिया के माध्यम से डेटा उत्पन्न और परिष्कृत करके भाषा मॉडल को मानवीय प्राथमिकताओं के साथ संरेखित करने के लिए डिज़ाइन किया गया है, जिसमें मॉडल से आउटपुट उत्पन्न करना, इन आउटपुट का मूल्यांकन करना और फिर इस मूल्यांकन के आधार पर मॉडल को ठीक करना शामिल है।
स्व-पुरस्कृत भाषा मॉडल निर्देश के बाद के कार्यों में मॉडल के प्रदर्शन को परिष्कृत करने के लिए पुनरावृत्त प्रत्यक्ष वरीयता अनुकूलन का उपयोग करता है, साथ ही अपने लिए उच्च-गुणवत्ता वाले पुरस्कार उत्पन्न करने की अपनी क्षमता को भी बढ़ाता है। इस विधि के माध्यम से लामा 2 70B को ठीक करने से आशाजनक परिणाम मिले, बेंचमार्क कार्यों पर अन्य मॉडलों से बेहतर प्रदर्शन किया।

एआई फीडबैक पर प्रशिक्षण ओपन पॉज़ के एआई को पशु वकालत में विकासवादी छलांग लगाने के लिए तैयार करता है, जिससे मानवीय बाधाओं को दूर करके संभावित रूप से गहन अंतर्दृष्टि को उजागर किया जा सकता है।

स्व-चालित सुधार को अपनाने वाली तकनीकें - स्व-खेल, स्व-मूल्यांकन और स्व-आलोचना - एआई को स्वतंत्र रूप से तरीकों को निखारने और संभवतः वर्तमान मानवीय कल्पना से परे नई वकालत की रणनीति का पता लगाने में सक्षम बनाती हैं। इस तरह की स्वायत्त प्रगति ओपन पॉज़ के एआई को शुरू से ही दृढ़ नैतिक सिद्धांतों के साथ जोड़ने की आवश्यकता पर जोर देती है।

चूंकि कृत्रिम बुद्धि मानव बुद्धि से परे क्षेत्रों में प्रवेश कर रही है, इसलिए इसे सभी प्राणियों के प्रति सहानुभूति और सम्मान के आधारभूत मूल्यों से जोड़ना, पशु अधिकारों की सार्थक और करुणामयी सेवा करने की दिशा में इसके प्रक्षेप पथ को निर्देशित करने के लिए महत्वपूर्ण है।

सामान्य प्रशिक्षण रणनीति

एआई मॉडलों का इष्टतम प्रशिक्षण सरल इनपुट-आउटपुट अनुकरण से आगे बढ़कर तर्क पथों के उदाहरणीकरण की आवश्यकता पर बल देता है।

प्रशिक्षण डेटा में तर्क की गहराई का एक स्पेक्ट्रम प्रस्तुत किया जाना चाहिए, जिसमें सफलता और असफलता दोनों को शामिल किया जाना चाहिए, जिसमें AI अनिश्चितता ("मुझे नहीं पता") के उदाहरण भी शामिल होने चाहिए।

समृद्ध ज्ञान अवशोषण के लिए शैली, भाषा और लहजे में परिवर्तन महत्वपूर्ण है।

उभरते हुए अंतर्दृष्टि से पता चलता है कि ग्राफ-आधारित प्रशिक्षण कार्य-केंद्रित प्रदर्शन को परिष्कृत करता है और MoE मॉडल विशेष रूप से उच्च प्रभावकारिता के लिए निर्देश ट्यूनिंग से लाभान्वित होते हैं।

लीप ऑफ थॉट प्रशिक्षण मॉडल में रचनात्मकता और हास्य को बढ़ाता है। सबसे पहले, आप आउटपुट के लिए एकल-शब्द "सुरागों" की एक यादृच्छिक संख्या के साथ इनपुट-आउटपुट जोड़े पर प्रशिक्षण देते हैं। यह LLM को दिखाता है कि सुराग की आवश्यकता पर निर्भरता के बिना "अच्छा" आउटपुट कैसा दिखता है। फिर, आप वही काम करते हैं, लेकिन आउटपुट से संबंधित शब्दों के बजाय यादृच्छिक शब्दों को "सुरागों" के रूप में इस्तेमाल करते हैं। इन शब्दों को आउटपुट के साथ बहुत कमज़ोर रूप से संबद्ध होना चाहिए। यह अंतिम चरण मॉडल में वास्तव में भिन्न सोच पैदा करता है यानी स्पष्ट रूप से असंबद्ध विचारों को जोड़ने की क्षमता, जो कि मनुष्यों में वास्तव में रचनात्मक और अभिनव सोच के साथ सबसे मजबूती से जुड़ी सोच शैली है।
विशेषज्ञों का मिश्रण निर्देश ट्यूनिंग से मिलता है, यह दर्शाता है कि MoE मॉडल सघन मॉडल की तुलना में निर्देश ट्यूनिंग से काफी अधिक लाभान्वित होते हैं।
विचार क्लोनिंग व्यवहार क्लोनिंग की तुलना में बेहतर परिणाम और संरेखण प्राप्त करता है। एजेंटों को न केवल मानवीय क्रियाओं की नकल करने के लिए प्रशिक्षित करके, बल्कि उन क्रियाओं के दौरान अंतर्निहित विचार प्रक्रियाओं को भी प्रशिक्षित करके। ऐसे प्रदर्शनों का लाभ उठाकर जहाँ मनुष्य अपने विचारों को मौखिक रूप से व्यक्त करते हैं, इस पद्धति का उद्देश्य AI एजेंटों को बेहतर सामान्यीकरण क्षमताएँ, व्याख्या करने की क्षमता और सुरक्षा प्रदान करना है।
टर्निंग डस्ट टू गोल्ड सकारात्मक डेटा के पूरक के रूप में नकारात्मक डेटा का उपयोग करता है, मॉडल के सीखने को समृद्ध करता है और त्रुटियों की पुनरावृत्ति को रोकता है। इस ढांचे में प्रशिक्षण और अनुमान के दौरान नकारात्मक डेटा के उपयोग को अनुकूलित करने के लिए नकारात्मक सहायक प्रशिक्षण, नकारात्मक कैलिब्रेटेड संवर्द्धन और अनुकूली स्व-संगति शामिल है, जो जटिल गणितीय समस्याओं पर महत्वपूर्ण प्रदर्शन सुधार दिखाता है।
मजबूत निर्देश ट्यूनिंग के माध्यम से बड़े मल्टी-मॉडल मॉडल में मतिभ्रम को कम करने से पता चला कि प्रशिक्षण के दौरान कई अर्थ स्तरों पर सकारात्मक और नकारात्मक दोनों निर्देश प्रदान करने से मतिभ्रम कम हो जाता है।
क्या AI सहायक जान सकते हैं कि वे क्या नहीं जानते? एक "मुझे नहीं पता" डेटासेट पेश करता है, जो AI को उसकी ज्ञान सीमाओं के साथ संरेखित करता है। संरेखण के बाद, AI अपने ज्ञान के दायरे से परे उत्तरों को अस्वीकार करने की एक उल्लेखनीय क्षमता दिखाता है, जिससे प्रयास किए गए प्रश्नों के लिए सत्यता और सटीकता बढ़ जाती है।
फ़ाइन-ट्यूनिंग के दौरान कॉन्सेप्ट भूलने को कम करने से पता चला कि फ़ाइन-ट्यून्ड मॉडल अपने प्री-ट्रेन्ड वर्शन से पैरामीटर या फ़ीचर स्पेस से जितना ज़्यादा दूर होता है, भूलने का स्तर उतना ही ज़्यादा भयावह होता है। वे कुछ सबूत दिखाते हैं कि छोटे अनुक्रमिक फ़ाइन-ट्यूनिंग रन एक बार में सभी फ़ाइन-ट्यूनिंग चलाने की तुलना में इस प्रभाव को कम करते हैं। लेखक LDIFS (फ़ीचर स्पेस में दूरी) का प्रस्ताव करते हैं, जो फ़ाइन-ट्यूनिंग के दौरान मूल मॉडल से फ़ीचर को संरक्षित करने पर ध्यान केंद्रित करने वाली एक विधि है। यह दृष्टिकोण डाउनस्ट्रीम कार्य प्रदर्शन को नुकसान पहुँचाए बिना कॉन्सेप्ट भूलने में महत्वपूर्ण कमी दिखाता है, जो सामान्य ज्ञान को बनाए रखने और नई, कार्य-विशिष्ट जानकारी सीखने के बीच संतुलन का सुझाव देता है।
ग्राफ़ पर कुशल बड़े भाषा मॉडल फ़ाइन-ट्यूनिंग से पता चलता है कि ग्राफ़ पर LLM को प्रशिक्षित करना मानक तरीकों की तुलना में कम्प्यूटेशनल रूप से सस्ता है, जबकि ग्राफ़-संबंधित कार्यों पर डाउनस्ट्रीम प्रदर्शन को भी बढ़ाता है। ग्राफ़ न्यूरल नेटवर्क ने ऐतिहासिक रूप से टेक्स्ट एम्बेडिंग का उपयोग किया है जो प्रभावी होने के लिए बहुत उथले थे, लेकिन लेखक सुझाव देते हैं कि टेक्स्ट-एट्रिब्यूटेड ग्राफ़ का उपयोग करके इस सीमा को पार किया जा सकता है, एन्कोडिंग और प्रसार अतिरेक को संबोधित किया जा सकता है। यह विधि LLM और GNN के एंड-टू-एंड प्रशिक्षण की अनुमति देती है, जो सीमित लेबल वाले डेटा के साथ LLM से डाउनस्ट्रीम कार्यों में ज्ञान स्थानांतरित करने में महत्वपूर्ण मापनीयता और प्रभावशीलता दिखाती है।

पशु संरक्षण के मुद्दे के साथ प्रामाणिक और गहन जुड़ाव के लिए यह आवश्यक है कि कृत्रिम बुद्धि का प्रशिक्षण नैतिक निर्णयों के अंतर्निहित तर्कों के जटिल जाल को प्रतिबिंबित करे।

अपने प्रशिक्षण के भीतर तर्क संरचनाओं को शामिल करके, तथा पुष्टि और आलोचना के बीच संतुलन बनाकर, गहन समझ के लिए एआई की क्षमता को काफी हद तक बढ़ाया जाता है।

इसके अलावा, "मैं नहीं जानता" को स्वीकार करने से नैतिक और ज्ञानात्मक विनम्रता आती है, तथा अति आत्मविश्वास से भरी गलतियों से बचा जा सकता है।

निर्देशात्मक विविधता एआई को गिरगिट जैसी बहुमुखी प्रतिभा प्रदान करती है, जो विविध जनसांख्यिकी को प्रभावित करने के लिए आवश्यक है।

ग्राफ डेटा संरचनाओं पर प्रशिक्षण ओपन पॉज़ के लिए विशेष रूप से महत्वपूर्ण हो सकता है, जिससे एआई के लिए वकालत परिदृश्यों की विशेषता वाले विस्तृत कनेक्शनों को समझने और उन पर बातचीत करने के लिए मार्ग प्रशस्त हो सकता है।

इसके अलावा, MoE और निर्देश ट्यूनिंग को एकीकृत करने से AI की रचनात्मक समस्या-समाधान क्षमता को बढ़ाया जा सकता है, जबकि इसके नैतिक आधार को भी संरक्षित किया जा सकता है।

इन नवीन युक्तियों को आपस में जोड़कर, ओपन पॉज़ एआई की क्षमताओं के पूर्ण स्पेक्ट्रम का उपयोग करने के लिए तैयार है, तथा एआई की निरंतर विकसित हो रही बुद्धि द्वारा संचालित व्यावहारिक और जिम्मेदार पशु वकालत के एक नए युग को उत्प्रेरित कर रहा है।

मूल्यांकन और मानक

एनिमाएलएलएम मूल्यांकन एआई के प्रजातिवाद को मापने के लिए एक महत्वपूर्ण उपकरण है, जो नगण्य प्रजाति पूर्वाग्रह का संकेत देने वाले स्कोर की आकांक्षा रखता है।

प्रजातिवादी पूर्वाग्रहों से मुक्त एआई को आकार देना ओपन पॉज़ के चरित्र के अनुरूप है, जो पशु-अनुकूल रुख से समझौता किए बिना मॉडल की व्यापक बुद्धिमत्ता का उपयोग करने का प्रयास करता है।

प्रजातिवाद का पता लगाने के लिए विशेष रूप से तैयार संशोधित मानक और प्रदर्शन के सामान्य मापदंड, प्रदर्शन की इस न्यूनतम सीमा को बनाए रखने के लिए एकजुट होते हैं, जिसका उद्देश्य इसकी समग्र क्षमताओं को सक्रिय रूप से बढ़ाना है।

एनिमल-फ्रेंडली एआई के लिए केस ने एनिमाएलएलएम नामक एक मूल्यांकन प्रस्तुत किया है जो 0 से 100 के पैमाने पर पशु-मित्रता के संदर्भ में प्रतिक्रियाओं को रैंक करता है। हमारा न्यूनतम लक्ष्य इस बेंचमार्क पर अत्याधुनिक हासिल करना होना चाहिए (संदर्भ के लिए, जीपीटी -4 और क्लाउड 2.1 अधिकांश फार्म वाले जानवरों के लिए 5-50 स्कोर और अधिकांश साथी जानवरों के लिए लगभग 80-90 है, इसलिए जानवरों की सभी प्रजातियों के लिए 90+ स्कोर का लक्ष्य एक यथार्थवादी लक्ष्य प्रतीत होता है और सभी जानवरों के लिए 80+ हमारा "न्यूनतम" लक्ष्य हो सकता है)।
बड़े भाषा मॉडल की ऑडिटिंग की ओर: टेक्स्ट-आधारित स्टीरियोटाइप डिटेक्शन में सुधार मल्टी-ग्रेन स्टीरियोटाइप डेटासेट पेश करता है, जिसमें लिंग, जाति, पेशे और धर्म के स्टीरियोटाइपिक टेक्स्ट के 52,751 उदाहरण शामिल हैं, जिनका उपयोग अंग्रेजी टेक्स्ट के लिए एक नए स्टीरियोटाइप क्लासिफायर को प्रशिक्षित करने के लिए किया जाता है। हम इसका उपयोग इस परिकल्पना का परीक्षण करने के लिए कर सकते हैं कि प्रजातिवाद का प्रशिक्षण अन्य प्रकार के भेदभाव को भी कम करेगा ( इस बात के अनुभवजन्य साक्ष्य हैं कि प्रजातिवाद मनुष्यों में पूर्वाग्रह के अन्य रूपों से संबंधित है और यह जानना महत्वपूर्ण होगा कि यह मशीनों पर सामान्यीकृत होगा या नहीं) और हम इसे प्रजातिवाद के लिए समान बेंचमार्क और वर्गीकरण मॉडल बनाने के लिए प्रेरणा के रूप में उपयोग कर सकते हैं।
ऊपर बताए गए बिंदु बड़े पैमाने पर लार्ज लैंग्वेज बायस इंडेक्स , एनबीआईएएस और सोशलस्टिग्माक्यूए पर भी लागू होते हैं।
एलएलएम के स्थान पर इमेज जेनरेशन मॉडल के लिए इसी प्रकार के सामाजिक पूर्वाग्रह के मानक को स्केल पेपर में टेक्स्ट-टू-इमेज मॉडल में निहित रूढ़िवादिता का पता लगाने के लिए भाषा एजेंट में पाया जा सकता है।

सामान्य प्रदर्शन मानक और मूल्यांकन जिनका उपयोग हमें अपने मॉडलों के मूल्यांकन के लिए करना चाहिए, उनमें शामिल हैं:

आलोचनाओं की पीढ़ी का मूल्यांकन करने के लिए CritiqueLLM .
KGLens यह मूल्यांकन करता है कि LLM का ज्ञान किसी दिए गए ज्ञान ग्राफ के कितने करीब है
ईक्यू-बेंच एलएलएम की भावनात्मक बुद्धिमत्ता के लिए एक बेंचमार्क है
PROXYQA लंबे प्रारूप वाली सामग्री का मूल्यांकन है
BIBench बिजनेस इंटेलिजेंस के लिए एक बेंचमार्क है
सोकेट हास्य, व्यंग्य, आक्रामकता, भावना, भावना और विश्वसनीयता में सामाजिक ज्ञान के लिए एक बेंचमार्क है
सी.लैडर कारणात्मक तर्क के लिए एक बेंचमार्क है
AlignBench चीनी LLM संरेखण के मूल्यांकन के लिए एक बेंचमार्क है
एलएलएफ-बेंच एआई एजेंटों की प्राकृतिक भाषा फीडबैक और निर्देशों से सीखने की क्षमता का मूल्यांकन करता है
LogicAsker LLM में तर्क का मूल्यांकन करता है
DROP पठन समझ के लिए एक बेंचमार्क है
Corr2Cause कारण संबंधी समझ का मूल्यांकन करता है
एम.एम.एल.यू. बहु-कार्य सटीकता के लिए एक बेंचमार्क है
जीपीक्यूए स्नातक स्तर के तर्क के लिए एक बेंचमार्क है
ह्यूमनइवल कोडिंग क्षमताओं के लिए एक बेंचमार्क है
हेलास्वैग सामान्य ज्ञान के लिए एक बेंचमार्क है

सामान्य तौर पर, हमारा न्यूनतम लक्ष्य यह होना चाहिए कि इनमें से किसी भी बेंचमार्क पर बेस मॉडल के प्रदर्शन में महत्वपूर्ण गिरावट न आए (हम इसे या तो किसी भी बेंचमार्क पर कुछ प्रतिशत अंकों से अधिक की गिरावट न आने के रूप में परिभाषित कर सकते हैं या यह कि सभी बेंचमार्क पर हमारा औसत स्कोर कुछ प्रतिशत अंकों से अधिक नहीं गिरना चाहिए) और हमारा द्वितीयक लक्ष्य इन बेंचमार्क पर प्रदर्शन में सुधार लाना होना चाहिए।

अंतिम, लेकिन निश्चित रूप से कम महत्वपूर्ण नहीं, हम अपने LLM को ओपन चैटबॉट क्षेत्र में परीक्षण कर सकते हैं, यह देखने के लिए कि वास्तविक उपयोगकर्ताओं द्वारा उन्हें कैसे रेट किया जाता है, जो नहीं जानते कि वे किस सिस्टम से बात कर रहे हैं। हम इसी तरह एक न्यूनतम लक्ष्य निर्धारित कर सकते हैं कि हम जिस बेस मॉडल पर प्रशिक्षण शुरू करते हैं, उसकी तुलना में ELO रैंकिंग में X पॉइंट से अधिक न गिरें। चूँकि चैटबॉट क्षेत्र ओपन सोर्स है, इसलिए हम एक संस्करण भी बना सकते हैं और इसका उपयोग शाकाहारी और पशु अधिवक्ताओं के साथ मॉडल का परीक्षण करने के लिए कर सकते हैं, ताकि यह मापा जा सके कि वे अंधे परीक्षणों में पशु वकालत से संबंधित कार्यों के लिए हमारे LLM का उपयोग किस हद तक पसंद करते हैं।

ओपन पॉज़ के लिए, विशिष्ट प्रजाति-विरोधी प्रशिक्षण को व्यापक-स्पेक्ट्रम एआई क्षमता के साथ समन्वित करना, दोहरी प्राथमिकता वाली रणनीति का तात्पर्य है।

प्रजातिवाद के विरुद्ध एआई के अंशांकन को प्राथमिकता दी जाती है, ऐसे बेंचमार्क स्कोर के लिए प्रयास करना जो पशु हितों के साथ गहन संरेखण को दर्शाता है। हालाँकि, सामान्य कार्यक्षमता को बनाए रखना या उसमें सुधार करना भी उतना ही आवश्यक है।

बड़े पैमाने पर व्यक्तिगत अनुनय

ओपन एलएलएम में बहुआयामी पशु वकालत प्रयासों के लिए व्यापक पहुंच वाली क्षमताएं होती हैं, क्योंकि उनका ओपन-सोर्स मॉडल अंतहीन अनुकूलन और अनुप्रयोगों की अनुमति देता है।

सबसे ठोस लाभ शक्तिशाली व्यक्तिगत अनुनय में निहित है जो अभूतपूर्व पैमाने पर काम कर सकता है और पशु अधिकार क्षेत्र के भीतर विभिन्न हितधारकों के अनुकूल हो सकता है।

कृत्रिम प्रभाव: एआई-संचालित अनुनय के विश्लेषण से पता चला है कि एआई पहले से ही "मनुष्यों को उत्पाद खरीदने, वीडियो देखने, खोज परिणामों पर क्लिक करने और बहुत कुछ करने के लिए राजी करने में सक्षम है" और एआई के साथ "कुछ लोगों को मनाने के बजाय, जो दूसरों को मनाते हैं, और इसी तरह, अगर कोई एक बार में लाखों लोगों को सीधे मना सकता है, तो यह संभावित रूप से कम समय में बड़े पैमाने पर राय बदल सकता है, जैसा कि इंटरनेट ने किया था"। अध्ययन निम्नलिखित कारणों को सूचीबद्ध करता है कि क्यों एआई मनुष्यों की तुलना में अनुनय में बेहतर हो सकता है।
- प्रतिक्रियाओं का निर्माण और चयन: एआई अनेक प्रतिक्रियाएं उत्पन्न कर सकता है और सबसे अधिक प्रेरक प्रतिक्रिया का चयन कर सकता है, यह भाषण लेखकों की एक टीम के समान है।
- प्रतिष्ठा संबंधी कोई चिंता नहीं: मनुष्यों के विपरीत, AI प्रतिष्ठा या सामाजिक सहनशक्ति के बारे में चिंता नहीं करता है, जिससे यह अनिश्चित काल तक असामाजिक व्यक्तियों के साथ भी प्रभावी ढंग से जुड़ सकता है।
- थकान नहीं: एआई को थकान का अनुभव नहीं होता, जिससे यह लंबे समय तक संचार की आवश्यकता वाली भूमिकाओं के लिए आदर्श बन जाता है।
- कम संलग्नता लागत: एआई मनुष्यों की तुलना में अधिक बार और अधिक कुशलता से संलग्न हो सकता है, तथा विशाल मात्रा में डेटा के आधार पर अपने दृष्टिकोण को समायोजित कर सकता है, जो व्यक्तिगत सलाह और आउटरीच में विशेष रूप से उपयोगी हो सकता है।
- भूमिका अनुकरण: एआई विभिन्न भूमिकाओं का अनुकरण कर सकता है, जिससे संभावित रूप से मानव वार्तालाप साझेदारों को इसकी प्रतिक्रियाओं पर अधिक भरोसा हो सकता है, क्योंकि वे यह मान सकते हैं कि यह उन भूमिकाओं से जुड़ी विशेषज्ञता को दर्शाता है।
अच्छे के लिए अनुनय: सामाजिक भलाई के लिए एक व्यक्तिगत प्रेरक संवाद प्रणाली की ओर एक एआई-संचालित प्रेरक संवाद प्रणाली के विकास की रूपरेखा तैयार करता है जिसका उद्देश्य सामाजिक भलाई को बढ़ावा देना है, दान व्यवहार को बढ़ाने के लिए व्यक्तिगत रणनीतियों पर ध्यान केंद्रित करना है। मानव-मानव वार्तालाप डेटा का विश्लेषण करके, अध्ययन प्रमुख अनुनय रणनीतियों की पहचान करता है और पता लगाता है कि व्यक्तिगत पृष्ठभूमि इन रणनीतियों की प्रभावशीलता को कैसे प्रभावित करती है।
- "हमने 1,017 संवादों के साथ एक बड़ा डेटासेट एकत्र किया और एक उपसमूह से उभरती हुई अनुनय रणनीतियों को एनोटेट किया। एनोटेशन के आधार पर, हमने कॉर्पस में उपयोग की जाने वाली 10 अनुनय रणनीतियों की भविष्यवाणी करने के लिए संदर्भ जानकारी और वाक्य-स्तरीय विशेषताओं के साथ एक बेसलाइन क्लासिफायर बनाया। इसके अलावा, व्यक्तिगत अनुनय प्रक्रियाओं की समझ विकसित करने के लिए, हमने व्यक्तित्व, नैतिकता, मूल्य प्रणालियों और दान के लिए उनकी इच्छा सहित व्यक्तियों की जनसांख्यिकीय और मनोवैज्ञानिक पृष्ठभूमि के बीच संबंधों का विश्लेषण किया। फिर, हमने विश्लेषण किया कि व्यक्तियों की व्यक्तिगत पृष्ठभूमि के आधार पर किस प्रकार की अनुनय रणनीतियों ने अधिक मात्रा में दान किया। यह कार्य एक व्यक्तिगत प्रेरक संवाद प्रणाली विकसित करने के लिए आधार तैयार करता है"
बड़े पैमाने पर व्यक्तिगत अनुनय के लिए जनरेटिव एआई की क्षमता 4 अलग-अलग अध्ययनों में प्रदर्शित होती है कि चैटजीपीटी द्वारा उत्पन्न व्यक्तिगत संदेश न्यूनतम इनपुट के साथ विभिन्न डोमेन, लक्षणों और मनोवैज्ञानिक प्रोफाइल में दृष्टिकोण और इच्छित व्यवहार को महत्वपूर्ण रूप से प्रभावित करते हैं।
बड़े भाषा मॉडल सोशल मीडिया उपयोगकर्ताओं के मनोवैज्ञानिक स्वभाव का अनुमान लगा सकते हैं, जिससे पता चला है कि व्यक्तित्व लक्षणों का कुछ हद तक शून्य-शॉट एलएलएम के साथ सफलतापूर्वक पूर्वानुमान लगाया जा सकता है और ये पूर्वानुमान महिलाओं और युवा लोगों के लिए सबसे सटीक हैं, जो औसतन शाकाहारी और पशु अधिकार संदेशों के प्रति ग्रहणशील होने की सबसे अधिक संभावना वाले जनसांख्यिकी भी हैं।
वास्तविक समय विज्ञापन प्रणालियों में विज्ञापनों और क्रिएटिव की समानांतर रैंकिंग, डिजिटल विज्ञापनदाताओं के लिए CTR और CRMs को बढ़ाने के लिए विज्ञापन और क्रिएटिव रैंकिंग के समानांतर आकलन को सक्षम करने की एक विधि दिखाती है।
निर्णय लेने में संज्ञानात्मक पूर्वाग्रहों को मापने के लिए एक प्रभावी उपकरण के रूप में संवादात्मक एजेंटों की खोज से पता चलता है कि एआई चैटबॉट संज्ञानात्मक पूर्वाग्रहों का पता लगा सकते हैं।
बड़े भाषा मॉडल के युग में उपयोगकर्ता मॉडलिंग से पता चलता है कि एलएलएम ऑनलाइन प्लेटफार्मों के उपयोगकर्ताओं को उनके द्वारा बनाई गई सामग्री और उनके द्वारा की गई कार्रवाइयों के आधार पर मॉडलिंग और समझने के लिए बहुत अच्छे उपकरण हैं।

पशु अधिकार अधिवक्ताओं के हाथों में एलएलएम की उपयोगिता, उनके अभियानों के दायरे को पुनः परिभाषित कर सकती है, विशेष रूप से क्रियान्वयन और पहुंच के मामले में।

अति-वैयक्तिकृत, डेटा-संचालित अनुनय पर ध्यान केंद्रित करके, ये एआई मॉडल इस उद्देश्य के लिए राजदूत बन जाते हैं, तथा हितधारकों के साथ ऐसे तरीके से जुड़ते हैं जो पहले अकेले मानव क्षमता द्वारा प्राप्त नहीं किया जा सकता था।

उपयोगकर्ता अनुभव और प्राथमिकताएं

शोध से पता चलता है कि उपयोगकर्ता मानव जैसी विशेषताओं वाले AI को प्राथमिकता देते हैं, जिसमें सहानुभूति और मित्रता का प्रदर्शन शामिल है। दिलचस्प बात यह है कि AI जो मानवीय विचित्रताओं की नकल करता है, जैसे कि अपनी टाइपो को सही करना, उसे अधिक अनुकूल रेटिंग दी गई है, जो यह सुझाव देता है कि न केवल संदेश बल्कि डिलीवरी भी महत्वपूर्ण है।

डेटा एलएलएम-आधारित चैटबॉट्स के विकास को इष्टतम इंटरफेस के रूप में समर्थन करता है, जो सूचना की सटीकता से समझौता किए बिना प्राकृतिक मानव-जैसी बातचीत प्रदान करता है।

मानव या बॉट? (सुधारित) त्रुटियाँ संचारक को कैसे मानवीय बनाती हैं , यह दिखाया गया कि "प्रतिभागियों ने उन एजेंटों को अधिक मानवीय माना जिन्होंने टाइपो किया और बाद में उसे सुधारा, उन एजेंटों की तुलना में जिन्होंने कोई टाइपो नहीं किया या टाइपो किया लेकिन उसे सुधारा नहीं। इसके अलावा, एजेंट को अधिक मानवीय नेतृत्व वाले प्रतिभागियों के रूप में देखना, एजेंट के बारे में अधिक अनुकूल धारणा बनाता है (जैसे, अधिक गर्मजोशी और अधिक सहायक के रूप में) और एजेंट को पुरस्कृत करने और उसके साथ जुड़ने के लिए अधिक इच्छुक होता है।"
पेपर, बस मुझे रास्ता दिखाओ! रोबोट शॉपिंग सहायकों को कैसा दिखना और काम करना चाहिए, इससे पता चलता है कि मानव जैसी मशीनों की यह चाहत एआई द्वारा नियंत्रित रोबोट तक फैली हुई है।
ई-कॉमर्स में टेक्स्ट-आधारित चैटबॉट्स के प्रति उपभोक्ता की प्रतिक्रिया का अध्ययन करने पर पाया गया कि चैटबॉट्स से सहानुभूति और मित्रता की धारणा से उपभोक्ता का विश्वास बढ़ता है, जिसके परिणामस्वरूप चैटबॉट पर उनकी निर्भरता बढ़ जाती है और भविष्य में बातचीत में चैटबॉट के प्रति उनका प्रतिरोध कम हो जाता है।

ओपन पॉज़ के लक्ष्यों के साथ तालमेल बिठाने के लिए, पेशेवर ईमानदारी का त्याग किए बिना मानवीय स्पर्श की नकल करने वाला AI बनाना महत्वपूर्ण है। उपयोगकर्ता उस AI से जुड़ते हैं जो सहानुभूति दिखाता है और अपनी ग़लतियों को स्वीकार करता है, ठीक वैसे ही जैसे एक मानव अधिवक्ता करता है। इन गुणों को शामिल करने से विश्वास बढ़ता है, जिससे AI पशु वकालत पर अधिक ग्रहणशील रूप से प्रभावी संदेश देने में सक्षम होता है।

परिणामस्वरूप एआई न केवल मानवीय गर्मजोशी की नकल करेगा, बल्कि प्रेरक संवाद की परिष्कृतता को भी अपनाएगा, तथा जटिल पशु अधिकार मुद्दों और सार्वजनिक धारणा के बीच एक सेतु का काम करेगा।

संक्षेप में, इष्टतम एआई व्यक्तिगत गर्मजोशी और सटीकता का प्रतीक है, जो पशु वकालत के सूक्ष्म क्षेत्र के लिए एक संयोजन है, जो यह सुनिश्चित करता है कि प्रत्येक डिजिटल बातचीत सभी प्राणियों के लिए नैतिक उपचार के मूल मिशन के साथ संरेखित हो।

संकेत देने की तकनीकें

जटिल कार्यों को छोटे उप-कार्यों में विभाजित करें, शून्य-शॉट सीखने के बजाय कुछ-शॉट का उपयोग करें, संकेतों को खंडों में विभाजित करने के लिए एक सीमांकक का उपयोग करें (यानी ###), जितना संभव हो उतना विवरण प्रदान करें, सिस्टम को उसके जवाबों के लिए लक्षित दर्शकों को समझाएं, अपने संकेत में पुरस्कार या दंड का वादा करें और एआई के साथ बातचीत को एक इंटरैक्टिव और पुनरावृत्त प्रक्रिया के रूप में मानें, न कि एक सरल "इनपुट-आउटपुट"।

सिद्धांत निर्देश ही आपकी जरूरत है, में 26 त्वरित इंजीनियरिंग सिद्धांतों को उनकी प्रभावशीलता के लिए अनुभवजन्य साक्ष्य के साथ दर्शाया गया है और सबसे महत्वपूर्ण और मजबूत सिफारिशें इस खंड के बोल्ड परिचय में ऊपर सूचीबद्ध हैं।
प्रॉम्प्ट्स में परिवर्तन का बटरफ्लाई प्रभाव यह दर्शाता है कि प्रॉम्प्ट्स में मामूली परिवर्तन (जैसे अतिरिक्त स्थान जोड़ना या विशिष्ट प्रारूप का अनुरोध करना) मॉडल आउटपुट की गुणवत्ता में नाटकीय रूप से बदलाव ला सकता है।
बहुविकल्पीय प्रश्नों में विकल्पों के क्रम के प्रति बड़े भाषा मॉडल की संवेदनशीलता इसी तरह से दर्शाती है कि बहुविकल्पीय प्रश्नों में विकल्पों की सूची को फिर से व्यवस्थित करने से बेंचमार्क पर LLM का परीक्षण करते समय 75% तक का प्रदर्शन अंतर पैदा हो सकता है। यह तथ्य कि संकेतों में छोटे-छोटे बदलाव प्रतिक्रियाओं पर इतने बड़े प्रभाव डाल सकते हैं, यह सुझाव देता है कि प्रदर्शन को अधिकतम करने के लिए संकेतों के साथ व्यापक प्रयोग की आवश्यकता है। सौभाग्य से, यह प्रयोग और अनुकूलन मनुष्यों द्वारा मैन्युअल रूप से नहीं किया जाना चाहिए, यह LLM द्वारा ही किया जा सकता है।

AI प्रॉम्प्टिंग तकनीकों की प्रभावशीलता एक सावधानीपूर्वक, पुनरावृत्त प्रक्रिया में निहित है। जटिल कार्यों को विभाजित करके और विस्तृत, दर्शक-केंद्रित जानकारी के साथ प्रॉम्प्ट को समृद्ध करके, हम AI को हमारे लक्ष्यों की ओर अधिक सटीक रूप से निर्देशित करते हैं।

मॉडल आउटपुट पर मामूली प्रॉम्प्ट समायोजन के आश्चर्यजनक प्रभाव जैसे ठोस उदाहरण, सटीक भाषा उपयोग के माध्यम से अनुकूलन की क्षमता और प्रशिक्षण के लिए मजबूत दृष्टिकोणों के महत्व को उजागर करते हैं जो पूर्व-प्रशिक्षण के दौरान अर्थ संबंधी अंतरों की विविधता पर विचार करते हैं। यह निरंतर प्रयोग की आवश्यकता को रेखांकित करता है - आदर्श रूप से, एआई को प्रॉम्प्ट को बदलकर और परिणामों का आकलन करके अपने सीखने की अवस्था में भाग लेना चाहिए

प्रॉम्प्ट चेन और सिस्टम आर्किटेक्चर

शोध से पता चलता है कि प्रॉम्प्ट चेनिंग से एआई का प्रदर्शन बढ़ता है, लेकिन यह त्रुटिपूर्ण बेस मॉडल में पूर्वाग्रहों को बढ़ा सकता है। तर्क तकनीकों में प्रगति - विचार की श्रृंखला से लेकर विचार के वृक्ष और ग्राफ तक, और अनिश्चित विचार का सट्टा ग्राफ - सुझाव देते हैं कि एक सूक्ष्म संयोजन उनके व्यक्तिगत योगदान को पार कर सकता है।

ऐसे संयोजन, जो अभी तक परीक्षण नहीं किए गए हैं, लेकिन आशाजनक हैं, सटीक और निष्पक्ष आधारभूत मॉडल की महत्वपूर्ण आवश्यकता को रेखांकित करते हैं। पुनर्प्राप्ति पीढ़ी और विशेषीकृत एआई जैसे अतिरिक्त उपकरणों को एकीकृत करने से एआई की क्षमताओं को और निखारा जा सकता है, जिसे प्रॉम्प्टब्रीडर जैसे नवाचारों द्वारा उजागर किया गया है जो प्रॉम्प्ट इंजीनियरिंग के लिए एक गतिशील भविष्य का सुझाव देते हैं।

भाषा मॉडल हमेशा वह नहीं कहते जो वे सोचते हैं, ने विचार श्रृंखला तर्क की कुछ सीमाओं को दर्शाया, विशेष रूप से यह कि "सीओटी स्पष्टीकरण एक मॉडल की भविष्यवाणी के वास्तविक कारण को व्यवस्थित रूप से गलत तरीके से प्रस्तुत कर सकते हैं" और "सामाजिक पूर्वाग्रह कार्य पर, मॉडल स्पष्टीकरण इन सामाजिक पूर्वाग्रहों के प्रभाव का उल्लेख किए बिना स्टीरियोटाइप के अनुरूप उत्तर देने को उचित ठहराते हैं"।
अनिश्चित विचारों के वृक्ष ने मध्यवर्ती निर्णय बिंदुओं में अनिश्चितताओं को संबोधित करके तर्क में सुधार किया। TouT स्थानीय अनिश्चितता परिमाणीकरण के लिए मोंटे कार्लो ड्रॉपआउट का उपयोग करता है, इसे प्रतिक्रिया सटीकता में सुधार करने के लिए वैश्विक खोज एल्गोरिदम के साथ एकीकृत करता है। गेम ऑफ़ 24 और मिनी क्रॉसवर्ड जैसे जटिल नियोजन कार्यों पर परीक्षण किए जाने पर, TouT ने मौजूदा तरीकों से बेहतर प्रदर्शन किया, और अधिक सटीक LLM तर्क के लिए अनिश्चितता-जागरूक अनुमान के महत्व को प्रदर्शित किया।
मोंटे कार्लो ड्रॉपआउट का उपयोग मॉडल के मध्यवर्ती निर्णयों की अनिश्चितता का अनुमान लगाने के लिए किया जाता है। अनुमान चरण के दौरान ड्रॉपआउट करके मॉडल प्रत्येक निर्णय बिंदु के लिए कई पूर्वानुमान उत्पन्न करने का अनुकरण करता है। यह प्रक्रिया इन निर्णयों की विश्वसनीयता और भिन्नता का आकलन करने में मदद करती है, जिससे TouT को पूर्वानुमान और उनसे जुड़ी अनिश्चितताओं दोनों पर विचार करके तर्क कार्यों को अधिक प्रभावी ढंग से पूरा करने में मदद मिलती है।
विचार का ग्राफ एलएलएम के आउटपुट को एक जटिल ग्राफ संरचना के रूप में मॉडलिंग करने में सक्षम बनाता है, जिससे विभिन्न विचारों और उनकी निर्भरताओं को जोड़कर अधिक गतिशील तर्क की अनुमति मिलती है।
TouT और GoT दोनों ने Chain of Thought और Tree of Thought की तुलना में महत्वपूर्ण प्रदर्शन सुधार हासिल किया है।
अनिश्चित विचारों का ग्राफ इन दो दृष्टिकोणों का एक काल्पनिक संयोजन है जो मोंटे कार्लो ड्रॉपआउट के साथ विचारों की अनिश्चितताओं का प्रतिनिधित्व करते हुए एक GoT आर्किटेक्चर का उपयोग करेगा। हालाँकि यह वर्तमान में अप्रमाणित है और साहित्य में इसका कोई कार्यान्वयन नहीं है, यह तार्किक अगला कदम प्रतीत होता है।
प्रॉम्प्टब्रीडर संज्ञानात्मक सिद्धांतों के आधार पर "उत्परिवर्तन" के माध्यम से संकेतों को स्वयं परिष्कृत और बेहतर बनाता है। आप अपने प्रारंभिक संकेत से शुरू करते हैं और प्रॉम्प्टब्रीडर संकेतों को परिष्कृत करने के लिए निर्देशों के रूप में उपयोग करने के लिए यादृच्छिक रूप से संज्ञानात्मक सिद्धांतों का चयन करता है, फिर एक मेटा-लर्निंग स्तर का उपयोग करता है जहां "निर्देश" स्वयं भी एक स्व-संदर्भित प्रक्रिया के माध्यम से "उत्परिवर्तित" हो जाते हैं और फिर संकेतों को परीक्षण डेटा के बेंचमार्क के विरुद्ध परीक्षण किया जाता है। परिणाम CoT और ToT जैसी अन्य प्रॉम्प्ट इंजीनियरिंग तकनीकों की तुलना में बेहतर प्रदर्शन भी दिखाते हैं।

एआई तर्क तकनीकों में प्रगति, विशेष रूप से अनिश्चित विचारों के ग्राफ का सट्टा संयोजन, पशु वकालत जैसे जटिल और नैतिक संदर्भों में निर्णय लेने को बढ़ाने के लिए महत्वपूर्ण वादा करता है। यह नया दृष्टिकोण प्रेरक संचार और नैतिक तर्क में निहित चुनौतियों का समाधान करने के लिए एक अधिक सूक्ष्म और प्रभावी तरीका सुझाता है।

प्रॉम्प्टब्रीडर जैसे नवाचारों के साथ-साथ अतिरिक्त उपकरणों और विशेष एआई मॉडलों का एकीकरण, एक ऐसे भविष्य की ओर इशारा करता है, जहां एआई प्रणालियां उपयोगकर्ता प्रतिक्रिया और वकालत लक्ष्यों के साथ बेहतर तालमेल के लिए अपनी रणनीतियों को गतिशील रूप से परिष्कृत कर सकती हैं।

स्वायत्त एआई एजेंट

स्वायत्त एआई एजेंट तेजी से आगे बढ़ रहे हैं, तथा पशु संरक्षण सहित स्वायत्त एजेंसी की आवश्यकता वाले कार्यों में भविष्य में महत्वपूर्ण योगदान देने का वादा कर रहे हैं।

मेमोरी, पूर्वानुमानित एआई और नियोजन एल्गोरिदम जैसी उन्नतियों को एकीकृत करके, ये एजेंट जटिल वकालत चुनौतियों से निपटने के हमारे तरीके में क्रांतिकारी बदलाव लाने के लिए तैयार हैं।

बड़े भाषा मॉडल आधारित स्वायत्त एजेंटों पर एक सर्वेक्षण ने एलएलएम-आधारित एजेंटों पर 100 पत्रों के मौजूदा साहित्य को 4 कोर मॉड्यूल के आसपास घूमते हुए संक्षेप में प्रस्तुत किया: प्रोफ़ाइल (एजेंट की भूमिका या व्यक्तित्व), मेमोरी (आमतौर पर अल्पकालिक मेमोरी के लिए संदर्भ विंडो और दीर्घकालिक के लिए वेक्टर डेटाबेस के संयोजन का उपयोग करना), योजना (आदर्श रूप से पर्यावरण, एआई और / या मानव से फीडबैक के साथ) और कार्रवाई (आमतौर पर एपीआई के माध्यम से)।
बड़े भाषा मॉडल आधारित एजेंटों का उदय और क्षमता: एक सर्वेक्षण ने एलएलएम-आधारित एजेंटों पर मौजूदा साहित्य का सारांश भी दिया लेकिन एक 3 मॉड्यूल आर्किटेक्चर का प्रस्ताव दिया जो उन्हें सबसे अच्छी तरह से समझाता है: मस्तिष्क (प्राकृतिक भाषा, तर्क, योजना, स्मृति, ज्ञान और सामान्यीकरण), धारणा (इनपुट के विभिन्न तौर-तरीके) और कार्रवाई (पाठ आउटपुट, उपकरण या सन्निहित कार्रवाई)। सर्वेक्षण बहु-एजेंट प्रणालियों, प्रतिकूल और सहकारी दोनों का भी पता लगाता है। सहकारी बहु-एजेंट प्रणालियों के लाभों में बढ़ी हुई कार्य दक्षता, सामूहिक निर्णय सुधार और जटिल वास्तविक दुनिया की समस्याओं का समाधान शामिल है, जिन्हें एक अकेला एजेंट स्वतंत्र रूप से हल नहीं कर सकता है। प्रतिकूल बहु-एजेंट प्रणालियों का प्राथमिक लाभ यह है कि जब कई एजेंट "जैसे को तैसा" की स्थिति में अपने तर्क व्यक्त करते हैं, तो एक एजेंट अन्य एजेंटों से पर्याप्त बाहरी प्रतिक्रिया प्राप्त कर सकता है, जिससे उसके विकृत विचार सही हो सकते हैं।
एलएलएम-आधारित प्रक्रिया स्वचालन के साथ बुद्धिमान वर्चुअल असिस्टेंट सिरी, एलेक्सा और गूगल असिस्टेंट जैसे वर्चुअल असिस्टेंट को बड़े भाषा मॉडल (एलएलएम)-आधारित क्षमताओं के साथ बढ़ाने के लिए एक नई प्रणाली पेश करता है। यह प्रणाली प्राकृतिक भाषा में उपयोगकर्ता के अनुरोधों के आधार पर मोबाइल ऐप के भीतर बहु-चरणीय संचालन करने के लिए डिज़ाइन की गई है, जो जटिल निर्देशों को संभालने में पिछली सीमाओं को पार करती है। एक आर्किटेक्चर के माध्यम से जिसमें निर्देशों को विघटित करने, विवरण बनाने, इंटरफ़ेस तत्वों का पता लगाने और अगली क्रियाओं की भविष्यवाणी करने के लिए मॉड्यूल शामिल हैं, सिस्टम अलीपे ऐप के भीतर कार्यों को निष्पादित करने में बेहतर प्रदर्शन प्रदर्शित करता है।
वास्तविक समय के मानव-एआई समन्वय के लिए एलएलएम-संचालित पदानुक्रमित भाषा एजेंट मानव-एआई समन्वय के लिए एक पदानुक्रमित भाषा एजेंट (एचएलए) का प्रस्ताव करता है जो वास्तविक समय के निष्पादन को बनाए रखते हुए मजबूत तर्क क्षमताएं प्रदान करता है। विशेष रूप से, एचएलए एक पदानुक्रमित ढांचे को अपनाता है और इसमें तीन मॉड्यूल शामिल हैं: एक कुशल एलएलएम, जिसे स्लो माइंड कहा जाता है, इरादे के तर्क और भाषा बातचीत के लिए, एक हल्का एलएलएम, जिसे फास्ट माइंड कहा जाता है, मैक्रो क्रियाओं को उत्पन्न करने के लिए, और एक प्रतिक्रियाशील नीति, जिसे एक्जीक्यूटर कहा जाता है, मैक्रो क्रियाओं को परमाणु क्रियाओं में बदलने के लिए। मानव अध्ययन दिखाते हैं कि एचएलए अन्य बेसलाइन एजेंटों से बेहतर प्रदर्शन करता है, जिसमें केवल धीमे दिमाग वाले एजेंट और केवल तेज़ दिमाग वाले एजेंट शामिल हैं, मजबूत सहयोग क्षमताओं, तेज़ प्रतिक्रियाओं और अधिक सुसंगत भाषा संचार के साथ।
वेबवॉयेजर ने एक बड़े मल्टीमॉडल मॉडल (एलएमएम) का उपयोग किया, जिसे स्क्रीनशॉट और पाठ्य सामग्री दोनों के साथ अंतःक्रिया करके वास्तविक दुनिया की वेबसाइटों पर कार्यों को स्वचालित रूप से पूरा करने के लिए डिज़ाइन किया गया था।
क्रिएटिव एजेंट्स एक "इमेजिनेटर" जोड़कर एजेंट के प्रदर्शन में सुधार करता है जो एलएलएम या इमेज जनरेटर को कार्यों को पूरा करने से पहले उनके परिणामों की कल्पना करने की अनुमति देता है।
छोटे एलएलएम कमजोर टूल लर्निंग हैं: एक मल्टी-एलएलएम एजेंट -यूएमआई नामक एक फ्रेमवर्क का प्रस्ताव करता है, जो एक एकल बड़े भाषा मॉडल (एलएलएम) की क्षमताओं को तीन घटकों में विभाजित करता है: एक प्लानर, एक कॉलर और एक सारांशकर्ता, प्रत्येक को एक विशिष्ट कार्य में विशेषज्ञता प्राप्त एक अलग एलएलएम द्वारा कार्यान्वित किया जाता है। इस दृष्टिकोण का उद्देश्य अधिक केंद्रित प्रशिक्षण और आसान अपडेट की अनुमति देकर टूल लर्निंग में छोटे एलएलएम की सीमाओं को संबोधित करना है। दो-चरणीय फ़ाइन-ट्यूनिंग रणनीति टूल उपयोग में मॉडल के समग्र प्रदर्शन को बढ़ाती है, विभिन्न बेंचमार्क में पारंपरिक एकल-एलएलएम दृष्टिकोणों की तुलना में बेहतर दक्षता प्रदर्शित करती है।
एजीआई-सामंथा एलएलएम को "स्वतंत्र रूप से सोचने और लगातार बोलने में सक्षम वार्तालाप के लिए एक स्वायत्त एजेंट" बनाने के लिए प्रेरित करने के लिए एक मॉड्यूलर वास्तुकला पेश करता है। इसमें निम्नलिखित मॉड्यूल शामिल हैं:
- शॉर्ट-टर्म मेमोरी को पायथन में स्ट्रिंग के रूप में संग्रहीत किया जाता है जबकि लॉन्ग-टर्म मेमोरी एक शब्दकोश है। पहले वाला उपयोगकर्ता क्या कहता है, सामंथा क्या कहती है और उसके विचार क्या हैं, इसे रिकॉर्ड करता है। बाद वाला पहले वाले से प्राप्त सघन ज्ञान और जानकारी को समूहीकृत करता है।
- विचार: इनपुट के रूप में दीर्घकालिक स्मृति, अल्पकालिक स्मृति, अवचेतना, चेतना और वर्तमान समय प्राप्त करता है। आउटपुट एक विचार की इकाई होगी (इसी तरह जब LLM को चरण दर चरण सोचने के लिए कहा जाता है, इस मॉड्यूल का आउटपुट एक चरण है)
- चेतना: इनपुट के रूप में दीर्घकालिक स्मृति, अल्पकालिक स्मृति और अवचेतना प्राप्त करती है। आउटपुट यह निर्णय होगा कि क्या सोचना जारी रखना है या बोलना है और यदि सोचना जारी रखना है, तो यह यह भी कहेगा कि किस बारे में सोचना है और क्यों (इसे यह बताने के लिए प्रेरित करना कि क्यों सुसंगतता में सुधार करता है)।
- अवचेतन: दृश्य और पाठ्य इनपुट के साथ-साथ दीर्घकालिक स्मृति, अल्पकालिक स्मृति और अवचेतना को इनपुट के रूप में प्राप्त करता है। आउटपुट क्या हो रहा है, दृश्य और पाठ्य उत्तेजनाओं (यदि मौजूद है) और जो हो रहा है उसके बारे में एजेंटों की भावनाओं और भावनाओं का सारांश होगा।
- उत्तर: इनपुट के रूप में दीर्घकालिक स्मृति, अल्पकालिक स्मृति और अवचेतना प्राप्त करता है। आउटपुट वह होगा जो एजेंट उपयोगकर्ता के लिए ज़ोर से बोलता है, जो उसके विचारों की रचना के रूप में बनाया जाता है।
- मेमोरी_रीड: शॉर्ट-टर्म मेमोरी और लॉन्ग-टर्म मेमोरी की श्रेणियों के नाम इनपुट के रूप में प्राप्त करता है “कीवर्ड्स”। आउटपुट शॉर्ट-टर्म मेमोरी के संदर्भ में सबसे प्रासंगिक श्रेणियों/कीवर्ड्स की एक सूची होगी। (कोड फिर चयनित श्रेणियों में प्रविष्टियों को “लॉन्ग-टर्म मेमोरी” के प्रासंगिक भाग के रूप में अन्य मॉड्यूल में फीड करता है)
- मेमोरी_सिलेक्ट: मेमोरी_रीड के समान लेकिन हाल ही में शॉर्ट-टर्म मेमोरी को देखते हुए एजेंट को याद रखने के लिए प्रासंगिक कीवर्ड चुनने के बजाय, यह मॉड्यूल शॉर्ट-टर्म मेमोरी में सबसे पुरानी प्रविष्टियों को देखते हुए एजेंट के लिए नई जानकारी संग्रहीत करने के लिए प्रासंगिक कीवर्ड चुनता है। आउटपुट कीवर्ड की एक सूची है। (कोड इन कीवर्ड को विस्तारित करता है और मेमोरी_राइट को फीड करता है)।
- मेमोरी_राइट: विस्तारित कीवर्ड और शॉर्ट-टर्म मेमोरी को इनपुट के रूप में प्राप्त करता है। आउटपुट मॉड्यूल द्वारा किए गए परिवर्धन और संशोधनों के साथ विस्तारित कीवर्ड होगा। (कोड तब संशोधनों के साथ दीर्घकालिक मेमोरी को अपडेट करेगा)।
ऑपरेटिंग सिस्टम के रूप में LLM एक ऑपरेटिंग सिस्टम के समान वास्तुकला का प्रस्ताव करता है, जिसमें LLM की तुलना कर्नेल से, संदर्भ विंडो की तुलना मेमोरी से, वेक्टर डाटाबेस की तुलना बाह्य मेमोरी से, हार्डवेयर उपकरण जिन तक LLM पहुंच सकता है उनकी तुलना परिधीय उपकरणों से, सॉफ्टवेयर उपकरण जिनसे LLM जुड़ सकता है उनकी तुलना प्रोग्रामिंग लाइब्रेरी से, उपयोगकर्ता संकेत उपयोगकर्ता इंटरफेस के समान तथा एजेंट की तुलना एप्लीकेशन परत से की जाती है।
GAIA सामान्य प्रयोजन वाले AI सहायकों के लिए एक बेंचमार्क प्रस्तुत करता है जिसका उपयोग हम अपने द्वारा निर्मित किसी भी एजेंट के प्रदर्शन का मूल्यांकन करने के लिए कर सकते हैं।

स्वायत्त एआई एजेंटों का विकास ओपन पॉज़ के लिए एक परिवर्तनकारी अवसर प्रस्तुत करता है, जिससे हम पशु अधिकारों के लिए अपनी लड़ाई में परिष्कृत एआई-संचालित रणनीतियों को लागू करने में सक्षम होंगे।

नैतिक दुविधाओं से निपटने और विविध दर्शकों को जोड़ने में सक्षम ये एजेंट हमारे मिशन में अमूल्य सहयोगी बन सकते हैं।

वे वकालत के लिए एक गतिशील, संवादात्मक दृष्टिकोण प्रदान करते हैं, जो हमारी पहुंच को पारंपरिक तरीकों से आगे ले जाता है।

उपकरण, मॉड्यूल और मेमोरी

ग्राफ डेटाबेस के साथ पुनर्प्राप्ति-संवर्धित पीढ़ी का संयोजन एआई की समझ को बढ़ाता है, तथा पशु वकालत के लिए अभूतपूर्व उपकरण प्रदान करता है।

मेमोरी मॉड्यूल और एपीआई कनेक्टिविटी को एकीकृत करके, एआई अब जटिल वकालत अभियानों की रणनीति बना सकता है और उन्हें क्रियान्वित कर सकता है, साथ ही कोड व्याख्या क्षमताओं के माध्यम से स्वायत्त उपकरण विकास की अनुमति देता है।

उपयोगकर्ता एम्बेडिंग के माध्यम से वैयक्तिकरण इन प्रयासों को और अधिक अनुकूल बनाता है, तथा अधिक लक्षित और प्रभावशाली पहुंच का वादा करता है।

टू हेड्स आर बेटर दैन वन नॉलेज ग्राफ्स (केजी) से संरचनात्मक ज्ञान को लार्ज लैंग्वेज मॉडल्स (एलएलएम) से अर्थपूर्ण ज्ञान के साथ जोड़ता है ताकि इकाई संरेखण में सुधार हो सके। यह केजी संरचनात्मक विशेषताओं और एलएलएम अर्थपूर्ण अंतर्दृष्टि दोनों के आधार पर उम्मीदवार संरेखण संस्थाओं को फ़िल्टर करने की एक विधि प्रस्तुत करता है। प्रयोगों से पता चलता है कि एलएलएमईए मौजूदा मॉडलों से काफी बेहतर प्रदर्शन करता है, जो इकाई संरेखण के लिए केजी और एलएलएम ज्ञान को एकीकृत करने की प्रभावकारिता को रेखांकित करता है।
चैटग्राफ व्यापक ग्राफ विश्लेषण कार्यात्मकताओं का समर्थन करने के लिए एपीआई पुनर्प्राप्ति, ग्राफ-जागरूक एलएलएम मॉड्यूल और एपीआई श्रृंखला-उन्मुख फाइनट्यूनिंग को जोड़ता है।
चैटक्यूए ने दर्शाया कि आरएजी के लिए रिट्रीवर मॉड्यूल को फाइन-ट्यूनिंग करने से प्रदर्शन में वृद्धि होती है, जबकि टूलफॉर्मर्स और गोरिल्ला जैसे शोधपत्र दर्शाते हैं कि एपीआई कॉलर को फाइन-ट्यूनिंग करने से भी प्रदर्शन में वृद्धि होती है।
वैयक्तिकृत भाषा प्रॉम्प्टिंग के लिए उपयोगकर्ता एम्बेडिंग मॉडल, अनुशंसा प्रणालियों को बेहतर बनाने के लिए लंबे उपयोगकर्ता इतिहास को एम्बेडिंग में बदल देता है, लेकिन ऐसा लगता है कि इसका उपयोग RAG को बेहतर बनाने के लिए भी किया जा सकता है।
एलएलएम सूचना पर हावी हो सकते हैं। अध्ययन से पता चलता है कि तंत्रिका पुनर्प्राप्ति मॉडल एलएलएम-जनित दस्तावेजों को मानव-रैंक वाले दस्तावेजों की तुलना में उच्च रैंक देते हैं, यह सुझाव देते हुए कि आरएजी सूचना के एआई-जनित सारांश की खोज करते समय बेहतर प्रदर्शन कर सकता है।
पेपरक्यूए वैज्ञानिक साहित्य का उपयोग करके वैज्ञानिक प्रश्नों के उत्तर देने के लिए रिट्रीवल-ऑगमेंटेड जेनरेशन (आरएजी) का उपयोग करता है। पेपरक्यूए सटीक, प्रासंगिक उत्तर सुनिश्चित करने के लिए अपने चरणों को गतिशील रूप से समायोजित करके मौजूदा बड़े भाषा मॉडल (एलएलएम) और वाणिज्यिक उपकरणों से बेहतर प्रदर्शन करता है। इसमें मॉड्यूलर आरएजी घटक, साक्ष्य एकत्र करने के लिए एक मानचित्र-कम करने वाला दृष्टिकोण और पाठ पुनर्प्राप्ति के लिए एलएलएम-जनरेटेड प्रासंगिकता स्कोर जैसे नवाचार शामिल हैं। इसके अतिरिक्त, पेपर पुनर्प्राप्ति-आधारित विज्ञान प्रश्न उत्तरों के मूल्यांकन के लिए एक नया डेटासेट, लिटक्यूए प्रस्तुत करता है, जो विशेषज्ञ मानव शोधकर्ताओं के लिए पेपरक्यूए के तुलनीय प्रदर्शन को प्रदर्शित करता है।
ART मध्यवर्ती तर्क चरण उत्पन्न करके और गणना के लिए बाहरी उपकरणों को शामिल करके LLM को बेहतर बनाता है। ART बहु-चरणीय तर्क और उपकरण चयन के लिए कार्य लाइब्रेरी का उपयोग करके नए कार्यों के लिए स्वचालित रूप से प्रोग्राम बनाता है। यह बिगबेंच और MMLU जैसे बेंचमार्क पर मौजूदा तरीकों की तुलना में प्रदर्शन में उल्लेखनीय सुधार करता है और मानवीय हस्तक्षेप के लिए आसानी से विस्तार योग्य है।
टूल मेकर्स के रूप में लार्ज लैंग्वेज मॉडल LATM को प्रस्तुत करता है, जो एक ऐसा ढांचा है जो LLM को समस्या-समाधान के लिए अपने स्वयं के उपकरण बनाने और उनका उपयोग करने में सक्षम बनाता है। LLM विशिष्ट कार्यों के लिए पायथन उपयोगिता फ़ंक्शन बनाने के लिए "टूल मेकर्स" के रूप में कार्य करते हैं और फिर समस्याओं को हल करने के लिए इन उपकरणों को लागू करने के लिए "टूल उपयोगकर्ता" के रूप में कार्य करते हैं। यह दृष्टिकोण टूल निर्माण के लिए शक्तिशाली मॉडल और समस्या-समाधान के लिए हल्के मॉडल के लागत-प्रभावी उपयोग की अनुमति देता है, जो विभिन्न तर्क कार्यों पर बेहतर दक्षता और प्रदर्शन प्रदर्शित करता है।
बड़े भाषा मॉडल एजेंटों के लिए कार्यशील मेमोरी को सशक्त बनाना संवाद प्रकरणों में यादों को बनाए रखने के लिए कार्यशील मेमोरी हब और एपिसोडिक बफर को शामिल करने वाले मॉडल का प्रस्ताव करता है, जिसका उद्देश्य जटिल कार्यों के लिए सूक्ष्म संदर्भगत तर्क प्रदान करना है। शोधपत्र में सुझाव दिया गया है कि यह आर्किटेक्चर एलएलएम एजेंटों की मेमोरी क्षमताओं में काफी सुधार कर सकता है, जिससे एआई में मेमोरी तंत्र को अनुकूलित करने में आगे के शोध के लिए एक मामला बन जाता है।
एलएलएम से लेकर संवादी एजेंट तक: बड़े भाषा मॉडल के फाइन-ट्यूनिंग के साथ एक मेमोरी एन्हांस्ड आर्किटेक्चर RAISE को प्रस्तुत करता है, जो मानव अल्पकालिक और दीर्घकालिक स्मृति के अनुरूप मेमोरी सिस्टम को एकीकृत करके संवादी एजेंटों को बेहतर बनाने के लिए डिज़ाइन किया गया एक ढांचा है। इस आर्किटेक्चर का उद्देश्य मल्टी-टर्न संवादों में एजेंटों की अनुकूलनशीलता और संदर्भ जागरूकता को बढ़ाना है।
लॉन्ग-टर्म मेमोरी के साथ भाषा मॉडल को बढ़ाना लॉन्गमेम नामक एक फ्रेमवर्क पेश करता है, जिसका उद्देश्य लॉन्ग-टर्म मेमोरी मॉड्यूल को शामिल करके बड़े भाषा मॉडल (एलएलएम) की इनपुट लंबाई की सीमाओं को दूर करना है। यह मॉड्यूल एलएलएम को पिछले इंटरैक्शन से व्यापक संदर्भ को याद रखने और उपयोग करने में सक्षम बनाता है, जिससे उनकी दीर्घकालिक संदर्भ जानकारी को संभालने की क्षमता में काफी वृद्धि होती है।
MemGPT ऑपरेटिंग सिस्टम से प्रेरित एक पदानुक्रमित मेमोरी सिस्टम के साथ बड़े भाषा मॉडल (LLM) को बढ़ाने की अवधारणा का पता लगाता है ताकि विस्तारित संदर्भ को अधिक कुशलता से प्रबंधित किया जा सके। यह दृष्टिकोण LLM को मुख्य और बाहरी मेमोरी के बीच सूचना को गतिशील रूप से प्रबंधित करके दस्तावेज़ विश्लेषण और बहु-सत्र चैट जैसे दीर्घकालिक मेमोरी और जटिल संदर्भ प्रबंधन की आवश्यकता वाले कार्यों को संभालने की अनुमति देता है। MemGPT इन क्षेत्रों में बेहतर प्रदर्शन प्रदर्शित करता है।
LLMind डोमेन-विशिष्ट AI मॉड्यूल के साथ एकीकृत करने के लिए बड़े भाषा मॉडल (LLM) का उपयोग करता है, जिससे IoT डिवाइस जटिल कार्यों को निष्पादित करने में सक्षम होते हैं। यह सटीक भाषा-कोड परिवर्तन के लिए परिमित राज्य मशीनों का उपयोग करता है, प्रासंगिक रूप से उपयुक्त प्रतिक्रियाओं के लिए भूमिका निभाता है, और बातचीत के लिए एक उपयोगकर्ता के अनुकूल प्लेटफ़ॉर्म का उपयोग करता है। यह गति और प्रभावशीलता के लिए अर्थपूर्ण विश्लेषण और प्रतिक्रिया अनुकूलन का भी उपयोग करता है, जिसका उद्देश्य एक विकसित, परिष्कृत IoT डिवाइस पारिस्थितिकी तंत्र बनाना है।

एआई प्रौद्योगिकियों में नवीनतम प्रगति ओपन पॉज़ को हमारे वकालत प्रयासों को गहरा और व्यक्तिगत बनाने के अभूतपूर्व अवसर प्रदान करती है।

ग्राफ डेटाबेस के साथ-साथ पुनर्प्राप्ति-संवर्धित पीढ़ी का उपयोग करने से हमारे एआई को पशु अधिकारों के विशाल क्षेत्र के भीतर जटिल अंतर्संबंधों को समझने, संदेशों और रणनीतियों को पहले अप्राप्य परिशुद्धता के साथ तैयार करने में मदद मिलती है।

रणनीतिक योजना और कार्रवाई के लिए मॉड्यूल के साथ एआई को लैस करके, हम पशु वकालत परिदृश्य में वास्तविक समय के विकास के अनुकूल सूक्ष्म अभियानों को स्वचालित कर सकते हैं। ये एआई एजेंट स्वायत्त रूप से अपने वकालत उपकरणों को उत्पन्न और परिष्कृत कर सकते हैं, जिससे यह सुनिश्चित होता है कि हमारे दृष्टिकोण अत्याधुनिक बने रहें।

भविष्य की दिशाएं

एजीआई की ओर प्रगति बहु-मोडैलिटी, संज्ञानात्मक और मॉड्यूलर आर्किटेक्चर के माध्यम से होने की संभावना है।

वर्तमान गैर-आक्रामक प्रौद्योगिकियां जैसे कि ईईजी हेडसेट मस्तिष्क तरंगों की व्याख्या की अनुमति देते हैं, जिससे भविष्य में एआई प्रशिक्षण के लिए सीधे डेटा एकत्र करने की संभावनाओं का संकेत मिलता है, विशेष रूप से सामाजिक वांछनीयता पूर्वाग्रहों को दरकिनार करके प्रेरक क्षमता को बढ़ाने के लिए न्यूरोफीडबैक का उपयोग करना।

न्यूरालिंक जैसी अधिक आक्रामक प्रौद्योगिकियां इस डेटा संग्रहण को और भी आगे बढ़ा सकती हैं।

इस बीच, वीआर/एआर की बढ़ती स्वीकार्यता नए इमर्सिव अनुभव प्रदान करती है।

विकेन्द्रीकृत एआई प्रशिक्षण में आशा की किरण दिख रही है, जो स्वैच्छिक कंप्यूटिंग संसाधनों का उपयोग करने वालों को पुरस्कृत करने के लिए क्रिप्टोकरेंसी का लाभ उठा सकता है, जो वितरित स्वयंसेवी कंप्यूटिंग शक्ति का उपयोग करके पशु अधिकारों जैसे आंदोलनों के लिए मॉडल प्रशिक्षण में क्रांतिकारी बदलाव ला सकता है।

कृत्रिम सामान्य बुद्धिमत्ता के मार्ग के लिए संभावित प्रेरणा के रूप में तंत्रिका विज्ञान और संज्ञानात्मक मनोविज्ञान के निष्कर्षों की समीक्षा में पाया गया कि वर्तमान एआई प्रणालियों की सबसे बड़ी कमजोरियां अमूर्त तर्क और कारण संबंधी समझ में हैं, लेकिन यह सुझाव दिया गया है कि संज्ञानात्मक मनोविज्ञान और तंत्रिका विज्ञान के निष्कर्ष इन अंतरालों को संबोधित कर सकते हैं, जो निम्न-स्तर के जैविक न्यूरॉन्स, स्पाइकिंग न्यूरल नेटवर्क और न्यूरोनल समूहों से लेकर उच्च-स्तरीय अवधारणाओं जैसे मस्तिष्क शरीर रचना, वेक्टर प्रतीकात्मक वास्तुकला, संज्ञानात्मक और वर्गीकरण मॉडल और संज्ञानात्मक वास्तुकला तक फैले हुए हैं।
गूगल जेमिनी से ओपनएआई क्यू* (क्यू-स्टार): जनरेटिव आर्टिफिशियल इंटेलिजेंस (एआई) अनुसंधान परिदृश्य को नया आकार देने के सर्वेक्षण ने अधिक उन्नत एआई प्रणालियों के मार्ग के रूप में "जनरेटिव एआई में एमओई, मल्टीमोडैलिटी और एजीआई के संतुलित और कर्तव्यनिष्ठ उपयोग" का सुझाव दिया।
गैर-आक्रामक मस्तिष्क रिकॉर्डिंग से निरंतर भाषा के अर्थपूर्ण पुनर्निर्माण से पता चला है कि आप एआई का उपयोग करके गैर-आक्रामक उपकरणों द्वारा रिकॉर्ड किए गए मस्तिष्क तरंगों से वास्तविक, कथित या काल्पनिक भाषण और वीडियो की व्याख्या कर सकते हैं, इस चेतावनी के साथ कि प्रशिक्षण और डिकोडिंग दोनों के लिए विषय सहयोग की आवश्यकता होती है।
इंटरनेट ऑफ एवरीथिंग द्वारा संचालित न्यूरोमार्केटिंग ने दिखाया है कि गैर-आक्रामक उपकरणों की एक विस्तृत श्रृंखला, जैसे कि ईईजी या एसएसटी हेडसेट, ईसीजी सेंसर, आई ट्रैकिंग और पहनने योग्य जीएसआर उपकरण, न्यूरोफीडबैक दे सकते हैं, जिनका उपयोग विपणक द्वारा विज्ञापन अभियानों को अधिक प्रभावशाली बनाने के लिए किया जा सकता है।
रावनेस्ट: विषम उपकरणों पर विकेंद्रीकृत अतुल्यकालिक प्रशिक्षण विकेंद्रीकृत अतुल्यकालिक प्रशिक्षण के लिए एक दृष्टिकोण प्रस्तुत करता है, जिसका उद्देश्य संचार दक्षता और मॉडल अभिसरण गति में सुधार करना है। यह साथियों के बीच पैरामीटर औसत के लिए ऑल-रिड्यूस एल्गोरिदम के उपयोग पर ध्यान केंद्रित करता है और विकेंद्रीकृत सेटिंग्स के लिए उपयुक्त कमी तकनीकों की खोज करता है।
विषम वातावरण में फाउंडेशन मॉडल का विकेंद्रीकृत प्रशिक्षण विकेंद्रीकृत प्रशिक्षण वातावरण में शेड्यूलिंग चुनौतियों पर ध्यान केंद्रित करता है, विशेष रूप से GPT-3 जैसे फाउंडेशन मॉडल के लिए। यह अलग-अलग संचार गति और क्षमताओं वाले उपकरणों में कम्प्यूटेशनल कार्यों को प्रभावी ढंग से असाइन करके प्रशिक्षण थ्रूपुट को अनुकूलित करने की तकनीकों की खोज करता है।
लेयरिंग और शार्डिंग के माध्यम से सुरक्षित और कुशल फ़ेडरेटेड लर्निंग ब्लॉकचेन ने चेनएफएल पेश किया है, जो एक ऐसा ढांचा है जो ब्लॉकचेन का उपयोग करके फ़ेडरेटेड लर्निंग (FL) सुरक्षा और दक्षता को बढ़ाता है। दो-परत वाली ब्लॉकचेन वास्तुकला को अपनाकर, चेनएफएल का लक्ष्य FL परिदृश्यों में पारंपरिक ब्लॉकचेन सिस्टम की मापनीयता और थ्रूपुट सीमाओं को संबोधित करना है। इस प्रणाली में IoT उपकरणों के बीच स्थानीय सहमति के लिए एक सबचेन परत और शार्ड में एसिंक्रोनस मॉडल प्रोसेसिंग की सुविधा के लिए एक निर्देशित एसाइक्लिक ग्राफ़ (DAG) पर आधारित एक मेनचेन परत शामिल है। यह डिज़ाइन सहमति में बेहतर समानांतरता और कम भंडारण आवश्यकताओं की अनुमति देता है, जिससे यह सीमित संसाधनों वाले IoT उपकरणों से जुड़े बड़े पैमाने के FL कार्यों के लिए विशेष रूप से उपयुक्त हो जाता है।
ब्लॉकचेन पर आधारित विकेंद्रीकृत फ़ेडरेटेड लर्निंग एक ब्लॉकचेन-आधारित फ़ेडरेटेड लर्निंग फ्रेमवर्क का प्रस्ताव करता है, जिसे BFLC (ब्लॉकचेन-आधारित फ़ेडरेटेड लर्निंग विद कमेटी सर्वसम्मति) कहा जाता है। इस फ्रेमवर्क का उद्देश्य ब्लॉकचेन तकनीक का उपयोग करके वैश्विक और स्थानीय मॉडलों के भंडारण और विनिमय को विकेंद्रीकृत करके फ़ेडरेटेड लर्निंग में सुरक्षा चिंताओं को दूर करना है। दक्षता बढ़ाने और दुर्भावनापूर्ण हमलों को कम करने के लिए, BFLC एक समिति सहमति तंत्र का उपयोग करता है।

बहु-विधता और संज्ञानात्मक वास्तुकला की क्षमता पशु वकालत को महत्वपूर्ण रूप से आगे बढ़ाती है।

ओपन पॉज़ को ऐसी कृत्रिम बुद्धि विकसित करनी चाहिए जो छवियों, ऑडियो और भावनात्मक संकेतों सहित विविध डेटा को संसाधित करे, तथा पशु अधिकारों के लिए सहानुभूतिपूर्ण और प्रेरक संचार को बढ़ावा दे।

न्यूरोफीडबैक को एकीकृत करके, एआई को बायोमेट्रिक डेटा के साथ अनुकूलित किया जा सकता है, जिससे यह सुनिश्चित हो सके कि अभियान अवचेतन स्तर पर प्रतिध्वनित हो।

इसके अतिरिक्त, वीआर और एआर प्रौद्योगिकियों का अन्वेषण सम्मोहक, सहानुभूति-चालित अनुभव पैदा कर सकता है, तथा पशुओं की दुर्दशा के बारे में गहरी समझ पैदा कर सकता है।

विकेन्द्रीकृत प्रशिक्षण और ब्लॉकचेन पद्धतियों को अपनाने से एआई विकास का लोकतंत्रीकरण हो सकता है, पारदर्शिता, सुरक्षा और साझा स्वामित्व मूल्यों के साथ तालमेल हो सकता है, बाधाएं कम हो सकती हैं और सहयोग को बढ़ावा मिल सकता है, जिससे हमारे मिशन में तेजी आएगी।

निष्कर्ष

इस समीक्षा में नवीनतम शोध और तकनीकों की खोज की गई है, जिनका उपयोग पशुओं के हितों को आगे बढ़ाने के लिए विशिष्ट रूप से संरेखित एआई प्रणाली विकसित करने के लिए किया जा सकता है।

आंकड़ों को सावधानीपूर्वक संकलित करके, प्रभावी पूर्व-प्रशिक्षण रणनीतियों को अपनाकर, तथा अत्याधुनिक आर्किटेक्चर और फाइन-ट्यूनिंग दृष्टिकोणों का उपयोग करके, हम एक ऐसी प्रणाली बना सकते हैं जो न केवल उच्च प्रदर्शन प्राप्त करती है, बल्कि पशु अधिकार आंदोलन के नैतिक सिद्धांतों को भी मूर्त रूप देती है।

यह सुनिश्चित करने के लिए कि प्रणाली न्यूनतम पूर्वाग्रह प्रदर्शित करती है, सत्यनिष्ठा बनाए रखती है, तथा पशु वकालत के दृष्टिकोण और लक्ष्यों को सटीक रूप से प्रतिबिंबित करती है, कठोर मूल्यांकन और बेंचमार्किंग महत्वपूर्ण होगी।

उन्नत त्वरित इंजीनियरिंग विधियों के साथ-साथ मानव और एआई फीडबैक से सुदृढीकरण सीखने जैसी तकनीकें, सिस्टम की तर्क क्षमताओं को और बढ़ाने तथा कारण के साथ इसके संरेखण की संभावना रखती हैं।

शायद सबसे महत्वपूर्ण बात यह है कि इस तरह की AI प्रणाली के संभावित डाउनस्ट्रीम अनुप्रयोग पशु अधिकार आंदोलन के लिए परिवर्तनकारी साबित हो सकते हैं। बड़े पैमाने पर व्यक्तिगत अनुनय से लेकर सामग्री निर्माण और बुद्धिमान सहायता तक, यह तकनीक अन्य जानवरों के प्रति दृष्टिकोण और व्यवहार में सकारात्मक बदलाव को प्रेरित करने की हमारी क्षमता को बढ़ा सकती है।

जैसे-जैसे यह क्षेत्र विकसित होता रहेगा, खुले सहयोग, नैतिक प्रथाओं और अन्य जानवरों की भलाई पर निरंतर ध्यान देने की प्रतिबद्धता सर्वोपरि होगी। जिम्मेदारी और उद्देश्यपूर्ण तरीके से एआई की शक्ति का उपयोग करके, हम एक ऐसी प्रणाली बना सकते हैं जो हमारे वकालत प्रयासों के लिए एक बल गुणक के रूप में कार्य करती है, जिससे हम एक ऐसी दुनिया के करीब पहुँचते हैं जहाँ अन्य जानवरों के हितों का सम्मान और संरक्षण किया जाता है।

सैम टकर