لماذا لا يعمل نموذج لغة Meta الكبير للباحثين

هل لم تتمكن من حضور Remodel 2022؟ تحقق من جميع جلسات القمة في مكتبتنا عند الطلب الآن! مشاهدة هنا.


عندما ابتكر آلان تورينج اختبار تورينج في عام 1950 ، كان اختبارًا لقدرة الآلة على إظهار سلوك ذكي لا يمكن تمييزه عن سلوك الإنسان. اقترح تورينج أنه يمكن القول بأن الكمبيوتر يمتلك ذكاءً اصطناعيًا (AI) إذا كان بإمكانه الإبداع ردود شبيهة بالإنسان على الأسئلة.

شكرا ل نماذج اللغات الكبيرة، نحن الآن في مرحلة حيث يمكن لأجهزة الكمبيوتر كتابة نص حول أي موضوع نعطيه إياها – وفي أغلب الأحيان ، إنه مقنع للغاية وشبيه بالبشر.

قل لها أن تكتب جملة ، “لماذا يحب إيلون ماسك الحياكة؟” ويمكن القول إن ما ينتج عنه هو بجودة ما يمكن أن يكتبه أي إنسان:

Some doable the explanation why Elon Musk may get pleasure from knitting may embody the truth that it's a stress-free and meditative exercise that may assist to clear one's thoughts, and it additionally permits for a substantial amount of creativity and self-expression.
Moreover, knitting could be a very social exercise, and Elon Musk might benefit from the alternative to talk and join with different knitters.

[Source: OpenAI Playground using text-davinci-002 model]

تلخيص النص المعقد

أمثلة كهذه ممتعة ، لكن اقتراح القيمة الأكبر لاستخدام نماذج اللغة الكبيرة لا يتعلق بكتابة نثر أحمق وأكثر حول تلخيص النص المعقد. حالات الاستخدام هذه مثيرة عبر الصناعات. على سبيل المثال ، يمكن للذكاء الاصطناعي استخلاص المعلومات حول الآفاق المحتملة لأغراض استخبارات المبيعات ، أو يمكنه تلخيص مستندات الاستثمار في مجال التمويل.

حدث

ميتابيت 2022

ستجمع MetaBeat قادة الفكر لتقديم إرشادات حول كيفية قيام التكنولوجيا metaverse بتحويل الطريقة التي تتواصل بها جميع الصناعات وتؤدي أعمالها في 4 أكتوبر في سان فرانسيسكو ، كاليفورنيا.

سجل هنا

ومع ذلك ، فإن ما يهمني بشكل خاص هو تلخيص الأوراق العلمية للباحثين.

المشكلة هي أن هناك الكثير من الأبحاث التي يتم نشرها في جميع أنحاء العالم. تم نشر أكثر من 4.2 مليون ورقة بحثية أكاديمية في عام 2020. حتى في مجالات البحث المتخصصة ، هناك المئات من الأوراق المنشورة كل عام – كيف يمكن للباحث متابعة كل ذلك أثناء متابعة أبحاثه الخاصة؟ يلمح ملخص الورقة البحثية فقط إلى تفاصيل البحث في الداخل.

عندما فتحت Meta مؤخرًا نموذجها اللغوي OPT-175B ، بدا واعدًا للباحثين الأكاديميين. يُقال إنه يقدم أداءً أفضل من OpenAI’s GPT-3 ويستخدم 15٪ فقط من موارد حوسبة GPT-3 لتدريبه.

اختبار النماذج

إذن كيف أداء Meta في البحث العلمي؟

اختبرناها أولاً على أ بيان صحفي فني، وكان هذا هو الملخص الذي تلقيناه:

​​Ahead Wanting Statements, which converse solely as of the date of this press launch. Artelo undertakes no obligation to publicly replace any forward-looking assertion, whether or not because of new data, future occasions or in any other case.
Investor Relations Contact:
Westwicke Companions on behalf of Artelo Biosciences
Mike Piccinino, CFA

إنها ليست بداية رائعة. يركز النموذج على المستثمر القانوني في نهاية البيان الصحفي ، معتبراً أنه أهم المعلومات التي يحتاج القارئ إلى معرفتها. قد تجادل في أنها مهمة ، لكنها ليست ما نبحث عنه. اتصال المستثمر ليس صحيحًا ، لقد تم اختلاقه بواسطة النموذج!

بعد ذلك ، جربناها على ورقة من مجلة المواد الإلكترونية:

Journal of ELECTRONIC MATERIALS, Vol. 38, No. 7, 2009 DOI: 10.1007/s11664-009-0701-y (cid:1) 2009 TMS Particular Problem Paper thermally. The samples had been then pulverized and analyzed by XRD, TGA, and XPS. The XRD patterns confirmed that CaCo2O4+d crystallizes as a calcium-ferrite-type construction, which consists of a corner- and edge- shared CoO6 octahedron community together with one-dimensional double chains. The CaCo2O4+d part has a finite density of states on the Fermi stage. The XPS outcomes confirmed that CaCo2O4+d has a composition of CaCo2O4+d = (Ca2CoO3)0.62CoO2. The XPS outcomes additionally confirmed that CaCo2O4+d has

[Source: Meta OPT-175B]

للوهلة الأولى ، يبدو أنه يحتوي على معلومات مهمة ، ولكن من الواضح أن هناك معلومات غير ضرورية مثل تفاصيل الورقة التي ليست مهمة للملخص ، وسأصف النتيجة بدقة أكبر على أنها إعادة صياغة لجزء من النص بدلاً من تلخيصًا لكل جوانبها.

النماذج الصغيرة تتفوق في الأداء

إذن كيف يقارن نموذج اللغة الأصغر؟ من خلال الخبرة في هذا المجال ، قمنا بتصميم نموذج Iris.ai IPG الخاص بنا بحيث يحتوي على 25 مليون معلمة فقط – مقابل 175 مليارًا من Meta و OpenAI – لكننا قمنا بتدريبه على ملايين المقالات العلمية الخاصة بالمجال. أظهر بحثنا أن هذا النموذج يعمل بشكل مختلف تمامًا على نفس الورقة:

Metallic temperature dependence of the seebeck coefficient s with a big thermoelectric energy (s=151lv/kat387k) has a finite density of states on the fermi stage. On this paper, we report the crystal construction and bodily properties of caco2o4+d. We discover a new compound caco2o4+d, which reveals a big thermoelectric energy, although it has a finite density of states on the fermi stage. Motivated by the straightforward guideline talked about beforehand, we searched for brand new phases thermoelectric properties associated as a thermoelectric materials relevant to high-temperature use.

[Source: Iris.ai IPG]

يمكنك أن ترى أن بنية الجملة أبسط قليلاً من نموذج اللغة الكبير ، لكن المعلومات أكثر صلة بالموضوع. علاوة على ذلك ، فإن التكاليف الحسابية لإنشاء ملخص المقالة الإخبارية أقل من 0.23 دولار. أن تفعل الشيء نفسه على OPT-175 سيكلف حوالي 180 دولارًا.

سفن الحاويات لنماذج الذكاء الاصطناعي

قد تفترض أن نماذج اللغات الكبيرة المدعومة بقوة حسابية هائلة ، مثل OPT-175B ستكون قادرة على معالجة نفس المعلومات بشكل أسرع وبجودة أعلى. ولكن حيث يقع النموذج في معرفة مجال معين. لا يفهم بنية الورقة البحثية ، ولا يعرف ما هي المعلومات المهمة ، ولا يفهم الصيغ الكيميائية. إنه ليس خطأ النموذج – إنه ببساطة لم يتم تدريبه على هذه المعلومات.

الحل ، إذن ، هو مجرد تدريب نموذج GPT على أوراق المواد ، أليس كذلك؟

إلى حد ما ، نعم. إذا تمكنا من تدريب نموذج GPT على أوراق المواد ، فسوف يقوم بعمل جيد في تلخيصها ، لكن النماذج اللغوية الكبيرة – بطبيعتها – كبيرة. إنها سفن الحاويات التي يضرب بها المثل في نماذج الذكاء الاصطناعي – من الصعب للغاية تغيير اتجاهها. هذا يعني أن تطوير النموذج مع التعلم المعزز يحتاج إلى مئات الآلاف من أوراق المواد. وهذه مشكلة – هذا الحجم من الأوراق ببساطة غير موجود لتدريب النموذج. نعم ، يمكن تصنيع البيانات (كما هو الحال غالبًا في الذكاء الاصطناعي) ، ولكن هذا يقلل من جودة المخرجات – تأتي قوة GPT من تنوع البيانات التي يتم التدريب عليها.

إحداث ثورة في “كيف”

هذا هو السبب في أن النماذج اللغوية الأصغر تعمل بشكل أفضل. كانت معالجة اللغة الطبيعية (NLP) موجودة منذ سنوات ، وعلى الرغم من أن نماذج GPT تصدرت عناوين الأخبار ، إلا أن تطور نماذج NLP الأصغر يتحسن طوال الوقت.

بعد كل شيء ، سيكون من الصعب دائمًا التعامل مع نموذج تم تدريبه على 175 مليار معلمة ، ولكن النموذج الذي يستخدم 30 إلى 40 مليون معلمة يكون أكثر قدرة على المناورة للنص الخاص بالمجال. الميزة الإضافية هي أنها ستستخدم طاقة حسابية أقل ، لذا فهي تكلف أقل بكثير لتشغيلها أيضًا.

من وجهة نظر البحث العلمي ، وهو ما يثير اهتمامي أكثر ، سوف يعمل الذكاء الاصطناعي على تسريع إمكانات الباحثين – سواء في الأوساط الأكاديمية أو في الصناعة. ينتج عن الوتيرة الحالية للنشر كمية لا يمكن الوصول إليها من الأبحاث ، مما يستنزف وقت الأكاديميين وموارد الشركات.

تعكس الطريقة التي صممنا بها نموذج IPG الخاص بـ Iris.ai إيماني بأن نماذج معينة توفر الفرصة ليس فقط لإحداث ثورة في ما ندرسه أو مدى سرعة دراستنا له ، ولكن أيضًا كيف نحن نقترب من مختلف تخصصات البحث العلمي ككل. إنها تمنح العقول الموهوبة مزيدًا من الوقت والموارد للتعاون وتوليد القيمة.

هذه الإمكانية لكل باحث لتسخير أبحاث العالم تدفعني إلى الأمام.

فيكتور بوتيف هو كبير التكنولوجيا في Iris AI.

صانعي القرار

مرحبًا بك في مجتمع VentureBeat!

DataDecisionMakers هو المكان الذي يمكن للخبراء ، بما في ذلك الأشخاص الفنيون الذين يقومون بعمل البيانات ، مشاركة الأفكار والابتكارات المتعلقة بالبيانات.

إذا كنت تريد أن تقرأ عن الأفكار المتطورة والمعلومات المحدثة ، وأفضل الممارسات ، ومستقبل البيانات وتكنولوجيا البيانات ، انضم إلينا في DataDecisionMakers.

يمكنك حتى التفكير المساهمة بمقال خاص بك!

قراءة المزيد من DataDecisionMakers

The Information Weblog The place You Get The Information First
VentureBeat

brain2gain