الگوریتم گوگل در خدمت شناسایی مقاله‌های مهم علمی

اهمیت و ارزش یک مقاله‌ی عملی  را چطور می‌شود به کمک یک الگورتیم ارزیابی کرد؟ اولین راهی که به ذهن می‌رسد این است که تعداد دفعاتی که به آن مقاله در سایر منابع علمی اشاره (استناد) شده را بشماریم. در واقع این روش کلاسیک مدت‌هاست که برای سنجش اعتبار مقاله‌های علمی به کار می‌رود. اما این روش چند اشکال دارد:

  1. همه‌ی ارجاع‌ها ارزش یکسانی ندارند. اگر یک مقاله‌ی مهم به مقاله‌ای ارجاع دهد خیلی فرق می‌کند تا یک مقاله‌ی فرعی نامش را ذکر کند. (مثلا تصور کنید به نام یک دانشمند در این مقاله ارجاع داده شود!)
  2. دانشمندان در حوزه‌های مختلف ارجاع‌هایشان را به شیوه‌های مختلفی می‌دهند. مثلا به طور میانگین به یک مقاله‌ در حوزه‌ی علوم حدود شش بار ارجاع داده می‌شود، در فیزیک سه بار و در ریاضیات حدود یک بار.
  3. به مقاله‌های نوآورانه در حوزه‌های جدید ممکن است زیاد ارجاع داده نشود، چون حوزه‌ای مورد بحث هنوز کوچک است و قرار است در آینده بزرگ شود.
  4. به مقاله‌های خیلی مهم بعد از مدتی دیگر ارجاع داده نمی‌شود، چون به عنوان اصول اساسی وارد کتاب‌های درسی و دانشگاهی می‌شوند.

شیوه‌ی ارجاع دادن مقاله‌ها به یکدیگر تشکیل یک شبکه‌ی پیچیده می‌دهد که بی‌شباهت به شبکه‌ی اینترنت نیست. چند محقق آمده‌اند و الگوریتمی شبیه سیستم رتبه‌بندی گوگل یا پیج‌رنک (PageRank) را برای مقاله‌ها و محققان به کار برده‌اند. بر اساس روش پیج‌رنک صفحه‌ها (یا مقاله‌ها) بر اساس تعداد لینک‌هایی که به آن‌ها داده شده امتیاز بندی می‌شوند و «وزن» لینک‌ها هم در محاسبه‌ها منظور می‌شود. یعنی لینک گرفتن از سایت (مقاله‌) با پیج‌رنک بالاتر امتیاز بیشتری دارد.

الگوریتم تعداد 353,268 مقاله که کل مقاله‌های متنشر شده توسط انجمن فیزیک آمریکا از سال 1893 است را بررسی و 3,110,839 لینک (ارجاع) بین این مقاله‌ها را شناسایی کرد. در مرحله‌ی بعد هم با توجه به امتیازها فهرست مقاله‌های برتر استخراج شد.

برای بخش قابل توجهی از مقاله‌ها، امتیاز کلاسیک مبتنی بر تعداد ارجاعات (citation indices) و امتیاز گوگل‌رنک با هم هم‌خوانی داشت. اما استثناهایی هم پیدا شدند: مقاله‌هایی که با وجود داشتن پیج‌رنک بسیار بالا، در فهرست‌های کلاسیک جایگاه بارزی نداشتند. {+} این مقاله‌ها انگار توسط الگوریتم «کشف» شده بودند.

نگاهی به فهرست ده مقاله‌ی اول هم جالب است. بیشتر مولفان این فهرست جایزه‌ی نوبل برده‌اند، اما چیزی که عجیب‌تر است این که مولف مقاله‌ی اول فهرست نیکلا کابیبو (Nicola Cabibbo) جایزه‌ی نوبل نبرده، در حالی که دو دانشمندی (Makoto Kobayashi and Toshihide Maskawa) که جایزه‌ی نوبل فیزیک 2008 را برده‌اند کارهای تحقیقاتی‌شان به شدت مبتنی بر کارهای تحقیقاتی آقای کابیبو بوده. آیا این نوعی «پیش‌بینی» است؟

pagerankings-graph

البته این روش بی‌عیب هم نیست. محققانی که این روش را بررسی کرده‌اند هشدار داده‌اند که روش‌های جستجوی کلاسیک برای یاقتن مقاله‌های علمی باید کماکان مورد استفاده قرار بگیرد، چون استفاده از روش پیج‌رنک دو خطر دارد:

  1. یک مقاله‌ی معمولی که ممکن است به طور موقت در صدر فهرست پیج‌رنک قرار بگیرد به طور غیرمتناسبی ارجاع کسب خواهد کرد و این تعداد ارجاعات باعث می‌شوند که حتی ارجاعات بیشتری کسب کند و واقعا تبدیل به یک مقاله‌ی خیلی مهم شود (self-fulfilling prophecy).
  2. امکان امتیاز ویژه داده شدن به یک سری مقاله‌های خاص نسبت به بقیه‌ی مقاله‌ها وجود دارد. جای‌گاه‌ها ممکن است فروخته شوند (مشابه لینک‌های حمایت شده در گوگل) یا این‌که به خاطر نوسانات ذاتی الگوریتم ناگهان یک مقاله‌ی معمولی در بالاها ظاهر شود.

از دو ایراد بالا که بگذریم (یعنی حواسمان به آن‌ها باشد) با استفاده از الگوریتمی که مشابه الگوریتم پیج‌رنگ گوگل است، «احتمالا» می‌توان مقاله‌های مهم و یا ارزشمندی که به دلایل مختلف چندان به چشم نیامده‌اند را شناسایی کرد. یا با داده‌کاوی مفصل‌تر روی تعداد بیشتری مقاله و احتمالا تعداد متنوع‌تری حوزه‌ی علمی، شاید بتوان دانشمندان یا ایده‌های در حال ظهور را به سرعت شناسایی کرد، حتی قبل از آن‌که شهرت جهانی بیابند! به قول این وبلاگ‌نویس «الگوریتم گوگل برندگان جایزه‌ی نوبل را پیش‌بینی می‌کند!»

پی‌نوشت: دنبال اصل مقاله‌ گشتم، اما رایگان پیدا نکردم. خوش به حال کسانی که در دانشگاه‌ها دسترسی کامل و رایگان به هر متن علمی که «اراده» کنند دارند.

پی‌نوشت تکمیلی: مقاله را یکی از دوستان برایم فرستاد (با سپاس). یکی دیگر از دوستان پیشنهاد داد که بفرستد (با سپاس) و خودم هم توی اینترنت پیدا کردم (با سپاس از خودم)!

Advertisements