الگوریتم گوگل در خدمت شناسایی مقاله‌های مهم علمی

اهمیت و ارزش یک مقاله‌ی عملی  را چطور می‌شود به کمک یک الگورتیم ارزیابی کرد؟ اولین راهی که به ذهن می‌رسد این است که تعداد دفعاتی که به آن مقاله در سایر منابع علمی اشاره (استناد) شده را بشماریم. در واقع این روش کلاسیک مدت‌هاست که برای سنجش اعتبار مقاله‌های علمی به کار می‌رود. اما این روش چند اشکال دارد:

  1. همه‌ی ارجاع‌ها ارزش یکسانی ندارند. اگر یک مقاله‌ی مهم به مقاله‌ای ارجاع دهد خیلی فرق می‌کند تا یک مقاله‌ی فرعی نامش را ذکر کند. (مثلا تصور کنید به نام یک دانشمند در این مقاله ارجاع داده شود!)
  2. دانشمندان در حوزه‌های مختلف ارجاع‌هایشان را به شیوه‌های مختلفی می‌دهند. مثلا به طور میانگین به یک مقاله‌ در حوزه‌ی علوم حدود شش بار ارجاع داده می‌شود، در فیزیک سه بار و در ریاضیات حدود یک بار.
  3. به مقاله‌های نوآورانه در حوزه‌های جدید ممکن است زیاد ارجاع داده نشود، چون حوزه‌ای مورد بحث هنوز کوچک است و قرار است در آینده بزرگ شود.
  4. به مقاله‌های خیلی مهم بعد از مدتی دیگر ارجاع داده نمی‌شود، چون به عنوان اصول اساسی وارد کتاب‌های درسی و دانشگاهی می‌شوند.

شیوه‌ی ارجاع دادن مقاله‌ها به یکدیگر تشکیل یک شبکه‌ی پیچیده می‌دهد که بی‌شباهت به شبکه‌ی اینترنت نیست. چند محقق آمده‌اند و الگوریتمی شبیه سیستم رتبه‌بندی گوگل یا پیج‌رنک (PageRank) را برای مقاله‌ها و محققان به کار برده‌اند. بر اساس روش پیج‌رنک صفحه‌ها (یا مقاله‌ها) بر اساس تعداد لینک‌هایی که به آن‌ها داده شده امتیاز بندی می‌شوند و «وزن» لینک‌ها هم در محاسبه‌ها منظور می‌شود. یعنی لینک گرفتن از سایت (مقاله‌) با پیج‌رنک بالاتر امتیاز بیشتری دارد.

الگوریتم تعداد 353,268 مقاله که کل مقاله‌های متنشر شده توسط انجمن فیزیک آمریکا از سال 1893 است را بررسی و 3,110,839 لینک (ارجاع) بین این مقاله‌ها را شناسایی کرد. در مرحله‌ی بعد هم با توجه به امتیازها فهرست مقاله‌های برتر استخراج شد.

برای بخش قابل توجهی از مقاله‌ها، امتیاز کلاسیک مبتنی بر تعداد ارجاعات (citation indices) و امتیاز گوگل‌رنک با هم هم‌خوانی داشت. اما استثناهایی هم پیدا شدند: مقاله‌هایی که با وجود داشتن پیج‌رنک بسیار بالا، در فهرست‌های کلاسیک جایگاه بارزی نداشتند. {+} این مقاله‌ها انگار توسط الگوریتم «کشف» شده بودند.

نگاهی به فهرست ده مقاله‌ی اول هم جالب است. بیشتر مولفان این فهرست جایزه‌ی نوبل برده‌اند، اما چیزی که عجیب‌تر است این که مولف مقاله‌ی اول فهرست نیکلا کابیبو (Nicola Cabibbo) جایزه‌ی نوبل نبرده، در حالی که دو دانشمندی (Makoto Kobayashi and Toshihide Maskawa) که جایزه‌ی نوبل فیزیک 2008 را برده‌اند کارهای تحقیقاتی‌شان به شدت مبتنی بر کارهای تحقیقاتی آقای کابیبو بوده. آیا این نوعی «پیش‌بینی» است؟

pagerankings-graph

البته این روش بی‌عیب هم نیست. محققانی که این روش را بررسی کرده‌اند هشدار داده‌اند که روش‌های جستجوی کلاسیک برای یاقتن مقاله‌های علمی باید کماکان مورد استفاده قرار بگیرد، چون استفاده از روش پیج‌رنک دو خطر دارد:

  1. یک مقاله‌ی معمولی که ممکن است به طور موقت در صدر فهرست پیج‌رنک قرار بگیرد به طور غیرمتناسبی ارجاع کسب خواهد کرد و این تعداد ارجاعات باعث می‌شوند که حتی ارجاعات بیشتری کسب کند و واقعا تبدیل به یک مقاله‌ی خیلی مهم شود (self-fulfilling prophecy).
  2. امکان امتیاز ویژه داده شدن به یک سری مقاله‌های خاص نسبت به بقیه‌ی مقاله‌ها وجود دارد. جای‌گاه‌ها ممکن است فروخته شوند (مشابه لینک‌های حمایت شده در گوگل) یا این‌که به خاطر نوسانات ذاتی الگوریتم ناگهان یک مقاله‌ی معمولی در بالاها ظاهر شود.

از دو ایراد بالا که بگذریم (یعنی حواسمان به آن‌ها باشد) با استفاده از الگوریتمی که مشابه الگوریتم پیج‌رنگ گوگل است، «احتمالا» می‌توان مقاله‌های مهم و یا ارزشمندی که به دلایل مختلف چندان به چشم نیامده‌اند را شناسایی کرد. یا با داده‌کاوی مفصل‌تر روی تعداد بیشتری مقاله و احتمالا تعداد متنوع‌تری حوزه‌ی علمی، شاید بتوان دانشمندان یا ایده‌های در حال ظهور را به سرعت شناسایی کرد، حتی قبل از آن‌که شهرت جهانی بیابند! به قول این وبلاگ‌نویس «الگوریتم گوگل برندگان جایزه‌ی نوبل را پیش‌بینی می‌کند!»

پی‌نوشت: دنبال اصل مقاله‌ گشتم، اما رایگان پیدا نکردم. خوش به حال کسانی که در دانشگاه‌ها دسترسی کامل و رایگان به هر متن علمی که «اراده» کنند دارند.

پی‌نوشت تکمیلی: مقاله را یکی از دوستان برایم فرستاد (با سپاس). یکی دیگر از دوستان پیشنهاد داد که بفرستد (با سپاس) و خودم هم توی اینترنت پیدا کردم (با سپاس از خودم)!

6 دیدگاه برای «الگوریتم گوگل در خدمت شناسایی مقاله‌های مهم علمی»

  1. ertebat telephoni e cannel four e englis ba un yaru vazir esrayil ro didi
    ?

    jaleb bud!
    ————————————————————————–
    بامدادی: نه، متاسفانه امکان دیدن تصویر ندارم، هم خطم کنده و هم تلویزیون ندارم. اگر متنش رو جایی دیدی لطف کن به منم بده. مرسی.

    لایک

  2. خیلی منون…عالی
    راستی من چشمام ضعیف شده یا آدری ای-میلت رو نذاشتی تو بلاگ…حالا تکلیف کسی که بخواد برات اسپم بفرسته چی میشه؟
    —————————————————————————-
    بامدادی: 🙂
    نذاشتم، ولی توی صفحه‌ی تماس می‌تونن پیام بذارن یا ای‌میل بفرستن، به صورت کامنت هم که همیشه می‌شه پیام فرستاد.
    به هر حال در خدمت هستم.

    لایک

  3. جالب و منطقی است که :»الگوریتم گوگل برندگان جایزه‌ی نوبل را پیش‌بینی می‌کند!»
    ———————————————————-
    بامدادی: 🙂
    ممنون.

    لایک

  4. دنبال اصل مقاله می‌گردید؟ یعنی لینک زیر کار نمی‌کند؟
    http://arxiv.org/abs/0901.2640
    ——————————————————
    بامدادی: این لینک به سایت یا وبلاگیه که خبر رو داده، منظورم اصل مقاله‌‌ی آکادمیک بود. البته پیداش کردم، این‌جاست:

    Click to access neuro-comment.pdf

    به این نام:
    Promise and Pitfalls of Extending Google’s PageRank Algorithm to Citation Networks
    با تشکر

    لایک

  5. سلام. اگر یکوقت مقاله ای خواستید بگویید توانستم کمک می کنم
    ———————————————-
    بامدادی: ممنون دوست خوب. اگر موردی بود مزاحمتون خواهم شد.

    لایک

برای سولوژن پاسخی بگذارید لغو پاسخ