الگوریتم گوگل در خدمت شناسایی مقاله‌های مهم علمی

اهمیت و ارزش یک مقاله‌ی عملی  را چطور می‌شود به کمک یک الگورتیم ارزیابی کرد؟ اولین راهی که به ذهن می‌رسد این است که تعداد دفعاتی که به آن مقاله در سایر منابع علمی اشاره (استناد) شده را بشماریم. در واقع این روش کلاسیک مدت‌هاست که برای سنجش اعتبار مقاله‌های علمی به کار می‌رود. اما این روش چند اشکال دارد:

  1. همه‌ی ارجاع‌ها ارزش یکسانی ندارند. اگر یک مقاله‌ی مهم به مقاله‌ای ارجاع دهد خیلی فرق می‌کند تا یک مقاله‌ی فرعی نامش را ذکر کند. (مثلا تصور کنید به نام یک دانشمند در این مقاله ارجاع داده شود!)
  2. دانشمندان در حوزه‌های مختلف ارجاع‌هایشان را به شیوه‌های مختلفی می‌دهند. مثلا به طور میانگین به یک مقاله‌ در حوزه‌ی علوم حدود شش بار ارجاع داده می‌شود، در فیزیک سه بار و در ریاضیات حدود یک بار.
  3. به مقاله‌های نوآورانه در حوزه‌های جدید ممکن است زیاد ارجاع داده نشود، چون حوزه‌ای مورد بحث هنوز کوچک است و قرار است در آینده بزرگ شود.
  4. به مقاله‌های خیلی مهم بعد از مدتی دیگر ارجاع داده نمی‌شود، چون به عنوان اصول اساسی وارد کتاب‌های درسی و دانشگاهی می‌شوند.

شیوه‌ی ارجاع دادن مقاله‌ها به یکدیگر تشکیل یک شبکه‌ی پیچیده می‌دهد که بی‌شباهت به شبکه‌ی اینترنت نیست. چند محقق آمده‌اند و الگوریتمی شبیه سیستم رتبه‌بندی گوگل یا پیج‌رنک (PageRank) را برای مقاله‌ها و محققان به کار برده‌اند. بر اساس روش پیج‌رنک صفحه‌ها (یا مقاله‌ها) بر اساس تعداد لینک‌هایی که به آن‌ها داده شده امتیاز بندی می‌شوند و «وزن» لینک‌ها هم در محاسبه‌ها منظور می‌شود. یعنی لینک گرفتن از سایت (مقاله‌) با پیج‌رنک بالاتر امتیاز بیشتری دارد.

الگوریتم تعداد 353,268 مقاله که کل مقاله‌های متنشر شده توسط انجمن فیزیک آمریکا از سال 1893 است را بررسی و 3,110,839 لینک (ارجاع) بین این مقاله‌ها را شناسایی کرد. در مرحله‌ی بعد هم با توجه به امتیازها فهرست مقاله‌های برتر استخراج شد.

برای بخش قابل توجهی از مقاله‌ها، امتیاز کلاسیک مبتنی بر تعداد ارجاعات (citation indices) و امتیاز گوگل‌رنک با هم هم‌خوانی داشت. اما استثناهایی هم پیدا شدند: مقاله‌هایی که با وجود داشتن پیج‌رنک بسیار بالا، در فهرست‌های کلاسیک جایگاه بارزی نداشتند. {+} این مقاله‌ها انگار توسط الگوریتم «کشف» شده بودند.

نگاهی به فهرست ده مقاله‌ی اول هم جالب است. بیشتر مولفان این فهرست جایزه‌ی نوبل برده‌اند، اما چیزی که عجیب‌تر است این که مولف مقاله‌ی اول فهرست نیکلا کابیبو (Nicola Cabibbo) جایزه‌ی نوبل نبرده، در حالی که دو دانشمندی (Makoto Kobayashi and Toshihide Maskawa) که جایزه‌ی نوبل فیزیک 2008 را برده‌اند کارهای تحقیقاتی‌شان به شدت مبتنی بر کارهای تحقیقاتی آقای کابیبو بوده. آیا این نوعی «پیش‌بینی» است؟

pagerankings-graph

البته این روش بی‌عیب هم نیست. محققانی که این روش را بررسی کرده‌اند هشدار داده‌اند که روش‌های جستجوی کلاسیک برای یاقتن مقاله‌های علمی باید کماکان مورد استفاده قرار بگیرد، چون استفاده از روش پیج‌رنک دو خطر دارد:

  1. یک مقاله‌ی معمولی که ممکن است به طور موقت در صدر فهرست پیج‌رنک قرار بگیرد به طور غیرمتناسبی ارجاع کسب خواهد کرد و این تعداد ارجاعات باعث می‌شوند که حتی ارجاعات بیشتری کسب کند و واقعا تبدیل به یک مقاله‌ی خیلی مهم شود (self-fulfilling prophecy).
  2. امکان امتیاز ویژه داده شدن به یک سری مقاله‌های خاص نسبت به بقیه‌ی مقاله‌ها وجود دارد. جای‌گاه‌ها ممکن است فروخته شوند (مشابه لینک‌های حمایت شده در گوگل) یا این‌که به خاطر نوسانات ذاتی الگوریتم ناگهان یک مقاله‌ی معمولی در بالاها ظاهر شود.

از دو ایراد بالا که بگذریم (یعنی حواسمان به آن‌ها باشد) با استفاده از الگوریتمی که مشابه الگوریتم پیج‌رنگ گوگل است، «احتمالا» می‌توان مقاله‌های مهم و یا ارزشمندی که به دلایل مختلف چندان به چشم نیامده‌اند را شناسایی کرد. یا با داده‌کاوی مفصل‌تر روی تعداد بیشتری مقاله و احتمالا تعداد متنوع‌تری حوزه‌ی علمی، شاید بتوان دانشمندان یا ایده‌های در حال ظهور را به سرعت شناسایی کرد، حتی قبل از آن‌که شهرت جهانی بیابند! به قول این وبلاگ‌نویس «الگوریتم گوگل برندگان جایزه‌ی نوبل را پیش‌بینی می‌کند!»

پی‌نوشت: دنبال اصل مقاله‌ گشتم، اما رایگان پیدا نکردم. خوش به حال کسانی که در دانشگاه‌ها دسترسی کامل و رایگان به هر متن علمی که «اراده» کنند دارند.

پی‌نوشت تکمیلی: مقاله را یکی از دوستان برایم فرستاد (با سپاس). یکی دیگر از دوستان پیشنهاد داد که بفرستد (با سپاس) و خودم هم توی اینترنت پیدا کردم (با سپاس از خودم)!

بیست و چهار ساعت چقدر طول می‌کشد

توجه: این یک تحقیق کاملا علمی است که به مدت ده‌سال توسط «من» روی جامعه‌ی آماری متشکل از «خودم» انجام شده و ارزش دیگری ندارد. نتیجه‌ی این تحقیق در دو قسمت منتشر می‌شود.

بیست و چهار ساعت چقدر طول می‌کشد؟

همه می‌دانند که شبانه‌روز 24 ساعت دارد. اما آیا شبانه‌روز 24 ساعت طول می‌کشد؟

شبانه روز 24 ساعت دارد اما لزوما 24 ساعت طول نمی‌کشد. شبانه‌روز گاهی یک ثانیه است، گاهی همان یک شبانه‌روز است، گاهی هم به اندازه‌ی یک سال «طول» می‌کشد.

بعضی شبانه‌روزها فشرده می‌شوند و به تندی یک «ثانیه‌ی عزیز» یا فشردگی یک «قطره‌ی گرم و شور» از ما و بر ما و با ما عبور می‌کنند.

بعضی شبانه‌روزها کش می‌آیند و طولانی می‌شوند. درنگ می‌کنند، گیر می‌کنند،‌ خسته می‌کنند، فرسوده می‌کنند و بعد هم مثل سنگ‌واره‌هایی طاقت‌فرسا در تن و جان آدم رسوب می‌کنند. بعضی شبانه‌روزها ثانیه‌هایشان دقیقه و دقیقه‌هایشان ساعت و ساعت‌هایشان هفته‌ها و سال‌ها طول می‌کشد.

گاهی اوقات، شبانه‌روز مثل یک حلقه‌ی عظیم در خود می‌پیچد و روی خودش جمع می‌شود. صبح روز بعد می‌شود صبح دیروز. ناگهان زمان ادراکی‌ بی‌نهایت بزرگ و بی‌نهایت تکینه می‌شود.

گاهی اوقات، احساس می‌کنم شبانه‌روز، چهل یا پنجاه یا چیزی در همین حدود ساعت است.  عجیب این‌که تک‌تکِ ساعت‌ها تند می‌گذرند و از بس سرم شلوغ است حتی متوجه گذر زمان نمی‌شوم، اما چگالی کار و حادثه‌ چنان بالاست که وقتی روز تمام می‌شود یا دیروزم را مرور می‌کنم، حس می‌کنم هفته‌ها بر من گذشته است.

فکر می‌کنم «طول زمان ادراک شده توسط آدم‌ها» یا دست‌کم «خاطره‌ی آن ادراک» با چگالی رویداد‌ها و حوادثی که برایشان رخ می‌دهد رابطه‌ی مستقیم دارد.

و باور نمی‌کنم این موضوع فقط و فقط یک احساس درونی باشد. اگر ذهن من حس می‌کند یک روزش، چند روز طول کشیده؛ حتما به همین اندازه (یا بیشتر) فشار بر جسم‌ام هم آمده است. بعضی روزها به اندازه‌ی ده‌ها روز جسم را خسته می‌کنند.

در قسمت دوم این تحقیق درباره‌ی اثرات ساعت‌های کاری طولانی بر وبلاگ‌نویسی خواهم نوشت.


مشترک خوراک بامدادی شوید
کامل
فقط مطالب
فقط لینکدونی