دانش بدون نظریه

به یک مقاله جالب برخوردم به نام «روش علمی گوگل». اول به نظرم رسید درباره‌ی گوگل است و اتفاقا چند مثال هم از گوگل دارد، ولی به کمک مثال‌ها به مفهومی فراتر از گوگل می‌رسد که بسیار جالب و خواندنی است.

قسمت‌هایی از آن‌را ترجمه‌ی آزاد کردم ولی اگر به موضوع علاقه‌مند شدید اصل آن را از دست ندهید که مفصل‌تر است.

گروهی بر این باورند که با ظهور بانک‌های اطلاعاتی خیلی خیلی بزرگ، شیوه‌ی یادگیری ما (به عنوان نوع انسان) کاملا دگرگون می‌شود. روش علمی کلاسیک بر اساس ساخت فرضیه و مدلی که رویدادهای تجربی را توصیف کند، پایه‌گذاری شده است. اما ما اکنون به اندازه‌ی کافی داده از مشاهداتمان داریم که بتوانیم بدون این‌که مدل یا فرضیه‌ای داشته باشیم، رویدادها یا مشاهدات بعدی را پیش‌بینی کنیم (کاری که علم انجام می‌دهد: قدرت پیش‌بینی).

غلط‌گیر املایی گوگل

وقتی در گوگل جستجو می‌کنید گوگل غلط‌های املایی‌ شما را در نوشتن کلیدواژه‌ها اصلاح می‌کند و به شما پیشنهاداتی می‌دهد. گوگل برای این‌کار از هیچ تئوری یا مدلی که قوانین درست نوشتن را شرح دهد استفاده نمی‌کند. به جای آن، گوگل روی مجموعه‌ی بزرگی از داده کار می‌کند که متشکل از عبارت‌هایی مانند این است:‌ «x نفر به این سئوال که آیا منظورتان y بود پاسخ بله داده‌اند» استفاده می‌کند. این الگورتیم هیچ تصوری از املای صحیح لغت‌ها در زبان انگلیسی ندارد و فقط به آمار مراجعه می‌کند و می‌تواند غلط‌های املایی را در همه‌ی زبان‌ها اصلاح کند (به شرطی که داده‌ به اندازه‌ی کافی به آن زبان وجود داشته باشد).

ابزار ترجمه‌‌ی گوگل

گوگل از فلسفه‌ی مشابهی برای ترجمه‌ از یک زبان به زبان دیگر استفاده می‌کند. ابزار ترجمه‌ی گوگل می‌تواند متن‌های آلمانی را به چینی یا انگلیسی را به فرانسوی ترجمه کند و این‌کار را با تطبیق‌دهی «عبارت شما» با مجموعه‌ها‌ی عظیم ترجمه‌هایی که توسط انسان انجام شده انجام می‌دهد. برای نمونه، گوگل موتور ترجمه‌ی انگلیسی/فرانسوی خود را با تغذیه‌ی متن‌های کانادایی که معمولا دوزبانه هستند تربیت کرده است. گوگلی‌ها برای این‌کار از هیچ تئوری نحوی زبانی یا الگوریتم هوش مصنوعی استفاده نکرده‌اند. آن‌ها فقط میلیاردها «نکته» و «لینک» دارند که می‌گوید «این آن است» یا به عبارتی «این» در زبان اول «آن» در زبان دوم است. آقای پیتر نورویگ رئیس بخش تحقیقات گوگل با اشاره‌ی پنهان به تجربه‌ی فکری اتاق چینی در نظریه‌ی هوش مصنوعی می‌گوید:

هیچ‌یک از اعضای تیمی که روی موتور ترجمه‌ی چینی گوگل کار می‌کردند، چینی صحبت نمی‌کرد.

دانش بدون نظریه

اگر می‌شود بدون دانستن حتی یک کلمه انگلیسی، غلط‌های املایی عبارت‌های نوشته شده‌ی انگلیسی را گرفت، یا اگر می‌شود بدون دانستن حتی یک کلمه چینی، متون انگلیسی را به چینی ترجمه کرد، سئوالی که مطرح می‌شود این است که دیگر چه چیزهایی را می‌توان بدون داشتن فرضیه یا مدل دریافت؟

آقای کریس‌آندرسن در وایرد (Wired) می‌نویسد:

به کمک ریاضیات کاربردی و با داشتن میزان به اندازه‌ی کافی بزرگ داده (data) از رفتار انسان‌های مختلف، می‌توانیم با دقت کافی رفتار آدم‌ها را پیش‌بینی کنیم. کسی چه می‌داند چرا افراد این‌گونه رفتار می‌کنند، مهم این است که این‌کارها را می‌کنند و ما می‌توانیم آن‌را پیش‌بینی کنیم (معادل این‌که بگوییم: برای چه کسی مهم است که من چینی نمی‌دانم یا می‌دانم، مهم این است که من به اندازه‌ی کافی داده دارم که حدس بزنم ترجمه‌ی این عبارت به چینی چه می‌شود).

پتابایت‌های (هزاران ترابایت) داده کافی هستند که بگوییم هبستگی (correlation) ‌کافی است. می‌توانیم به کمک الگوریتم‌های آماری و محاسبه‌ی خوشه‌ای (cluster computing)، حجم بسیار بزرگی از داده را تحلیل کنیم و نتایج کاربردی و مفید بگیریم، بدون این‌که فرضیه‌ای داشته باشیم که به ما بگوید این‌ها چه معنایی دارند.

دانشمندان علوم مختلف مانند اخترشناسی، فیزیک، ژنتیک، زبان‌شناسی و زمین‌شناسی در حال گردآوری و تولید پیوسته‌ی داده هستند که حجم آن امروز به پتابایت‌ها می‌رسد و در کمتر از یک دهه‌ی دیگر به سطح اکسابایت (exabyte = 1000 petabyte) خواهد رسید. به کمک روش‌های «یادگیری ماشین» (Machine Learning) ماشین‌ها می‌توانند از این دریای اطلاعات الگوهایی استخراج کنند که هیچ انسانی هرگز نمی‌تواند کشف کند. این‌ها الگوهای هبستگی هستند و ممکن است سببی (Causative) باشند یا نباشند،‌ اما به کمک آن‌ها می‌توانیم چیزهای جدید یاد بگیریم. بنابراین آن‌ها کاری را که علم انجام می‌دهد انجام می‌دهند؛ اگرچه نه به شیوه‌ی سنتی.

همیشه اگر همبستگی به اندازه‌ی کافی باشد قابل قبول است. بخش بزرگی از علم پزشکی این‌گونه پیشرفت کرده. پزشک شاید نداند علت اصلی بروز خیلی از بیماری‌ها چیست، اما می‌تواند نشانه‌های آن را تشخیص دهد و مسیر بیماری را پیش‌بینی کند. در واقع مدل درمانی او بر اساس همبستگی تعداد زیادی بیماری با خصوصیات مشابه شکل گرفته است.

نکته‌ی مهم این است که این روش در حال ظهور به یک ابزار جدید در «روش علمی» تبدیل می‌شود و قرار نیست جای‌گزین آن شود.

در همین‌رابطه:


مشترک خوراک بامدادی شوید
کامل
فقط مطالب
فقط لینکدونی
Advertisements

نویسنده: bamdadi

A little man with big dreams.

16 دیدگاه برای «دانش بدون نظریه»

  1. اين نظريه اي كه مطرح كردي سنگ بناي علم هوش مصنوعيه. اگر به تركيب «هوش مصنوعي» (
    Artificial Intelligence ) توجه كني, همين مفهوم رو ميرسونه، ولي مهم اينه كه اين ديتابيس و ايندكس بايد ابتدا توسط يك دانش با نظريه پر بشه. حتي در مورد همون زبان چيني. به هر حال هوش مصنوعي براي من هميشه از جذاب ترين موضوعات علمي بوده.

    دوست داشتن

  2. خیلی جالب بود. یعنی روزی خواهد رسید که انسان هم از این طریق بتواند تحلیل کند؟ چون ما حجم وسیعی از مغزمان را استفاده نمی کنیم و شاید آن حجم عظیم جای چنین اطلاعاتی باشند!

    دوست داشتن

  3. جالب بود فقط توجه داشته باش که مدل استفاده از تئوری حالتهایی را هم که هنوز اتفاق نیفتاده را نیز پیش بینی می‌کند و یا به آنها اعتبار می‌بخشد (مثلا دستور زبان جملاتی که تا به حال کسی نگفته را اعتبار می‌بخشد)

    دوست داشتن

  4. بامدادی‌ی عزیز،
    ممنون از این خلاصه‌ای که قرار دادید.
    چیزی که برای‌ام نگران‌کننده است کنار هم قرار دادن تکه‌هایی است که به هم ربط ندارند. این مقاله ادعاهایی می‌کند که کم و بیش (ولی نه کاملا) درست‌اند، اما وقتی همه‌شان را کنار هم می‌گذارد به نتایج نادقیق‌ای می‌رسد.

    بیاید مهم‌ترین ادعای این مقاله را بررسی کنیم:
    «روش علمی کلاسیک بر اساس ساخت فرضیه و مدلی که رویدادهای تجربی را توصیف کند، پایه‌گذاری شده است. اما ما اکنون به اندازه‌ی کافی داده از مشاهداتمان داریم که بتوانیم بدون این‌که مدل یا فرضیه‌ای داشته باشیم، رویدادها یا مشاهدات بعدی را پیش‌بینی کنیم»

    این حرف صحیح نیست.
    اول از همه چیزی که این مقاله به اسم روش علمی‌ی کلاسیک می‌شناسد نیز نیاز به داده دارد تا میزان صحت‌اش با احتمال‌ای مشخص شود (و نه اثبات شود).
    نکته‌ی دوم این است که بدون فرضیه‌ای اولیه هیچ‌گونه استدلال بعدی‌ای ممکن نیست. حتی اگر بی‌نهایت داده نیز داشته باشیم،‌ بدون داشتن «فرضیه» در مورد پدیده‌ی تولیدکننده‌ی این داده‌ها نمی‌توان پیش‌بینی‌ای انجام داد. این‌که می‌بینیم خیلی وقت‌ها به نظر می‌رسد که چنین فرضیه‌ای وجود ندارد به این دلیل است که این فرضیه را به صورت بارز (explicit) بیان نکرده‌ایم و به جای‌اش فرضیه‌مان به صورت ضمنی (implicit) جایی قرار گرفته است (و گاهی متاسفانه خودِ داده‌کاو نیز از وجود فرضیه ناآگاه است).

    تفاوت تنها در میزان قوت و وزن‌ای است که روی فرضیه‌ی اولیه می‌گذاریم. گاهی این فرضیه بسیار قوی است و داده‌ها تنها قرار است بعضی از ناشناخته‌های آن فرضیه را تبیین کنند،‌ گاهی فرضیه‌ی اولیه حداقلی است و بسیاری از ناشناخته‌ها (اما نه همه چیز) به کمک داده‌ها مشخص می‌شوند.

    دوست داشتن

  5. @صندوقک:
    ترس هم داره. در مورد تکینگی تکنولوژیک و این نظریه که ممکنه انسان از دانش تولید شده توسط محصولات خودش عقب بمونه شاید بنویسم.

    @نگاه:
    به مفهوم هوش مصنوعی مرتبطه، ولی این دو مقوله با هم یکی نیستند. بحث اتاق چینی البته ماهیت هوش رو به شکل بی‌نظیری به پرسش می‌گیره که هنوز که هنوزه پاسخ مناسبی براش پیدا نشده.

    @صادق:
    ظاهرا مسیر به سویی می‌رود که از آن بخش کوچک مغزمان هم کمتر استفاده کنیم!

    دوست داشتن

  6. @شهریار:
    بله درسته، به کمک مدل با داده‌های نسبتا اندک می‌تونیم قدرت پیش‌بینی نسبتا زیادی به دست بیاریم. اما در مواقعی که مدل‌سازی ناممکن یا بسیار پیچیده هست، روش تولید دانش بدون استفاده از مدل می‌تونه کارساز باشه.

    دوست داشتن

  7. @سولوژن:
    اول ممنون از کامنت خوبت.

    قبول دارم که نوشته مبحث هوش مصنوعی و اتاق چینی را به گونه‌ی نه چندان مستدلی به «روش علمی» و «رابطه‌ی بین مدل انتزاعی و تجربه‌ی عینی» ربط داده.

    ولی بیا موضوع را از دید دیگری نگاه کنیم. در واقع اجازه بده برگردیم به اتاق چینی و مثال‌هایی که در خود نوشته آمده از گوگل.
    در این‌جا بحث اصلی این نیست که آیا مدل وجود دارد یا نه، داده وجود دارد یا نه. به نظرم اختلاف اصلی این است که با استفاده از مدل‌های کاملا ریاضی که هیچ ربطی به آن پدیده‌ی تجربی و عینی بیرونی ندارند، بیاییم و رفتار یا خصوصیت‌های آن پدیده‌ را پیش‌بینی کنیم. یعنی مدل ما درباره‌ی آن پدیده نباشد، و صرفا یک مدل انتزاعی باشد.

    اگر من با استفاه از «مدلی نحوی از زبان انگلیسی» و «مجموعه‌ی محدود واج‌ها و واژه‌های یک زبان» شروع به اصلاح عبارت‌های انگلیسی کنم، موضوع فرق می‌کند تا این‌که با استفاده از یک مدل صرفا آماری و با مراجعه به تعدادی بی‌شماری (از نظر فیزیکی بی‌شمار) نمونه‌ از جمله‌های انگلیسی این کار انجام دهم. بدون این‌که مدل من هیچ تصوری از زبان انگلیسی داشته باشد. شاید بشود به نوعی گفت، مدل اول (نحوی) به سوژه‌اش آگاه است‌ ولی در حالت دوم، مدل من به سوژه‌اش آگاه نیست.

    اگر خیلی این موضوع را موشکافی کنیم، در دل آن به همان تجربه‌ی اتاق چینی خواهیم رسید که برایش جوابی هم وجود ندارد. موضوع خیلی پیچیده می‌شود و از حالت عملی خارج و به یک تجربه‌ی ذهنی تبدیل می‌شود که در نوع خود همیشه جالب است.

    دوست داشتن

  8. من تصورم این بود که بحثِ اصلی این است که آیا «دانش بدون نظریه» معنادار است یا نه.
    حال در بحث جدیدی که مطرح کردید این سوال برای‌ام پیش می‌آید: آیا تفاوت تنها در این نیست که انتزاع مدل‌ها گاهی توسط انسان انجام می‌شود و گاهی توسط ماشین؟

    دوست داشتن

  9. @سولوژن:
    به معنای عام حرفت کاملا درسته. به نظر من دانش بدون نظریه بی‌معناست. بالاخره باید یک دستگاه منطقی وجود داشته باشه که بر اساس اون آمار گردآوری بشه.

    این سئوالیه که هنوز بهش پاسخ درستی داده نشده. هوش چیه‌ و چه چیز ما رو از اون کامپیوتر متمایز می‌کنه.

    بحث به نظر من همون میزان انتزاعی بودن مدل هست و همونطور که گفتم اگه موضوع رو خیلی موشکافی کنیم، به بن‌بستی می‌رسیم که اتاق چینی می‌رسه. همیشه در یک سطحی انتزاع وجود داره و مدل از واقعیت فاصله می‌گیره (یعنی دیگه فقط یک ابزار ریاضی می‌شه) حتی تجربی‌ترین مدل‌‌ها.

    دوست داشتن

  10. مقاله فوق ایده طراحی عامل های هوشمنده که درطراحی عامل های هوشمند تمامی ادراکات به پایگاه دانش اضافه می شه و عامل هوشمند برای پیدا کردن عملکرد بهینه ، با استفاده از قوانین منطقی استدلال می کنه.. همونطور که گفتی مدل وجود نداره ولی قوانین بسیار قوی ای برای جستجو طراحی میشه.

    بحثی است بسیار گسترده و شیرین..

    ممنون از یادآوری و تجدید یک سری مطالعات قدیمی ام تو این زمینه از گذشته.

    «بامدادی» تو هر زمینه ای سخن خوب برای خوندن داره!!!
    🙂
    ———————————————————————
    بامدادی: بله، در واقع مدل وجود داره. اما شاید بشه گفت پیچیدگی مدل از پیچیدگی‌ نتایجی که تولید می‌کنه خیلی کمتره..

    دوست داشتن

من همه‌ی کامنت‌های وارده را می‌خوانم. اما ‌لطفا توجه داشته باشید که بنا به برخی ملاحظات شخصی از انتشار و پاسخ دادن به کامنت‌‌هایی که (۱) ادبیات تند، گستاخانه یا بی‌ادبانه داشته باشند، یا (۲) در ارتباط مستقیم با موضوع پستی که ذیل آن نوشته شده‌اند نباشند و یا (۳) به وضوح با نشانی ای‌میل جعلی نوشته شده باشند معذور هستم. در صورتی که مطلبی دارید که دوست دارید با من در میان بگذارید، از صفحه‌ی تماس استفاده کنید. با تشکر از توجه شما به بامدادی.

در پایین مشخصات خود را پر کنید یا برای ورود روی شمایل‌ها کلیک نمایید:

نشان‌وارهٔ وردپرس.کام

شما در حال بیان دیدگاه با حساب کاربری WordPress.com خود هستید. بیرون رفتن / تغییر دادن )

تصویر توییتر

شما در حال بیان دیدگاه با حساب کاربری Twitter خود هستید. بیرون رفتن / تغییر دادن )

عکس فیسبوک

شما در حال بیان دیدگاه با حساب کاربری Facebook خود هستید. بیرون رفتن / تغییر دادن )

عکس گوگل+

شما در حال بیان دیدگاه با حساب کاربری Google+ خود هستید. بیرون رفتن / تغییر دادن )

درحال اتصال به %s