لینک‌های روز (30-06-2008)


مشترک خوراک بامدادی شوید
کامل
فقط مطالب
فقط لینکدونی

دانش بدون نظریه

به یک مقاله جالب برخوردم به نام «روش علمی گوگل». اول به نظرم رسید درباره‌ی گوگل است و اتفاقا چند مثال هم از گوگل دارد، ولی به کمک مثال‌ها به مفهومی فراتر از گوگل می‌رسد که بسیار جالب و خواندنی است.

قسمت‌هایی از آن‌را ترجمه‌ی آزاد کردم ولی اگر به موضوع علاقه‌مند شدید اصل آن را از دست ندهید که مفصل‌تر است.

گروهی بر این باورند که با ظهور بانک‌های اطلاعاتی خیلی خیلی بزرگ، شیوه‌ی یادگیری ما (به عنوان نوع انسان) کاملا دگرگون می‌شود. روش علمی کلاسیک بر اساس ساخت فرضیه و مدلی که رویدادهای تجربی را توصیف کند، پایه‌گذاری شده است. اما ما اکنون به اندازه‌ی کافی داده از مشاهداتمان داریم که بتوانیم بدون این‌که مدل یا فرضیه‌ای داشته باشیم، رویدادها یا مشاهدات بعدی را پیش‌بینی کنیم (کاری که علم انجام می‌دهد: قدرت پیش‌بینی).

غلط‌گیر املایی گوگل

وقتی در گوگل جستجو می‌کنید گوگل غلط‌های املایی‌ شما را در نوشتن کلیدواژه‌ها اصلاح می‌کند و به شما پیشنهاداتی می‌دهد. گوگل برای این‌کار از هیچ تئوری یا مدلی که قوانین درست نوشتن را شرح دهد استفاده نمی‌کند. به جای آن، گوگل روی مجموعه‌ی بزرگی از داده کار می‌کند که متشکل از عبارت‌هایی مانند این است:‌ «x نفر به این سئوال که آیا منظورتان y بود پاسخ بله داده‌اند» استفاده می‌کند. این الگورتیم هیچ تصوری از املای صحیح لغت‌ها در زبان انگلیسی ندارد و فقط به آمار مراجعه می‌کند و می‌تواند غلط‌های املایی را در همه‌ی زبان‌ها اصلاح کند (به شرطی که داده‌ به اندازه‌ی کافی به آن زبان وجود داشته باشد).

ابزار ترجمه‌‌ی گوگل

گوگل از فلسفه‌ی مشابهی برای ترجمه‌ از یک زبان به زبان دیگر استفاده می‌کند. ابزار ترجمه‌ی گوگل می‌تواند متن‌های آلمانی را به چینی یا انگلیسی را به فرانسوی ترجمه کند و این‌کار را با تطبیق‌دهی «عبارت شما» با مجموعه‌ها‌ی عظیم ترجمه‌هایی که توسط انسان انجام شده انجام می‌دهد. برای نمونه، گوگل موتور ترجمه‌ی انگلیسی/فرانسوی خود را با تغذیه‌ی متن‌های کانادایی که معمولا دوزبانه هستند تربیت کرده است. گوگلی‌ها برای این‌کار از هیچ تئوری نحوی زبانی یا الگوریتم هوش مصنوعی استفاده نکرده‌اند. آن‌ها فقط میلیاردها «نکته» و «لینک» دارند که می‌گوید «این آن است» یا به عبارتی «این» در زبان اول «آن» در زبان دوم است. آقای پیتر نورویگ رئیس بخش تحقیقات گوگل با اشاره‌ی پنهان به تجربه‌ی فکری اتاق چینی در نظریه‌ی هوش مصنوعی می‌گوید:

هیچ‌یک از اعضای تیمی که روی موتور ترجمه‌ی چینی گوگل کار می‌کردند، چینی صحبت نمی‌کرد.

دانش بدون نظریه

اگر می‌شود بدون دانستن حتی یک کلمه انگلیسی، غلط‌های املایی عبارت‌های نوشته شده‌ی انگلیسی را گرفت، یا اگر می‌شود بدون دانستن حتی یک کلمه چینی، متون انگلیسی را به چینی ترجمه کرد، سئوالی که مطرح می‌شود این است که دیگر چه چیزهایی را می‌توان بدون داشتن فرضیه یا مدل دریافت؟

آقای کریس‌آندرسن در وایرد (Wired) می‌نویسد:

به کمک ریاضیات کاربردی و با داشتن میزان به اندازه‌ی کافی بزرگ داده (data) از رفتار انسان‌های مختلف، می‌توانیم با دقت کافی رفتار آدم‌ها را پیش‌بینی کنیم. کسی چه می‌داند چرا افراد این‌گونه رفتار می‌کنند، مهم این است که این‌کارها را می‌کنند و ما می‌توانیم آن‌را پیش‌بینی کنیم (معادل این‌که بگوییم: برای چه کسی مهم است که من چینی نمی‌دانم یا می‌دانم، مهم این است که من به اندازه‌ی کافی داده دارم که حدس بزنم ترجمه‌ی این عبارت به چینی چه می‌شود).

پتابایت‌های (هزاران ترابایت) داده کافی هستند که بگوییم هبستگی (correlation) ‌کافی است. می‌توانیم به کمک الگوریتم‌های آماری و محاسبه‌ی خوشه‌ای (cluster computing)، حجم بسیار بزرگی از داده را تحلیل کنیم و نتایج کاربردی و مفید بگیریم، بدون این‌که فرضیه‌ای داشته باشیم که به ما بگوید این‌ها چه معنایی دارند.

دانشمندان علوم مختلف مانند اخترشناسی، فیزیک، ژنتیک، زبان‌شناسی و زمین‌شناسی در حال گردآوری و تولید پیوسته‌ی داده هستند که حجم آن امروز به پتابایت‌ها می‌رسد و در کمتر از یک دهه‌ی دیگر به سطح اکسابایت (exabyte = 1000 petabyte) خواهد رسید. به کمک روش‌های «یادگیری ماشین» (Machine Learning) ماشین‌ها می‌توانند از این دریای اطلاعات الگوهایی استخراج کنند که هیچ انسانی هرگز نمی‌تواند کشف کند. این‌ها الگوهای هبستگی هستند و ممکن است سببی (Causative) باشند یا نباشند،‌ اما به کمک آن‌ها می‌توانیم چیزهای جدید یاد بگیریم. بنابراین آن‌ها کاری را که علم انجام می‌دهد انجام می‌دهند؛ اگرچه نه به شیوه‌ی سنتی.

همیشه اگر همبستگی به اندازه‌ی کافی باشد قابل قبول است. بخش بزرگی از علم پزشکی این‌گونه پیشرفت کرده. پزشک شاید نداند علت اصلی بروز خیلی از بیماری‌ها چیست، اما می‌تواند نشانه‌های آن را تشخیص دهد و مسیر بیماری را پیش‌بینی کند. در واقع مدل درمانی او بر اساس همبستگی تعداد زیادی بیماری با خصوصیات مشابه شکل گرفته است.

نکته‌ی مهم این است که این روش در حال ظهور به یک ابزار جدید در «روش علمی» تبدیل می‌شود و قرار نیست جای‌گزین آن شود.

در همین‌رابطه:


مشترک خوراک بامدادی شوید
کامل
فقط مطالب
فقط لینکدونی

لینک‌های روز (29-06-2008)


مشترک خوراک بامدادی شوید
کامل
فقط مطالب
فقط لینکدونی

با خوراک‌هایتان چت کنید

سایت IMFeeds خوراک‌های شما را به صورت پیام به سرویس چت شما ارسال می‌کند (خبر این‌جا). این برای کسانی خوب است که می‌خواهند به صورت لحظه‌ به لحظه در صحنه‌ی وب و مطالب تولید شده در آن حضور داشته باشند.  شیوه‌ی ثبت‌نام در آن هم منحصر به فرد و جالب است. ثبت‌نام از طریق خود سرویس چت شما انجام می‌شود!

نکته: با این روش قبل از گوگل‌ریدر از خوراک‌های به روز شده با خبر می‌شوید.

1. اگر از یاهومسنجر استفاده می‌کنید imfeeds را به فهرست دوستان خود اضافه کنید. در مورد گوگل‌تاک هم imfeeds@gmail.com را به دوستان خود اضافه کنید. (فهرست کامل این‌جا)

2. توی سرویس چت تایپ کنید join.

بالافاصله به شما لینکی می‌دهد که با کلیک روی آن می‌توانید حساب خود را ایجاد کنید:

3. بعد از تشکیل حساب، تنها کاری که می‌ماند معرفی خوراک‌هایی است که دوست دارید به شما ارسال شود. این‌کار را هم از طریق سایت خودش می‌توانید انجام دهید، هم به روش ساده‌تر زیر:


مشترک خوراک بامدادی شوید
کامل
فقط مطالب
فقط لینکدونی

گفتگوی زیبایی که خاموش می‌شود

توییتر را دوست دارم، جمله‌هایی که باید در 140 حرف جایشان داد و به سرعت برای دوستانی که تو رو دنبال می‌کنند منتشر می‌شود و پاسخ‌هایی که به همان شیوه‌ی خلاصه‌گویی به تو می‌دهند. زیبایی توییتر در سادگی و کاربردی بودنش است و در قدرت «لحظه‌نگاریش» که در همان لحظه هم پاسخ می‌گیری. یک گفتگوی چند جانبه‌ی لحظه‌ای که پیوسته ادامه دارد: در هر لحظه در سراسر جهان؛ هزاران نفر توییت می‌کنند. اما شواهد نشان می‌دهد که این گفتگوی زیبا محکوم به خاموشی است. توییتر اهداف جاه‌طلبانه‌ای دارد ولی به خاطر دست‌کم گرفتن پیچیدگی کار محکوم به خاموشی است؛ دست‌کم اگر در رویه‌‌ی فعلی‌اش تغییر اساسی ایجاد نکند.

دشواری‌ توییتر چیست؟

سرورهای توییتر پاسخ‌گوی تعداد روزافزون کاربران «توییت‌کن» نیستند. روزی (و اخیرا ساعتی) نمی‌گذرد که دچار اختلال نشوند و زیر بار انبوه پیام‌ها کمر خم نکنند. مشکل اصلی توییتر را اگر بخواهم در یک جمله خلاصه کنم می‌شود:

پیام‌رسانی گروهی (Group Messaging) در مقیاس بزرگ کار بسیار پیچیده‌ای است.

توییتر یک سیستم پیام‌رسان بزرگ است (این‌جا را ببینید). هر پیامی که می‌نویسید به تعداد مشخصی کاربر به طور همزمان ارسال می‌شود. پاسخ‌های هر کدام از آن‌ها هم به همه‌ی کسانی که آن‌ها را فالو می‌کنند ارسال می‌شود. ارسال (و دریافت) تعداد زیادی پیام برای تعداد زیادی کاربر کار ساده‌ای نیست. در واقع اصلا گول ظاهر ساده‌ی توییتر را نخورید: کاری که توییتر انجام می‌دهد بسیار پیچیده و سنگین است.

عده‌ای اعتقاد دارند، به ازای هر کاربری که در توییتر اضافه می‌شود، حجم عملیات محاسباتی لازم  به صورت نمایی (Exponential) افزایش می‌یابد. وضعیتی که رویارویی با آن دست‌کم با معماری فعلی توییتر به مرزهای «غیر ممکن» نزدیک شده است.

شبکه‌های اجتماعی هم مشکل مشابهی دارند؛ ولی معمولا با پیچیدگی کمتر، چرا که بیشتر پیام‌های کاربران به یک کاربر خاص ارسال می‌شود، برخلاف توییتر که در آن همه‌ی پیام‌ها برای همه‌ی مخاطبان یک کاربر یا یک گروه از پیش تعریف شده ارسال می‌شود. با این‌حال شبکه‌های اجتماعی هم سال‌ها دست به گریبان حل مشکل پیام‌رسانی گروهی بودند. راه‌حل برخورد با مساله‌ای چنین پیچیده، باید نوآورانه و متناسب با مقیاس کار باشد. کاری که مثلا گوگل در برخوردش با حجم عظیم اطلاعات و پردازش لحظه‌ای انجام داد.

هیچ‌ ارزانی‌ای بی‌حکمت نیست

توییتر از چارچوب «روبی روی ریل» (RubyOnRails) استفاده می‌کند که اگر چه برای محصولات شبکه‌ای با تعداد کاربران محدود یا پیچیدگی کمتر مناسب است، احتمالا برای نرم‌افزار سنگین و پرمحاسبه‌ای مانند توییتر انتخاب بهینه‌ای نبوده است. «روبی روی ریل» به طراحان توییتر اجازه داد که محصول خود را خیلی زود و ارزان به بازار عرضه کنند، اما برای کاری در این مقیاس نمی‌تواند با معماری‌های مبتنی بر جاوا یا C رقابت کند. سرنوشت توییتر به ما یادآوری می‌کند که «هیچ ارزانی‌ای بی‌حکمت نیست».

چند روزی است که برای حل موقتی مشکل، تیم فنی توییتر سرویس پاسخ (Reply) را خاموش می‌کنند. این یک اشتباه بزرگ است و نه تنها راه حل نیست،‌ بلکه کاربران را از توییتر به رقیب قدرتمند و تازه‌نفس‌اش فرندفید می‌راند. حل مشکل توییتر راه‌کار اساسی می‌طلبد.

توییتر محبوب‌ترین سرویس میکروبلاگینگ یا لحظه‌نگاری است. اما برای این‌که زنده بماند باید معماری خود را به طور زیربنایی عوض کند و برای این‌کار به مدیریت جذب سرمایه نیاز دارد. در بازار پر رقابت امروز، اگر توییتر نجنبد، چندی نخواهد گذشت که برای همیشه خاموش خواهد شد.

با استفاده از: {1}، {2}، {3}

پی‌نوشت:

درباره‌ی بحث این‌که مشکل توییتر به چارچوب روبی‌روی‌ریل برمی‌گردد یا خیر این مطالب را ببینید: {4}، {5}، {6}


مشترک خوراک بامدادی شوید
کامل
فقط مطالب
فقط لینکدونی

لینک‌های روز (28-06-2008)


مشترک خوراک بامدادی شوید
کامل
فقط مطالب
فقط لینکدونی