راز قطعی جهانی اینترنت فاش شد؛ کلودفلر سرانجام توضیح داد چه چیزی باعث سقوط همگانی اتصال شد
راز قطعی جهانی اینترنت فاش شد؛ کلودفلر سرانجام مقصر اصلی را معرفی کرد
مقدمه: وقتی جهان برای چند ساعت خاموش شد
روز شانزدهم نوامبر ۲۰۲۵، میلیونها کاربر در سراسر جهان با پدیدهای شوکآور روبهرو شدند؛ اینترنت، همان شریان حیاتی اقتصاد، آموزش و ارتباطات مدرن، برای چند ساعت از کار افتاد. دسترسی به پلتفرمهایی همچون ایکس (توییتر سابق)، چتجیپیتی، اسپاتیفای و حتی وبسایتهای خبری معتبر متوقف شده بود. دامنهی بحران آنقدر گسترده بود که حتی خودِ سرویس «Downdetector» – مرجع جهانی گزارش خرابی سرویسها – نیز از دسترس خارج شد.
علت این اختلال سراسری، در هستهی یکی از مهمترین شرکتهای زیربنایی اینترنت یعنی Cloudflare نهفته بود؛ شرکتی که نزدیک به ۲۰ درصد از ترافیک کل اینترنت از زیرساخت آن عبور میکند. اما چه عاملی باعث شد ستون فقرات وب جهانی فروبپاشد؟ آیا پای یک حملهی سایبری عظیم در میان بود؟
این سند به بررسی دقیق دلایل فنی، پیامدهای جهانی و درسهایی میپردازد که از این قطعی بیسابقه حاصل شد.
بخش اول: شایعه، هراس و موج تحلیلهای بیپایه
در دقایق نخست بروز اختلال، شایعات در شبکههای اجتماعی بهسرعت گسترش یافتند. بسیاری از کاربران تصور کردند اینترنت جهانی مورد حملهی سایبری گسترده قرار گرفته است؛ موجی از نظریهها پیرامون هکرها، دولتها، یا حتی هوش مصنوعی سرکش در تمام شبکههای اجتماعی منتشر شد.
با توجه به سابقهی حملات DDoS در سالهای گذشته و همزمانی قطعی سرویسهای متنوع در سراسر جهان، احتمال حمله سایبری در نگاه نخست قابل قبول به نظر میرسید. برخی رسانههای فناوری حتی تیتر زدند: «جهان در آستانهی خاموشی دیجیتال». اما چند ساعت بعد، مدیرعامل کلودفلر با بیانیهای رسمی ورق را برگرداند. گمانهزنیها دربارهی هک شدن سرورها یا حملات پیچیدهی سایبری، در سایهی یک خطای انسانی سادهتر، رنگ باخت.
بخش دوم: واکنش سریع متیو پرینس و طرد فرضیهی حمله سایبری
«متیو پرینس»، همبنیانگذار و مدیرعامل Cloudflare، در پست وبلاگی رسمی خود در همان روز، به شایعات پایان داد. او نوشت: «هیچ نشانهای از حملهی خارجی مشاهده نشده است. اختلال اخیر حاصل یک خطای داخلی پیشبینینشده در زیرسیستم مدیریت داده کلودفلر بود.»
در واقع، مهندسان Cloudflare بهسرعت دریافتند که منشا بحران نه در تهدیدات بیرونی، بلکه در تغییر کوچکی در یکی از سامانههای زیرساختی بوده که اثر زنجیرهای و غیرقابلکنترل ایجاد کرده است. این تغییر مربوط به سیستم مجوزهای پایگاه داده ClickHouse بود؛ سیستمی که وظیفهی پردازش و اجرای کوئریهای عظیم در سرویسها و محصولات امنیتی کلودفلر را بر عهده دارد.
این بیانیهی اولیه تأکید داشت که کلودفلر تحت حمله نبوده، بلکه ضعف در فرآیند کنترل تغییرات (Change Management) عامل اصلی بوده است.
بخش سوم: خطای مهندسی در قلب ClickHouse
برای درک بهتر ماجرا، باید دانست ClickHouse به عنوان یک «پایگاه داده ستونی با کارایی بالا» (Column-Oriented High-Performance Database)، در سرویسهای پردازش ترافیک و تحلیل رفتار رباتها نقش کلیدی دارد. Cloudflare از این پایگاه داده جهت مدیریت ماژول Bot Management استفاده میکند؛ ابزاری که میلیونها درخواست را در هر ثانیه تحلیل میکند تا میان کاربران انسانی و رباتها تمایز قائل شود.
در جریان یک بهروزرسانی عادی، تیم فنی کلودفلر تغییری در سطح دسترسی برخی کوئریها در ClickHouse اعمال کرد. تصور بر این بود که این تغییر در جهت افزایش کارایی و امنیت است، اما این پیکربندی جدید باعث تولید فایلهای تنظیمات عظیمی با میلیونها ردیف تکراری شد. مدل یادگیری ماشینی درگیر در این سیستم تصور کرد دادهها معتبرند و در نتیجه حجم داده تولیدی چندصد برابر حد معمول شد.
فرآیند تولید فایل پیکربندی به شرح زیر پیش رفت:
- اعمال تغییر: یک تغییر کوچک در سطح دسترسی کوئریهای دیتابیس اعمال شد.
- تولید بازخوردی: مدل یادگیری ماشین مرتبط با مدیریت ربات، پاسخ این کوئری جدید را بهعنوان ورودی معتبر برای تنظیمات جدید پذیرفت.
- تولید انبوه داده: این ورودی معتبر، منجر به تولید مکرر پارامترهای پیکربندی شد که باید در فایل اصلی ذخیره میشدند.
- اشباع حافظه: در یک بازه زمانی بسیار کوتاه (چند دقیقه)، حجم فایل پیکربندی به حجمی رسید که از ظرفیت تخصیصیافتهی حافظهی موقتی (Buffer Memory) فراتر رفت.
در نتیجه، فایل پیکربندی اصلی برای Bot Management بهطور ناگهانی از کنترل خارج شد و شروع به پرکردن حافظهی در دسترس سرورها کرد. حافظههای موقتی (Buffer memory) یکی پس از دیگری اشباع شدند و در نهایت سیستمهای پراکسی (Proxy Systems) که وظیفه هدایت ترافیک ورودی به سمت سرویسهای اصلی یا دیوارههای آتش را دارند، از کار افتادند.
بخش چهارم: وقتی دفاع به حمله تبدیل میشود
نکتهی جالب و البته نگرانکننده این بود که سیستم امنیتی Cloudflare با مشاهدهی افزایش غیرعادی و ناگهانی دادهها (ناشی از همان فایل پیکربندی معیوب) در حافظه، آن را نشانهی فعالیت مشکوک تلقی کرد. در نتیجه، دیوار دفاعی به اشتباه فعال شد و شروع به مسدودسازی ترافیک عادی کاربران کرد. این فرآیند همانند «خودایمنی دیجیتال» عمل کرد: سیستمی که باید از شبکه محافظت کند، خود به عامل اختلال تبدیل شد.
برای کاربرانی که از تنظیمات سختگیرانه در بخش شناسایی باتها استفاده میکردند، این خودتحریمی دیجیتال شدیدتر ظاهر شد؛ زیرا سیستم تصور کرده بود موجی از رباتها در حال حمله هستند. این الگوریتم دفاعی غیرارادی باعث شد که ترافیک سالم کاربران بهجای رسیدن به سرویسهای هدف، با خطای ۵۰۲ (Bad Gateway) یا ۵۰۳ (Service Unavailable) مواجه شوند.
نتیجه؟ قطع جهانی ارتباط حتی در مناطقی که سرورهای Cloudflare حضور مستقیم نداشتند، زیرا ترافیک این مناطق نیز برای تأیید هویت یا مسیریابی به زیرساختهای اصلی Cloudflare وابسته بود.
بخش پنجم: ابعاد جهانی ماجرا و اولین برآورد خسارت
بر اساس دادههای جمعآوریشده توسط NetBlocks و Cloudflare Radar، اختلال حدود چهار ساعت به طول انجامید و نزدیک به ۶۰ درصد ترافیک HTTP در جهان برای مدتی مختل یا کند شد. کشورهای 🇺🇸 آمریکا، 🇩🇪 آلمان، 🇬🇧 بریتانیا و 🇯🇵 ژاپن بیشترین تأثیر را تجربه کردند. در برخی نقاط آسیا، پهنای باند تا ۹۰٪ کاهش یافت.
دهها کسبوکار آنلاین، از جمله شرکتهای پرداخت اینترنتی و پلتفرمهای بازی آنلاین، متحمل خسارات سنگینی شدند. مطالعهی اولیه Cloudflare نشان میدهد که تنها سرویسهای وابسته به APIهای این شرکت در آن بازه زمانی، مجموعاً ۱.۳ میلیارد دلار زیان مستقیم و غیرمستقیم را تجربه کردهاند.
نمونهای از اختلال در سرویسهای کلیدی:
- خدمات توسعهدهندگان: GitHub و GitLab گزارش دادند که عملیات Push و Pull کدهای جدید برای مدتی ناممکن شد.
- خدمات ابری: بسیاری از سرویسهایی که زیرساختهای اصلی خود را روی AWS یا Azure داشتند، به دلیل وابستگی به فایروالها و CDN کلودفلر، دچار مشکل شدند.
- خدمات هوش مصنوعی: دسترسی به API مدلهای بزرگ زبانی بهشدت کاهش یافت.
بخش ششم: نقش هوش مصنوعی در بحران (یا نبود آن)
متیو پرینس در پاسخ به فرضیههایی مبنی بر نقش هوش مصنوعی در این اختلال گفت: «برخلاف شایعات، هیچ یک از مدلهای مولد (Generative AI) یا Agentهای مبتنی بر هوش مصنوعی در این خرابی نقش نداشتند. با این حال، بخشی از زیرسیستمهایی که برای مدیریت ترافیک خزندههای هوش مصنوعی به کار میروند، تحت تأثیر قرار گرفتند.»
این جمله به معنای آن است که هرچند هوش مصنوعی مقصر مستقیم نبود، اما زیرساخت مقابله با Crawlerهای خودآموز مدلهای زبانی نظیر ChatGPT و Gemini به دلیل تکیه بر همان ماژول Bot Management از کار افتاد. در نتیجه، برخی از سرویسهای مرور خودکار داده نیز با توقف کامل روبهرو شدند. این خود نشان میدهد که سیستمهای امنیتی نسل جدید، بهشدت به سلامت زیرساختهای سنتی وابسته هستند.
بخش هفتم: واکنشها و پاسخ رسانهها
تا عصر همان روز، رسانههای بزرگ تکنولوژی ازجمله TechCrunch، The Verge و Wired به بازتاب توضیحات Cloudflare پرداختند. همه متفقالقول بودند که اشتباهی به این وسعت، نشاندهندهی شکنندگی اینترنت مدرن است. در واقع، تنها یک تغییر در سطح میکروسکوپی کد میتواند به فروپاشی موقت شبکهای جهانی منجر شود.
کارشناسان امنیت سایبری این رخداد را «نمونهای از شکست در مقیاس سیستمیک» توصیف کردند؛ وضعیتی که در آن یک نقطه شکست، صدها میلیون سیستم را فلج میکند. به اعتقاد برخی از تحلیلگران، این حادثه باید نقطهی آغاز بازنگری جدی در چگونگی مدیریت داده و بهروزرسانیهای بلادرنگ در شرکتهای بزرگ فناوری باشد.
نکته کلیدی در گزارشدهی رسانهها: تمرکز اصلی از «چه کسی حمله کرد؟» به «چرا ساختار ما اینقدر آسیبپذیر است؟» تغییر کرد.
بخش هشتم: درسهای آموختهشده از فاجعه
پس از گذشت ۲۴ ساعت، Cloudflare گزارشی رسمی در بلاگ مهندسی خود منتشر کرد. در این گزارش، مهندسان، ریشهی دقیق حادثه را توضیح دادند و مجموعهای از اصلاحات ساختاری را اعلام کردند. هدف این بود که از تکرار تولید دادههای انفجاری در سامانههای پیکربندی جلوگیری شود.
اصلاحات ساختاری اعلامشده:
- تعریف محدودیت سختگیرانه: تعریف محدودیت جدید (Hard Limits) برای حجم فایلهای پیکربندی در ClickHouse، بهطوری که هیچ فرآیندی نتواند از حداکثر حجم تعریفشده فراتر رود.
- لایهگذاری تأیید داده: افزودن لایهای افزوده در تأیید اعتبار دادههای تولیدی مدلهای یادگیری ماشین که خروجیهای خود-تولید شده را بهدقت بررسی کند.
- جداسازی مسیرها: جداسازی کامل مسیر پردازش ترافیک بلادرنگ (Real-time Traffic Processing) از مسیر تحلیل دادههای آماری و پیکربندی. این جداسازی اطمینان میدهد که خرابی در بخش آمار، بخش اصلی شبکه را تحت تأثیر قرار ندهد.
- پیشگیری از اشباع: افزودن سامانه هشداردهی پیش از اشباع حافظه (Pre-saturation Alert System) که در صورت رسیدن به ۸۰٪ ظرفیت بافر، بهطور خودکار اجرای فرآیند را متوقف کند.
این تغییرات به گفتهی کارشناسان، از بروز خطاهای مشابه در آینده جلوگیری خواهد کرد. با این حال، حادثهی نوامبر ۲۰۲۵ بهعنوان بدترین قطعی اینترنت از سال ۲۰۱۹ تاکنون در تاریخ دیجیتال ثبت شد.
بخش نهم: واکنش کسبوکارها و کاربران
خشم کاربران از این واقعه در فضای مجازی فوران کرد. هشتگهایی نظیر #InternetDown و #CloudflareCrash ظرف چند ساعت بیش از ده میلیون بار در ایکس به اشتراک گذاشته شد. بسیاری از کاربران از اختلال در فرآیندهای کاری روزانهشان ابراز نارضایتی کردند؛ ازجمله تأخیر در معاملات مالی و اختلال در سرویسهای پشتیبانی مشتریان.
برخی برندهای بزرگ آنلاین با انتشار بیانیههایی رسمی از کاربران خود عذرخواهی کردند؛ ازجمله GitHub، OpenAI و Reddit. این شرکتها اگرچه مقصر مستقیم نبودند، اما به دلیل اتکا به زیرساخت کلودفلر، زیر سؤال رفتند.
کسبوکارهای کوچکتر اما آسیبپذیرتر بودند. اپراتورهای هاستینگ و فروشگاههای اینترنتی محلی بهدلیل قطع سرویس CDN یا تأیید دامنهها برای ساعتها از دسترس خارج شدند. پیامد روانی این رویداد حتی پس از بازگشت سرویسها نیز ادامه داشت؛ بسیاری از کاربران اعتماد خود را به ثبات اینترنت از دست دادند.
بخش دهم: تغییر نگاه به «زیرساخت بهعنوان تکنقطه شکست»
یکی از پیامدهای بزرگ این حادثه، وابستگی غیرقابلانکار اینترنت جهانی به شرکتهایی مانند Cloudflare است. اینترنت به ظاهر جهانی، در واقع تنها با چند ستون اصلی سرپا مانده است: Cloudflare، AWS (Amazon Web Services)، Google Cloud و Akamai. بروز خطا در هرکدام، میتواند نیمی از شبکه را از کار بیندازد.
تحلیلگران فناوری پیشنهاد دادهاند رویکرد «چندزیرساختی (Multi‑Cloud)» بهصورت استاندارد در پیکربندی شبکههای بزرگ مورد استفاده قرار گیرد تا در صورت سقوط یک ستون، دیگری وارد عمل شود. این همان فلسفهی «اینترنت مقاوم» است که از دههی ۱۹۸۰ مطرح شده اما در عمل کمتر رعایت میشود. وابستگی متمرکز به یک ارائهدهنده خدمات امنیتی، در این سناریو به عنوان یک «تکنقطه شکست حیاتی» (Critical Single Point of Failure) شناخته شد.
بخش یازدهم: Cloudflare چگونه از بحران خارج شد؟
بر اساس گزارش فنی منتشرشده، بلافاصله پس از شناسایی خطا، تیم عملیات جهانی Cloudflare به حالت اضطراری وارد شد. پروتکلهای بازیابی اضطراری (Disaster Recovery Protocols) بهسرعت فعال شدند.
مراحل کلیدی بازیابی:
- ایزولهسازی منبع: مهندسان ابتدا ارتباط بین سیستمهای پراکسی و دیتابیس ClickHouse را بهطور کامل قطع کردند تا از تولید مزایدهای دادههای اشتباه بیشتر جلوگیری شود.
- پاکسازی پیکربندی: فایلهای پیکربندی معیوب و تکراری با استفاده از نسخههای پشتیبان (Snapshotهای قدیمیتر که قبل از بهروزرسانی گرفته شده بودند) جایگزین شدند.
- راهاندازی مجدد ماژولها: سرورهای پراکسی و لایه فایروال در مرحلههای جداگانه راهاندازی و تحت بار تستی قرار گرفتند.
- بازگشت ترافیک: پس از تأیید پایداری سیستمهای مرکزی، ترافیک جهانی بهتدریج از طریق سرورهای بازیابی شده هدایت شد.
کل فرآیند بازیابی، کمتر از ۵ ساعت زمان برد. در این میان، پنل وضعیت (Status Page) کلودفلر بهطور مداوم بهروز شد تا کاربران از روند احیای سرویسها باخبر شوند. این شفافیت موجب شد اعتماد عمومی – که در ابتدا بهشدت متزلزل شده بود – تا حدی بازگردد.
بخش دوازدهم: پیامدهای بلندمدت
کارشناسان امنیت سایبری سه پیامد بلندمدت برای این حادثه متصورند که نشاندهندهی تحولات آتی در فضای فناوری است:
- استانداردسازی تستهای ماقبل انتشار پیکربندیها: تأکید بر اجرای شبیهسازیهای حجمی (Volume Simulations) قبل از اعمال هرگونه تغییر در سیستمهای زیرساختی حیاتی.
- سرمایهگذاری بیشتر در هوش مصنوعی ایمنساز: توسعهی سیستمهایی که بتوانند اثرات ناخواسته (Unintended Consequences) کدهای جدید را قبل از اجرا شبیهسازی کرده و خطرات منطقی را شناسایی کنند.
- افزایش نگاه مقرراتگذارانه: دولتها و نهادهای نظارتی بینالمللی بهشدت تمایل خواهند یافت تا برای شرکتهای ارائهدهندهی خدمات پایه اینترنتی (Tier-1 Providers) چارچوبهای سختگیرانهتری تعریف کنند تا از بروز اختلالات سیستمیک جلوگیری شود.
در واقع، پس از این بحران، دولتهای متعددی ازجمله اتحادیه اروپا و ژاپن خواستار تدوین چارچوب نظارتی جدید برای جلوگیری از بروز اختلالات مشابه شدند.
جمعبندی نهایی
حادثهی قطعی بزرگ اینترنت در نوامبر ۲۰۲۵ اثبات کرد که اینترنت جهانی، علیرغم ظاهر قدرتمند و گستردهاش، همچنان ساختاری شکننده دارد. وابستگی بیش از حد به شرکتهایی مانند Cloudflare، نقاط شکست عظیمی میآفریند که تنها یک خطای نرمافزاری میتواند کل شبکه را مختل سازد. این اتفاق زنگ خطری بود برای تمرکز بیش از حد زیرساختها.
با این حال، شفافیت بیسابقهی مدیرعامل کلودفلر در توضیح فنی ماجرا، نقطهی مثبتی در تاریخ ارتباطات دیجیتال محسوب میشود. این شرکت با پذیرش مسئولیت، مسیر بازنگری بنیادین امنیت و پایداری اینترنت را هموار کرد و نشان داد که حتی پیشرفتهترین زیرساختها نیز در برابر خطاهای پیکربندیهای کوچک آسیبپذیرند.
سؤالات متداول (FAQ)
1. آیا در قطعی اخیر اینترنت، حملهی سایبری نقش داشت؟
خیر. کلودفلر صراحتاً اعلام کرد که هیچ شواهدی از حمله DDoS یا نفوذ خارجی وجود نداشته و دلیل بحران، خطای داخلی در سیستم مجوزهای پایگاه داده ClickHouse بوده است.
2. چرا کلودفلر تا این حد روی کارکرد اینترنت جهانی تأثیر دارد؟
زیرا حدود ۲۰٪ از ترافیک وب از شبکهی تحویل محتوای (CDN) و امنیتی کلودفلر عبور میکند. هرگونه اختلال در سرورهای این شرکت میتواند میلیونها وبسایت را بهطور همزمان مختل کند.
3. ClickHouse دقیقاً چه نقشی در این خرابی داشت؟
ClickHouse پایگاه دادهای است که برای ثبت و تحلیل رفتار رباتها در سامانه Bot Management مورد استفاده قرار میگیرد. تغییر مجوزها باعث ایجاد دادههای تکراری در فایل پیکربندی شد که حجم آن از ظرفیت حافظه سرور فراتر رفته و منجر به اشباع حافظه شد.
4. آیا کاربران دادهای از دست دادند؟
خیر، تمام دادههای کاربران در لایههای پشتیبان اصلی محفوظ ماندند و هیچ نشانهای از نشت یا از دست رفتن اطلاعات کاربران گزارش نشده است.
5. آیا هوش مصنوعی در این بحران مقصر بود؟
بهصورت مستقیم خیر. اما برخی زیرسیستمهای مرتبط با پردازش خزندههای هوش مصنوعی به دلیل استفاده از همان زیرساخت دچار اختلال شدند، زیرا سیستم امنیتی، ترافیک ناشی از تغییر پیکربندی را بهعنوان ترافیک نامتعارف (رباتیک) طبقهبندی کرد.
6. کلودفلر چه اقداماتی برای جلوگیری از تکرار انجام داده است؟
تعریف محدودیتهای سختگیرانه بر حجم فایلهای پیکربندی، فیلتر بررسی دادههای خود-تولید شده قبل از انتشار نهایی، جداسازی خطوط پردازش ترافیک بلادرنگ از تحلیلهای آماری، و اضافه کردن سامانه هشداردهی پیشرفته برای حافظه.
7. آیا دولتها میتوانند از بروز چنین حوادثی جلوگیری کنند؟
نقش اصلی برعهدهی بخش خصوصی است، اما دولتها میتوانند با وضع مقررات سختگیرانه پیرامون تست پایداری و استانداردهای امنیتی برای شرکتهای زیرساختی، از بروز اختلالات بزرگ جلوگیری کنند.
8. آیا این حادثه هزینه مالی زیادی داشت؟
بله. طبق برآورد اولیه، حدود ۱.۳ میلیارد دلار خسارت مستقیم و غیرمستقیم به کسبوکارها در سطح جهانی وارد شد.
9. آیا قطعی اینترنت جهانی میتواند دوباره تکرار شود؟
در صورت بروز خطای مشابه در یکی از چند شرکت اصلی زیرساختی (مانند AWS، Google Cloud یا Akamai)، تکرار آن غیرممکن نیست، هرچند تدابیر فنی سختگیرانهتری پس از این حادثه اتخاذ شده است.
10. نقش این اتفاق در آیندهی اینترنت چیست؟
حادثهی کلودفلر هشداری جدی برای بازطراحی معماری اینترنت جهانی بود؛ اینترنتی که باید از وابستگی مطلق به چند ستون کلیدی فاصله بگیرد و به سمت مدل توزیعشدهتر و مقاومتر در برابر شکستهای سیستمیک حرکت کند.