تستخدم محرك بحث الذكاء الاصطناعي حيرة الروبوت الشبح والتكتيكات الأخرى للتهرب من توجيهات المواقع الإلكترونية التي لا تدور حولها ، وهو ما قاله Cloudflare يوم الاثنين ، إنه إذا انتهك حقيقي معايير الإنترنت التي كانت موجودة لأكثر من ثلاثة عقود.
في منشور مدونة ، قال باحثو CloudFlare إن الشركة تلقت شكاوى من العملاء الذين لم يسموا الروبوتات التي تجسدها الحيرة من خلال تنفيذ الإعدادات في ملفات Robots.txt الخاصة بمواقعهم ومن خلال جدران الحماية على الويب التي منعت زحفات الحيرة المعلنة. على الرغم من هذه الخطوات ، قال CloudFlare ، استمرت الحيرة في الوصول إلى محتوى المواقع.
قال الباحثون إنهم شرعوا بعد ذلك في اختباره لأنفسهم ووجدوا أنه عندما واجهت زحف الحيرة المعروفة كتلًا من ملفات Robots.txt أو قواعد جدار الحماية ، قاموا بتفتيش المواقع باستخدام روبوت خلسة تبع مجموعة من التكتيكات لإخفاء نشاطها.
> 10،000 مجال وملايين الطلبات
وكتب الباحثون: “لقد استخدم هذا الزاحف غير المعلن عدة برامج IPs غير المدرجة في نطاق IP الرسمي في Perplexity ، وسيتم تدويرها من خلال هذه العناصر المبرمج استجابةً لسياسة Robots.txt التقييدية والكتلة من CloudFlare”. “بالإضافة إلى تدوير IPS ، لاحظنا الطلبات القادمة من ASNs مختلفة في محاولات لزيادة التهرب من كتل موقع الويب. وقد لوحظ هذا النشاط عبر عشرات الآلاف من المجالات وملايين الطلبات يوميًا.”
قدم الباحثون الرسم البياني التالي لتوضيح تدفق التقنية التي يزعمون فيها الحيرة المستخدمة.
إذا كان ذلك صحيحًا ، فإن التهرب يفلت من معايير الإنترنت في مكانه لأكثر من ثلاثة عقود. في عام 1994 ، اقترح المهندس Martijn Koster بروتوكول استبعاد الروبوتات ، والذي وفر تنسيقًا قابل للقراءة للآلة لإبلاغ الزواحف التي لم يُسمح بها في موقع معين. المواقع التي قام المحتوى الخاص بها بتثبيت ملف Robots.txt البسيط في الجزء العلوي من صفحتها الرئيسية. المعيار ، الذي تم ملاحظته على نطاق واسع وتم تأييده منذ ذلك الحين ، أصبح رسميًا معيارًا بموجب فرقة عمل هندسة الإنترنت في عام 2022.