Semalt дае парады па барацьбе з ботамі, павукамі і гусеніцамі

Акрамя стварэння зручных URL для пошукавых сістэм , файл .htaccess дазваляе вэб-майстрам блакаваць пэўныя боты для доступу да іх сайта. Адзін са спосабаў блакаваць гэтых робатаў - праз файл robots.txt. Аднак менеджэр поспеху кліентаў Semalt Рос Барбер заяўляе, што бачыў, як некаторыя сканеры ігнаруюць гэты запыт. Адным з лепшых спосабаў з'яўляецца выкарыстанне файла .htaccess, каб не даць ім індэксаваць ваш змест.

Што гэта за боты?

Гэта тып праграмнага забеспячэння, якое выкарыстоўваецца пошукавымі сістэмамі для выдалення новага кантэнту з Інтэрнэту для індэксацыі.

Яны выконваюць наступныя задачы:

  • Наведайце вэб-старонкі, на якіх вы звязаныя
  • Праверце свой HTML код на наяўнасць памылак
  • Яны захоўваюць тыя вэб-старонкі, на якія вы спасылаецеся, і бачыце, якія вэб-старонкі спасылаюцца на ваш кантэнт
  • Яны індэксуюць ваш змест

Аднак некаторыя боты шкодзяць і шукаюць на вашым сайце адрасы электроннай пошты і формы, якія звычайна выкарыстоўваюцца для адпраўкі вам непажаданых паведамленняў ці спаму. Іншыя нават шукаюць прабелы ў бяспецы ў вашым кодзе.

Што трэба для блакавання вэб-сканераў?

Перш чым выкарыстоўваць .htaccess файл, вам трэба праверыць наступныя рэчы:

1. Ваш сайт павінен працаваць на серверы Apache. У наш час нават тыя кампаніі, якія займаюцца хостынгам, напалову прыстойныя ў сваёй працы, даюць вам доступ да патрэбнага файла.

2. Вы павінны мець доступ да сырых часопісаў сервера вашага сайта, каб вы маглі знайсці боты, якія наведваюць вашы вэб-старонкі.

Звярніце ўвагу, што вы не зможаце заблакаваць усе шкодныя боты, калі вы не заблакуеце іх, нават тых, якія вы лічыце карыснымі. Новыя боты з'яўляюцца кожны дзень, і старыя змяняюцца. Самы эфектыўны спосаб - засцерагчы свой код і зрабіць яго ботам цяжка.

Выяўленне робатаў

Ботаў можна ідэнтыфікаваць па IP-адрасе альбо па "Радцы карыстальніка карыстальніка", якую яны адпраўляюць у загалоўкі HTTP. Напрыклад, Google выкарыстоўвае "Googlebot".

Вам можа спатрэбіцца гэты спіс з 302 ботамі, калі ў вас ужо ёсць імя бота, які вы хацелі б захаваць, выкарыстоўваючы .htaccess

Іншы спосаб складаецца ў тым, каб загрузіць усе файлы часопісаў з сервера і адкрыць іх з дапамогай тэкставага рэдактара. Размяшчэнне іх на серверы можа мяняцца ў залежнасці ад канфігурацыі вашага сервера. Калі вы не можаце іх знайсці, звярніцеся за дапамогай да хостынгу.

Калі вы ведаеце, якую старонку наведалі альбо час яе наведвання, прасцей прыйсці з непажаданым ботам. Вы можаце шукаць файл часопіса з гэтымі параметрамі.

Пасля таго, як вы адзначылі, якія боты трэба блакаваць; вы можаце ўключыць іх у файл .htaccess. Звярніце ўвагу, што блакавання бота недастаткова для таго, каб спыніць яго. Ён можа вярнуцца з новым IP ці імем.

Як іх заблакаваць

Загрузіце копію файла .htaccess. Пры неабходнасці зрабіце рэзервовыя копіі.

Спосаб 1: блакаванне IP

Гэты фрагмент кода блакуе бота, выкарыстоўваючы IP-адрас 197.0.0.1

Загад адмаўляць, дазваляць

Забараніць ад 197.0.0.1

Першы радок азначае, што сервер заблакуе ўсе запыты, якія адпавядаюць шаблонам, якія вы вызначылі, і дазволіць усім астатнім.

Другі радок паведамляе серверу выдаваць старонку 403: забаронена

Спосаб 2. Блакіроўка карыстальніцкімі агентамі

Самы просты спосаб - выкарыстоўваць рухавік перапісання Apache

Перапішыце

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

Перапішыце. - [Ж, Л]

Першы радок гарантуе, што модуль перапісаць уключаны. Другі радок - гэта ўмова, да якога распаўсюджваецца правіла. "F" у радку 4 паведамляе серверу вярнуць 403: Забаронена, а "L" - гэта апошняе правіла.

Затым вы загрузіце .htaccess файл на свой сервер і запішыце існуючы. З часам вам трэба будзе абнавіць IP бота. У выпадку, калі вы памыліліся, проста загрузіце рэзервовую копію, якую вы зрабілі.

mass gmail