понедельник, 1 декабря 2008 г.

Урок Второй. Будем фильтровать базу.

Есть мысль внимательнее посмотреть на процесс оптимизации собранной базы.
Хрефер, идущий в комплекте с Хрумером, помог собрать нам по нашим признакам неплохую базу форумов. Но сразу ее пускать в работу нет смысла, будет слишком много "мусора" и даже потенциально небезопасных ресурсов. Что будем с ней делать? Ну, во-первых, я порекомендовал бы собирать список "стоп-слов", выражений, фри-хостов и индексов. Он вам будет помогать и постоянно пополняться. Назовем его, напримр, filter.txt. И начинаем вводить в него:
/products.htm
/productdetail/
/bookmarks.htm
.forumfree.net/
/news.cfm
/links/

и т.д. Немного посмотреть на базу и можно заметить много закономерностей, которые позволят вам сделать определенные выводы. Единственное, что чем больше база, тем легче анлизировать, потому что больше возможностей разглядеть закономерности.
Так вот, первым делом фильтруем нашу базу с помощью файла filter.txt. Это делается просто. И поможет нам в этом инструмент Хрумера: "Фильтр базы ссылок", который расположен в закладке "инструменты". Заполняем следующим образом:

Нажимаем "старт" и в результирующей базе мы получаем то, что мы собрали, но уже без "мусора". Чем больше мы будем работать с базами, тем больше у нас будет становиться файл filter.txt и тем "чище" у нас будет база на выходе. Но это еще не все, а только начало. Дальше будем удалять из базы "шлак" по домену. Ну, во-первых, это .edu, .gov и .mil, выкидывать их будем с помощью инструмента: "Удалить ссылки по зоне домена". Вот так:

Дальше, если нам нужно выкинуть из базы рускоязычные сайты, то продолжнаем фильтровать по доменам: .ru, .ua, .su и .by. Ничего сложного, но в базе могут остаться рускоязычные ресурсы на доменах .net, .com, .info и т.д. Как будем выкидывать их? Здесь нам поможет инструмент "Анализатор базы ссылок". Делаем вот так:

В Базе_mod.txt будут находиться рускоязычные ресурсы (там правда будут сайты и на всяких болгарских языках). Теперь мы при помощи уже знакомого нам инструмента "Фильтр базы ссылок" вычитаем из Базы Базу_mod. Результирующая База_res будет в 99% свободна от русскоязычных форумов. Практически таким же "макаром" можно оставить у себя только рускоязычные форумы.
Далее используем инструмент "Удалить все ссылки по блэк-листу". Просто выбираем его и указываем файл, который нам нужно проверить. На выходе будет файл "чистый" по блэку. Если вы знаете, какие-то адреса, которые шлют абузы, но которых нету в блэк-листе, можно просто добавить их в xblack.txt. Теперь Хрумер будет вычищать и их. Также новых злостных "абузников" постоянно выкладывают в ветке: http://www.botmaster2.ru/tech/index.php?showtopic=80 Можно также дополнять этими адресами свой блэк-лист.
Ну, вот остается отсеять "мертвые" и "глючные" адреса. Использовать будем "Анализатор базы ссылок". В поле "Искать:" зададим ""200 OK". В Базе_mod у нас будут ресурсы, которые можно спамить.
Ну, и на последок проверим базу на повторы. Используем инструмент "Удалить поторные ссылки". Выбираем там нашу Базу и на выходе имеем выборку без повторов.
Все, можно использовать. Пробуйте.
А если же хотете попробовать, но пока нету Хрумера с Хрефером, то вам сюда.

2 комментария:

streetmachine комментирует...

хорошо написал)) зачет) (Verscat)

Ржавый болт комментирует...

Спасибо. Но, вроде бы ничего сложного. :)

Отправить комментарий