среда, 31 октября 2012 г.

Новый шаблон для Hrefer. WAKWAK.

Давно не писал ничего в блог. Не вижу просто никаких интересных тем, которые бы можно было раскрыть, вроде все уже разжевано а писать просто, чтобы наполнять блог текстом не люблю. Да и времени нету в последнее время свободного. Вобщем, вот так.
А пока, выложу здесь один шаблончик для Хрефера. Выкладывать в паблик жалко, потому что очень быстро кривыми руками убьют возможность парсить с этого поисковика.
Поэтому большая просьба, пользуйтесь им аккуратно и не сливайте повсюду, так будеи всем лучше. Поисковик этот называется WAKWAK.NET. Он японский и выдает по дефолту японскую выдачу, но при правильных запросах отдаст все. :) Выдачу он собирает, чтобы отдать нам, сразу с Бинга и Яху. На одной странице, но в разных столбцах. Мне WAKWAK уже год очень помогает парсить.
[WAKWAK.NET - For profiles aka-yahoo]
Hostname=http://www.wakwak.net
Query=?q=[QUERY]
LinksMask=<li><a[...]href="[LINK]">
TotalPages=20
NextPage=&nbsp;<a href=".[LINK]">
NextPage2=&nbsp;<a href=".[LINK]">

Как добавить это в Хрефер, думаю, объяснять не стоит, но напомню. Просто вставите это в конец файла engines.ini.
Удачи в работе с поисковиком WAKWAK.

5 комментариев:

xuligan комментирует...

спасибо за шаблон, попробуем с удовольствием!

Alexander комментирует...

какую задержку ставишь?
сколько потоков?
используешь прокси?
p.s. благодарю :)

Serge Glazko комментирует...

потоки и задержки - это индивидуальные настройки. если это срабатывает на одной машине, то на другой результат может быть отрицательным.
но могу дать свои данные:
1) пауза между вопросами на одной машине: 2 +/- 20%, на другой 1 +/- 20%
парсинг делей - 2 и 1с соответственно.
2) потоки по разному. обычно ваквак идет в группе с еще 4-5 подобными поисковиками. на всю кучу 200-250 потоков. мне скорость не нужна, я 100500-миллионные базы давно не стремлюсь собирать, я стараюсь запросами собрать по-чище базу, а в этом случае скорости достаточно.
3) использую соксы. с проксями собирает хуже (имхо). по крайней мере за почти 5 лет работы с хрефером у меня сложилось такое мнение.

Kirill Boev комментирует...

а для рушных/укр запросов тоже этот используешь? или обычный гугл с яшкой?

Serge Glazko комментирует...

под ру вообще не работаю. но в чем проблема попробовать и посмотреть, что отдаст этот поисковик по ру запросам? вроде никаких проблем, нормальная выдача. только имейте ввиду, что это выдача Бинга и Яху. Если она вас устраивает, то нет проблем.

Отправить комментарий