воскресенье, 25 августа 2013 г.

Поисковики Таиланда

Таиланд - это не только ценный мех великолепный отдых, но и 3-4 кг возможность работать отдыхая или просто возможность заработать. Возьмем те же поисковики. Гугл, конечно, знает все, но иногда его приходится пытать, чтобы получить нужную информацию. Так вот, вернемся к нашим баранам, точнее Таиланду. Думаю, надежнее получать информацию о тайцах, тайках и прочих сиамцах из таиландских поисковиков. И их таки есть у нас, хоть и не много по сравнению с другими странами. Мне показалось, что достойны внимания только 4 поисковика Таиланда, и то 2 из них - дочки Яху и Гугла, соответственно.
Тайский Гугл можно найти по адресу: http://www.google.co.th/
Тайландский Яху расположен тут: http://th.search.yahoo.com/
Они ничем не отличаются от своих старших собратьев, просто изначально более заточены под поиск таиландской информации. Поэтому сильно распространяться о них не имеет смысла.
Куда более интересны чисто тайские поисковые системы. Как я уже говорил выше, интересны из них только две (на мой взгляд). Оба эти поисковика используют выдачу Гугла. Это особенно интересно для тех, кто хочет получать информацию от Гугла, но Гугл не хочет своей информацией делиться. Вобщем, те, кто знает, что такое Хрефер и для чего он используется, могут пополнить свою копилку Гугл-клонов. По-подробнее о них:
Санук, который расположен по адресу http://search.sanook.com/index.php , является хорошим поисковиком, с которым приятно работать ... Хрефером. Очень добрый и не жадный. :) Добротный клон.

Kapook.com กระปุก Logo Второй тайский поисковик - Капук - хоть и использует выдачу Google, но заточить его под Hrefer не получится. Всему виной джава. Если же вы не планируете использовать автомат для сбора информации из поисковика, то KAPOOK вы можете найти здесь: http://search.kapook.com/index.php
Удачного серфинга на просторах таиландских поисковых систем.

среда, 31 октября 2012 г.

Новый шаблон для Hrefer. WAKWAK.

Давно не писал ничего в блог. Не вижу просто никаких интересных тем, которые бы можно было раскрыть, вроде все уже разжевано а писать просто, чтобы наполнять блог текстом не люблю. Да и времени нету в последнее время свободного. Вобщем, вот так.
А пока, выложу здесь один шаблончик для Хрефера. Выкладывать в паблик жалко, потому что очень быстро кривыми руками убьют возможность парсить с этого поисковика.
Поэтому большая просьба, пользуйтесь им аккуратно и не сливайте повсюду, так будеи всем лучше. Поисковик этот называется WAKWAK.NET. Он японский и выдает по дефолту японскую выдачу, но при правильных запросах отдаст все. :) Выдачу он собирает, чтобы отдать нам, сразу с Бинга и Яху. На одной странице, но в разных столбцах. Мне WAKWAK уже год очень помогает парсить.
[WAKWAK.NET - For profiles aka-yahoo]
Hostname=http://www.wakwak.net
Query=?q=[QUERY]
LinksMask=<li><a[...]href="[LINK]">
TotalPages=20
NextPage=&nbsp;<a href=".[LINK]">
NextPage2=&nbsp;<a href=".[LINK]">

Как добавить это в Хрефер, думаю, объяснять не стоит, но напомню. Просто вставите это в конец файла engines.ini.
Удачи в работе с поисковиком WAKWAK.

вторник, 24 апреля 2012 г.

Итоги конкурса на лучшую базу

К сожалению Конкурс на лучшую базу для Хрумера не получился. Читатели не проявили заинтересованность в голосовании. Ну, что ж... Если это не нужно, значит больше лучшую базу выбирать не будет, подумаем со временем о чем-нибудь другом. Может когда-нибудь какой-нибудь другой конкурс заинтересует людей больше. Но в условиях было объявлено,что если не будет сделан выбор читателями, то соберу что-нибудь на свой выбор. Вобщем, можете скачать лучшую базу форумов для Хрумера абсолютно бесплатно. Надеюсь на то, что базу оцените по достоинству и впредь будете активнее. Уверен, что из бесплатного вы 100% ничего лучше не найдете. Да и среди покупных баз абсолютное большинство будет хуже этой базы.
Успехов в работе. Если интересуют какие-то темы, о которых вы бы хотели почитать, спрашивайте в комментах. Будет свободное время, постараюсь на ваши вопросы подробно ответить.
Конкурс закрыт...

вторник, 17 апреля 2012 г.

Урок по Хрумеру номер восемь. Обучение текстовым капчам (+ видео)

Как-то зимой делал видео по обучению Хрумера текстовым капчам, но сюда в блог это видео не выкладывал. Вот попросили сделать к нему пояснения. Подумал, что самое место этому тут. Вобщем, получится урок по обучению Хрумера текстовым капчам с видео и пояснениями.
Пойдем по порядку. Сначала рассмотрим видео про обучение решению математических капч (для просмотра выдерите качество 720р HD):
Вобщем, в Хрумере есть возможность автоматизировать математические операции, чтобы не было нужды прописывать все возможные решения алгебраических выражений. Для этого мы указываем программе опорную фразу и по окончании опорной фразы ставим знак "|". Теперь Хрумер, обнаружив в ХТМЛ-коде обрабатываемой им страницы опорную фразу, будет знать, что впереди его может ждать математическое действие (в дальнейшем мы рассмотрим, что так можно решать не только математические примеры). Место расположения самой алгебраической операции в ХТМЛ-коде обозначается повторным символом "|".
Распишу детально последовательность действий.
1. В процессе обучения вы можете обнаружить, что Хрумер предлагает вам дать ответ на математический вопрос (на видео показываю это с 9-й по 14-ю секунды).
2. Открываем страницу, на которой мы осуществляем обучение программы, в ХТМЛ-коде (на видео показываю это с 15-й по 20-ю секунды).
3. Ищем в ХТМЛ-коде нашу математическую капчу (на видео показываю это с 21-й по 31-ю секунды).
4. Выбираем в  ХТМЛ-коде опорную фразу, к которой будем осуществлять привязку - тут для вас простор фантазии, как это сделать каждый решает сам, я стараюсь делать привязку к достаточно длинной фразе, в видео это "Рэндом Квэсчен", при очень коротких опорных фразах могут быть траблы, набьете руку убедитесь в этом, тут практика нужна (на видео показываю это с 32-й по 40-ю секунды).
5. Составляем информацию для поля "HTML-контекст:": для этого мы вставляем опорную фразу и заменяем непосредственно математическое действие на "|" - это информация вместе с ответом на вопрос в дальнейшем попадет в наш файл textcaptcha.txt (на видео показываю это с 41-й по 53-ю секунды).
6. В поле "Ваш ответ:" формируем ответ на вопрос. Там, где мы обучаем серийным математическим капчам, нужно удалить знак "=" после названия поля в ХТМЛ-коде (на видео показываю это с 54-й по 56-ю секунды).
7. Нажимаем кнопку "Добавить" - этим информация из полей "HTML-контекст:" и "Ваш ответ:" прописывается в textcaptcha.txt, т.е. обучение данной математической капче закончено (на видео показываю это с 57-й по 63-ю секунды).
8. Нажимаем на переход к следующему ресурсу, при этом, если мы сделали все верно, то программа на некоторое время (пока загружается новый ресурс) в поле "Результат (проверка):" выдаст правильный ответ на вопрос, которому мы только что ее обучили (на видео показываю это с 64-й по 71-ю секунды).
9.Смотрим следующий ресурс...
Вроде все просто. Следующие видео не буду так подробно комментировать, думаю, по аналогии можно будет догадаться, если же  будут вопросы, спрашивайте, не стесняйтесь.
Следующее видео - обучение Хрумера вводу слов, типа: введите в следующее поле слово "Привет" без кавычек:
Как и говорил, подробно не буду расписывать, тут все аналогично: смотрим ХТМЛ-код, ищем в коде наш вопрос, выбираем опорную фразу и заменяем нужное слово в HTML-контексте на "|". Теперь, какое бы слово там ни было, Хрумер его введет в данное поле.
Надеюсь, теперь понятно.
Далее видео, если для обучения в поле "HTML-контекст:" программа подбросила ошибочную информацию и данную информацию следует исправить:
Тут вроде все просто. Открываем ХТМЛ-код, находим правильную информацию для контекста и заменяем ей ошибочную, после этого вводим ответ на вопрос.
Если при обучении вы увидели, что Хрумер неправильно отвечает на вопрос, то можно сообщить об этом разработчикам. Для этого есть специальная кнопка, которая вызывает специальную форму. Идея на счет этого великолепная, но уже месяца 3-4 разработчики к сожалению никак не реагируют на письма об ошибках. :)

Поэтому про данную фишку программы рассказывать подробно не буду. Она все-равно пока бесполезная.
Ну, и видео о том, как в некоторых случаях можно обойти мультикапчу. Мультикапчи в основном распространены на форумах на фдижке СМФ, хотя и другие сейчас их активно запускают в работу. И скажу честно, результат работы с мультикапчами Хрумера оставляет желать лучшего. Но, все-таки, посмотрим, что можно сделать вдля улучшения результатов работы:
Так как HTML-контекст на таких форумах сложно соотнести с определенными полями, то можно попробовать искусственно удлинить HTML-контекст, чтобы более однозначно идентифицировать его с тем либо иным полем. Работа это очень непродуктивная, но если уж очень хочется обучить пробиву конкретного форума, то можно и потратить на это время. Но опять-таки хотел бы заметить, что данный "костыль" не будет работать, если в серверной части текстовых капчей есть "кривой" признак или общее правило для данного поля. Тут уже ничего не поможет. Если бы был приоритет своих данных, то можно было бы без проблем решать многие проблемы и более тонко обучать Хрумер регистрации. Не понятно почему, но разработчики категорически против того, чтобы пользователи могли увеличивать процент успешных по своим базам, ведь базы у всех разные, поэтому и приоритет должен быть у пользователя. Но тут есть как есть.
Надеюсь подробно раскрыл вопросы и это поможет кому-нибудь в работе.

П.С. И еще, пока есть время проголосовать за базу, которую бы вы хотели получить в подарок. Не стесняйтесь, а то скачивать скачиваете, а голосовать стесняетесь. :)

четверг, 5 апреля 2012 г.

Конкурс на лучшую базу форумов для Хрумера

Выиграй свою базу форумов
Вчера выложил небольшую русскоязычную базу форумов для бесплатного скачивания. Сегодня смотрю результаты и убеждаюсь, что это интересно пользователям Хрумера и количество скачиваний постоянно растёт. Решил исходя из этого сделать такую акцию для всех пользователей Хрумера и Хрефера. Пишите в коммментах к этому посту, какую бы базу вы хотели чтобы я подготовил и выложил для бесплатного скачивания. Писать в таком виде: язык базы: английский, тематика базы: страховые услуги. Буду собирать для вас ту базу форумов, которая наберет больше всего голосов (но не менее 10) до 20 апреля. Если ни на одну тему не будет подано более 10 голосов, то соберу базу на свой выбор.
Время пошло. Предложи свою базу форумов и выиграй ее.