Показаны сообщения с ярлыком форум. Показать все сообщения
Показаны сообщения с ярлыком форум. Показать все сообщения

вторник, 17 апреля 2012 г.

Урок по Хрумеру номер восемь. Обучение текстовым капчам (+ видео)

Как-то зимой делал видео по обучению Хрумера текстовым капчам, но сюда в блог это видео не выкладывал. Вот попросили сделать к нему пояснения. Подумал, что самое место этому тут. Вобщем, получится урок по обучению Хрумера текстовым капчам с видео и пояснениями.
Пойдем по порядку. Сначала рассмотрим видео про обучение решению математических капч (для просмотра выдерите качество 720р HD):
Вобщем, в Хрумере есть возможность автоматизировать математические операции, чтобы не было нужды прописывать все возможные решения алгебраических выражений. Для этого мы указываем программе опорную фразу и по окончании опорной фразы ставим знак "|". Теперь Хрумер, обнаружив в ХТМЛ-коде обрабатываемой им страницы опорную фразу, будет знать, что впереди его может ждать математическое действие (в дальнейшем мы рассмотрим, что так можно решать не только математические примеры). Место расположения самой алгебраической операции в ХТМЛ-коде обозначается повторным символом "|".
Распишу детально последовательность действий.
1. В процессе обучения вы можете обнаружить, что Хрумер предлагает вам дать ответ на математический вопрос (на видео показываю это с 9-й по 14-ю секунды).
2. Открываем страницу, на которой мы осуществляем обучение программы, в ХТМЛ-коде (на видео показываю это с 15-й по 20-ю секунды).
3. Ищем в ХТМЛ-коде нашу математическую капчу (на видео показываю это с 21-й по 31-ю секунды).
4. Выбираем в  ХТМЛ-коде опорную фразу, к которой будем осуществлять привязку - тут для вас простор фантазии, как это сделать каждый решает сам, я стараюсь делать привязку к достаточно длинной фразе, в видео это "Рэндом Квэсчен", при очень коротких опорных фразах могут быть траблы, набьете руку убедитесь в этом, тут практика нужна (на видео показываю это с 32-й по 40-ю секунды).
5. Составляем информацию для поля "HTML-контекст:": для этого мы вставляем опорную фразу и заменяем непосредственно математическое действие на "|" - это информация вместе с ответом на вопрос в дальнейшем попадет в наш файл textcaptcha.txt (на видео показываю это с 41-й по 53-ю секунды).
6. В поле "Ваш ответ:" формируем ответ на вопрос. Там, где мы обучаем серийным математическим капчам, нужно удалить знак "=" после названия поля в ХТМЛ-коде (на видео показываю это с 54-й по 56-ю секунды).
7. Нажимаем кнопку "Добавить" - этим информация из полей "HTML-контекст:" и "Ваш ответ:" прописывается в textcaptcha.txt, т.е. обучение данной математической капче закончено (на видео показываю это с 57-й по 63-ю секунды).
8. Нажимаем на переход к следующему ресурсу, при этом, если мы сделали все верно, то программа на некоторое время (пока загружается новый ресурс) в поле "Результат (проверка):" выдаст правильный ответ на вопрос, которому мы только что ее обучили (на видео показываю это с 64-й по 71-ю секунды).
9.Смотрим следующий ресурс...
Вроде все просто. Следующие видео не буду так подробно комментировать, думаю, по аналогии можно будет догадаться, если же  будут вопросы, спрашивайте, не стесняйтесь.
Следующее видео - обучение Хрумера вводу слов, типа: введите в следующее поле слово "Привет" без кавычек:
Как и говорил, подробно не буду расписывать, тут все аналогично: смотрим ХТМЛ-код, ищем в коде наш вопрос, выбираем опорную фразу и заменяем нужное слово в HTML-контексте на "|". Теперь, какое бы слово там ни было, Хрумер его введет в данное поле.
Надеюсь, теперь понятно.
Далее видео, если для обучения в поле "HTML-контекст:" программа подбросила ошибочную информацию и данную информацию следует исправить:
Тут вроде все просто. Открываем ХТМЛ-код, находим правильную информацию для контекста и заменяем ей ошибочную, после этого вводим ответ на вопрос.
Если при обучении вы увидели, что Хрумер неправильно отвечает на вопрос, то можно сообщить об этом разработчикам. Для этого есть специальная кнопка, которая вызывает специальную форму. Идея на счет этого великолепная, но уже месяца 3-4 разработчики к сожалению никак не реагируют на письма об ошибках. :)

Поэтому про данную фишку программы рассказывать подробно не буду. Она все-равно пока бесполезная.
Ну, и видео о том, как в некоторых случаях можно обойти мультикапчу. Мультикапчи в основном распространены на форумах на фдижке СМФ, хотя и другие сейчас их активно запускают в работу. И скажу честно, результат работы с мультикапчами Хрумера оставляет желать лучшего. Но, все-таки, посмотрим, что можно сделать вдля улучшения результатов работы:
Так как HTML-контекст на таких форумах сложно соотнести с определенными полями, то можно попробовать искусственно удлинить HTML-контекст, чтобы более однозначно идентифицировать его с тем либо иным полем. Работа это очень непродуктивная, но если уж очень хочется обучить пробиву конкретного форума, то можно и потратить на это время. Но опять-таки хотел бы заметить, что данный "костыль" не будет работать, если в серверной части текстовых капчей есть "кривой" признак или общее правило для данного поля. Тут уже ничего не поможет. Если бы был приоритет своих данных, то можно было бы без проблем решать многие проблемы и более тонко обучать Хрумер регистрации. Не понятно почему, но разработчики категорически против того, чтобы пользователи могли увеличивать процент успешных по своим базам, ведь базы у всех разные, поэтому и приоритет должен быть у пользователя. Но тут есть как есть.
Надеюсь подробно раскрыл вопросы и это поможет кому-нибудь в работе.

П.С. И еще, пока есть время проголосовать за базу, которую бы вы хотели получить в подарок. Не стесняйтесь, а то скачивать скачиваете, а голосовать стесняетесь. :)

четверг, 5 апреля 2012 г.

Конкурс на лучшую базу форумов для Хрумера

Выиграй свою базу форумов
Вчера выложил небольшую русскоязычную базу форумов для бесплатного скачивания. Сегодня смотрю результаты и убеждаюсь, что это интересно пользователям Хрумера и количество скачиваний постоянно растёт. Решил исходя из этого сделать такую акцию для всех пользователей Хрумера и Хрефера. Пишите в коммментах к этому посту, какую бы базу вы хотели чтобы я подготовил и выложил для бесплатного скачивания. Писать в таком виде: язык базы: английский, тематика базы: страховые услуги. Буду собирать для вас ту базу форумов, которая наберет больше всего голосов (но не менее 10) до 20 апреля. Если ни на одну тему не будет подано более 10 голосов, то соберу базу на свой выбор.
Время пошло. Предложи свою базу форумов и выиграй ее.

суббота, 31 марта 2012 г.

Урок по Хрумеру номер семь. Создание проекта.

Кажется, ну, что может быть проще, чем создать проект для Хрумера. Но это сейчас. А если попытаться вспомнить то время, когда я только первый раз открыл программу, то вопросы были. И все вроде бы просто и понятно, но начинал заполнять и возникали трудности.
С тех пор ничего не изменилось, новички испытывают проблемы в этом вопросе, как испытывали их прежние новички, и как будут в замешательстве перед составлением первых проектов будущие ньюбы. Да даже и некоторые судя по регистрации "бывалые" пользователи не знают многого о том, как создать проект и как облегчить себе этот процесс.
Вступление закончим на этом и перейдем непосредственно к созданию проекта. Для этого нам понадобится Хрумер, хелп к нему и некоторые текстовые файлы, заранее приготовленные для проектов: города, ключи, текстовики.
Запускаем Хрумер, открываем окно "Отредактировать проект" и приступаем к заполнению.
Название. Ну, тут можно писать что угодно, лишь бы понятно было самому. Я стараюсь использовать цифры и буквы: цифры - дата в виде 20120330, а буквы - тема. Получается такого плана: 20120330-iphone.Очень удобно получается: проекты будут рассортированы в окне Хрумера по дате создания.
Далее я бы нажал на "Автозаполнение". Это поможет автоматически заполнить несущественные поля, остальное заполним вручную.
Окно проекта Хрумера

Пробежимся по полям.
"Ник". Можно оставить сгенерированный автоматом #gennick[OPPPORRORROR] (фишка хрумеровского макроса генник в том, что в нем используется специальный алгоритм, при котором один и тот же набор букв в скобках макроса даст на одном и том же ресурсе один и тот же ник. Это не обычный рандом, а интеллектуальный. Это очень удобно, но и таит для новичков опасности.  Не зная этого нюанса можно иметь проблемы с пробивом: на одном и том же ресурсе мы сможем сделать только одну регистрацию. Поэтому менять набор букв в [...] нужно при каждом новом прогоне). А можно и модернизировать его немного. Например, для нашего проекта это может выглядеть следующим образом: iphone#gennick[OPPPORRORROR,3,4]. Что это нам даст? Ну, во-первых, мы получим в никнэйме "ключевик", что несомненно, плюс, а, во-вторых, мы получаем небольшой рандом к "ключевику", что позволит увеличить процент регистраций. Ведь никто не будет спорить с тем, что на большинстве форумов популярные "ключевики" уже заняты. В итоге при регистрации на форуме никнэймдет выглядеть примерно так: iphoneIlo. Согласитесь вариант вполне приличный. Это вам не бессмысленный набор букв.
"Пароль". Не вижу никаких причин для того, чтобы менять предложенный автоматически пароль. Ну, конечно, если вы привязаны к какому-то паролю, то можете ввести его вручную.
"Настоящее имя". Я бы оставил вариант, который подбрасывает программа. Но при желании можно ввести какое-то имя вручную, либо сохранить перечень имен в файл и через макрос #file_links[C:\work\text\names.txt,1,sp] вытягивать имена из файла для регистраций на форумах.
"Домашняя страница". Поле можно оставлять пустым, если вы планируете сначала нарегистрировать профиля, а потом через некоторое время отредактировать их. В поле можно внести один урл, можно два-три-пять в таком виде: {http://site1.com/|http://www.site2/|...|http://site5.com/} (в этом случае на каждом форуме будет проставляться один из данных урлов), а можно опять-таки использовать макрос #file_links[C:\work\text\urls.txt,1,sp], предварительно заполнив файл urls.txt нужными линками.
"ICQ". Поле не очень существенное и не замечал, чтобы оно как-то влияло на пробив, поэтому оставил бы значение подброшенное автоматически. Но при желании его можно рандомизировать. Оптимальный вариант следующий (чтобы не городить многоэтажных конструкций): #random[1000000..999999999].
"Город" и "Страна". Город подбрасывается автоматически, в зависимости от автоматически подброшенной страны. Можно оставлять как есть, но мне такой вариант не очень нравится. В перечне программы море "левых" стран, которые мне не очень нравятся, плюс такие псевдо-страны, как Антарктида, могут снизить пробив. Вобщем, я сделал таким образом, чтобы в моих проектах всегда выбиралась целевая страна и, соответственно, города из данной страны подбрасывались автоматически. Настраивается это во вкладке "Опции автозаполнения". Выглядит это следующим образом:
Опции автозаполнения
Когда в следующий раз нажмете на кнопку "Автозаполнение", то эти данные будут выставлены автоматически.
"Занятия" и "Увлечения". Малосущественные поля, по-моему. Не заметил, чтобы они влияли на пробив. Я бы оставлял данные сгенерированные автоматически. Но можете заполнить эти поля своими данными.
"Подпись". Очень важное поле. Как и поле "Домашняя страница" его при первом прогоне можно оставить пустым. Но можно и заполнить в формате ББ-кода. Выглядеть это будет примерно так: [url=http://site.com/]#file_links[E:\work\SEO\text\key.txt,1,s][/url]. Ничего сложного.
"Пол". Поле не важное. Но желательно выбрать какой-нибудь пол для профиля. Решать вам.
"Нераспознанное". Я бы оставил пустым, может снизить пробив.
Раздел "Почта". Тут все просто. Можно регистрировать автоматически почты, которые может регистрировать автоматически Хрумер. :) Нужно только выбрать адрес. Если вы хотите использовать свой адрес фри-почты, который не регистрируется автоматически Хрумером, то это тоже возможно. На Селект "Почтовый сервер" в таком случае не обращайте внимания. Он в таком варианте не работает.
Ну, и собственно к проекту перейдем.
"Тема". Вариации использовать обязательно. Как вы их будете создавать - ваше дело. Но я бы порекомендовал использовать макрос #file_links[E:\work\SEO\text\key.txt,1,s]. Где брать "ключевики" рассказывать не буду, каждый сам знает, где их брать. Но можно и Гугл-Адвордс использовать для этого.
"Описание". Я просто дублирую данные из поля "Тема". Но можно и поэкспериментировать.
"Сообщение". Наверное, самое главное поле. Правильно заполнить его очень важно. Здесь без макросов не обойтись. Выглядеть это может следующим образом:
[url=http://site.com/] #file_links[E:\work\SEO\text\key.txt,1,s][/url] [color=color_url]and #file_links[E:\work\SEO\text\key.txt,1,s]. #trans#file_links[E:\work\SEO\text\text.txt,1,s] #file_links[E:\work\SEO\text\key.txt,5,lp]#notrans[/color]
Это один из вариантов, но каждый сам сможет выбрать для себя вариант, который даст именно ему наилучший результат.
Успехов и если будут вопросы - пишите. Если нужно раскрыть какой-нибудь вопрос - тоже пишите, попробую подготовить урок.
Ну, и видео посмотрите (качество видео только 720р поставьте):

суббота, 14 января 2012 г.

Урок шестой. Парсинг кракозябр и иероглифоф

Урок будет небольшим, потому что особо рассказывать в нем нём чем. Все вроде предельно просто. Но у новичков, когда они начинают работать с Хрефером, эти вопросы практически всегда появляются. И задаются они снова и снова. "Как мне спарсить арабские форумы?", "Как собрать форумы на китайском языке?", "Как составить запросы с иероглифами?" и т.д. А ведь все предельно просто. В уроке по сбору баз я уже касался данного вопроса, но вскользь и, думаю, нужно это раскрыть по-подробнее.
Вобщем, все становится возможным, если решить проблему с кодировкой. В этом нам поможет URL Decoder/Encoder. Он превратит иероглифы и прочую арабскую вязь вместе с греческими альфами-тетами-омегами в код урла, понятный тому же гуглу.
Ваши слова:
물고기
햇빛
겨울
보험
정제
для папки Words превратятся в понятные гуглу:
%EB%AC%BC%EA%B3%A0%EA%B8%B0
%0A%ED%96%87%EB%B9%9B
%0A%EA%B2%A8%EC%9A%B8
%0A%EA%BD%83
%0A%EB%B3%B4%ED%97%98
%EC%A0%95%EC%A0%9C
и Хреферу.
В примере я использовал корейский язык. Теперь мы спокойно сможем искать форумы по корейским ключевикам:
http://www.google.com/search?q=%22Powered+by+vBulletin%22+%EC%A0%95%EC%A0%9C
вот, например, на этих вбуллетинах упоминаются таблетки на корейском.
Вобщем, можно свои ключевики перевести на всевозможные языки и собрать форумы на всенх языках только своей тематики. Или ... или просто собрать китайские ресурсы.