вторник, 17 апреля 2012 г.

Урок по Хрумеру номер восемь. Обучение текстовым капчам (+ видео)

Как-то зимой делал видео по обучению Хрумера текстовым капчам, но сюда в блог это видео не выкладывал. Вот попросили сделать к нему пояснения. Подумал, что самое место этому тут. Вобщем, получится урок по обучению Хрумера текстовым капчам с видео и пояснениями.
Пойдем по порядку. Сначала рассмотрим видео про обучение решению математических капч (для просмотра выдерите качество 720р HD):
Вобщем, в Хрумере есть возможность автоматизировать математические операции, чтобы не было нужды прописывать все возможные решения алгебраических выражений. Для этого мы указываем программе опорную фразу и по окончании опорной фразы ставим знак "|". Теперь Хрумер, обнаружив в ХТМЛ-коде обрабатываемой им страницы опорную фразу, будет знать, что впереди его может ждать математическое действие (в дальнейшем мы рассмотрим, что так можно решать не только математические примеры). Место расположения самой алгебраической операции в ХТМЛ-коде обозначается повторным символом "|".
Распишу детально последовательность действий.
1. В процессе обучения вы можете обнаружить, что Хрумер предлагает вам дать ответ на математический вопрос (на видео показываю это с 9-й по 14-ю секунды).
2. Открываем страницу, на которой мы осуществляем обучение программы, в ХТМЛ-коде (на видео показываю это с 15-й по 20-ю секунды).
3. Ищем в ХТМЛ-коде нашу математическую капчу (на видео показываю это с 21-й по 31-ю секунды).
4. Выбираем в  ХТМЛ-коде опорную фразу, к которой будем осуществлять привязку - тут для вас простор фантазии, как это сделать каждый решает сам, я стараюсь делать привязку к достаточно длинной фразе, в видео это "Рэндом Квэсчен", при очень коротких опорных фразах могут быть траблы, набьете руку убедитесь в этом, тут практика нужна (на видео показываю это с 32-й по 40-ю секунды).
5. Составляем информацию для поля "HTML-контекст:": для этого мы вставляем опорную фразу и заменяем непосредственно математическое действие на "|" - это информация вместе с ответом на вопрос в дальнейшем попадет в наш файл textcaptcha.txt (на видео показываю это с 41-й по 53-ю секунды).
6. В поле "Ваш ответ:" формируем ответ на вопрос. Там, где мы обучаем серийным математическим капчам, нужно удалить знак "=" после названия поля в ХТМЛ-коде (на видео показываю это с 54-й по 56-ю секунды).
7. Нажимаем кнопку "Добавить" - этим информация из полей "HTML-контекст:" и "Ваш ответ:" прописывается в textcaptcha.txt, т.е. обучение данной математической капче закончено (на видео показываю это с 57-й по 63-ю секунды).
8. Нажимаем на переход к следующему ресурсу, при этом, если мы сделали все верно, то программа на некоторое время (пока загружается новый ресурс) в поле "Результат (проверка):" выдаст правильный ответ на вопрос, которому мы только что ее обучили (на видео показываю это с 64-й по 71-ю секунды).
9.Смотрим следующий ресурс...
Вроде все просто. Следующие видео не буду так подробно комментировать, думаю, по аналогии можно будет догадаться, если же  будут вопросы, спрашивайте, не стесняйтесь.
Следующее видео - обучение Хрумера вводу слов, типа: введите в следующее поле слово "Привет" без кавычек:
Как и говорил, подробно не буду расписывать, тут все аналогично: смотрим ХТМЛ-код, ищем в коде наш вопрос, выбираем опорную фразу и заменяем нужное слово в HTML-контексте на "|". Теперь, какое бы слово там ни было, Хрумер его введет в данное поле.
Надеюсь, теперь понятно.
Далее видео, если для обучения в поле "HTML-контекст:" программа подбросила ошибочную информацию и данную информацию следует исправить:
Тут вроде все просто. Открываем ХТМЛ-код, находим правильную информацию для контекста и заменяем ей ошибочную, после этого вводим ответ на вопрос.
Если при обучении вы увидели, что Хрумер неправильно отвечает на вопрос, то можно сообщить об этом разработчикам. Для этого есть специальная кнопка, которая вызывает специальную форму. Идея на счет этого великолепная, но уже месяца 3-4 разработчики к сожалению никак не реагируют на письма об ошибках. :)

Поэтому про данную фишку программы рассказывать подробно не буду. Она все-равно пока бесполезная.
Ну, и видео о том, как в некоторых случаях можно обойти мультикапчу. Мультикапчи в основном распространены на форумах на фдижке СМФ, хотя и другие сейчас их активно запускают в работу. И скажу честно, результат работы с мультикапчами Хрумера оставляет желать лучшего. Но, все-таки, посмотрим, что можно сделать вдля улучшения результатов работы:
Так как HTML-контекст на таких форумах сложно соотнести с определенными полями, то можно попробовать искусственно удлинить HTML-контекст, чтобы более однозначно идентифицировать его с тем либо иным полем. Работа это очень непродуктивная, но если уж очень хочется обучить пробиву конкретного форума, то можно и потратить на это время. Но опять-таки хотел бы заметить, что данный "костыль" не будет работать, если в серверной части текстовых капчей есть "кривой" признак или общее правило для данного поля. Тут уже ничего не поможет. Если бы был приоритет своих данных, то можно было бы без проблем решать многие проблемы и более тонко обучать Хрумер регистрации. Не понятно почему, но разработчики категорически против того, чтобы пользователи могли увеличивать процент успешных по своим базам, ведь базы у всех разные, поэтому и приоритет должен быть у пользователя. Но тут есть как есть.
Надеюсь подробно раскрыл вопросы и это поможет кому-нибудь в работе.

П.С. И еще, пока есть время проголосовать за базу, которую бы вы хотели получить в подарок. Не стесняйтесь, а то скачивать скачиваете, а голосовать стесняетесь. :)

4 комментария:

Alex Zeng комментирует...

На конец то я научился обучать Хрумку :) хоть и не с первого раза дошло :)
Огромное тебе Спасибо за Труды!!!

Unknown комментирует...

инструмент обучения немного изменился, урок желательно немного обновить тоже, чтобы некоторые мелкие детали подправить, но в принципе кардинальных изменений не произошло. рад, что помог вам.

Unknown комментирует...

Спасибо тебе большое, давно хочу научиться обучать хрумер и вот толь руки дошли, все понятно и доходчиво объясняешь, на многие вещи глаза открыл, и вообще полезный у тебя блог как для начинающих так и опытных хрумоводов. Спасибо

Unknown комментирует...

Не за что. Обучение реально дает плоды. Но со времени написания в хрумере в блоке обучения тексткапчам внесли изменения-улучшения и кое-что теперь делается проще. В частности сейчас практически не выскакивает ошибочный контент.
Но, если помог, значит не зря писал статью. :)

Отправить комментарий