суббота, 14 января 2012 г.

Урок шестой. Парсинг кракозябр и иероглифоф

Урок будет небольшим, потому что особо рассказывать в нем нём чем. Все вроде предельно просто. Но у новичков, когда они начинают работать с Хрефером, эти вопросы практически всегда появляются. И задаются они снова и снова. "Как мне спарсить арабские форумы?", "Как собрать форумы на китайском языке?", "Как составить запросы с иероглифами?" и т.д. А ведь все предельно просто. В уроке по сбору баз я уже касался данного вопроса, но вскользь и, думаю, нужно это раскрыть по-подробнее.
Вобщем, все становится возможным, если решить проблему с кодировкой. В этом нам поможет URL Decoder/Encoder. Он превратит иероглифы и прочую арабскую вязь вместе с греческими альфами-тетами-омегами в код урла, понятный тому же гуглу.
Ваши слова:
물고기
햇빛
겨울
보험
정제
для папки Words превратятся в понятные гуглу:
%EB%AC%BC%EA%B3%A0%EA%B8%B0
%0A%ED%96%87%EB%B9%9B
%0A%EA%B2%A8%EC%9A%B8
%0A%EA%BD%83
%0A%EB%B3%B4%ED%97%98
%EC%A0%95%EC%A0%9C
и Хреферу.
В примере я использовал корейский язык. Теперь мы спокойно сможем искать форумы по корейским ключевикам:
http://www.google.com/search?q=%22Powered+by+vBulletin%22+%EC%A0%95%EC%A0%9C
вот, например, на этих вбуллетинах упоминаются таблетки на корейском.
Вобщем, можно свои ключевики перевести на всевозможные языки и собрать форумы на всенх языках только своей тематики. Или ... или просто собрать китайские ресурсы.

Комментариев нет:

Отправить комментарий