В Сети идет невидимая война роботов за информацию, которую ищут люди
Сеть Новости IT и Интернета

    Поиск будущего
    По данным Фонда «Общественное мнение», аудитория Рунета в этом году достигала 44 миллионов человек. При этом 10 процентов из них буквально живут в Сети, развлекаясь, делая покупки и пытаясь найти в Интернете ответы практически на любые вопросы. Однако результаты выдачи поисковых систем зачастую могут вести на страницы с ненужным и даже вредоносным содержимым. Найдутся ли способы этого избежать и что влияет на работу поисковиков? Попробуем разобраться.

    Рынок интернет-поиска имеет огромный потенциал для бизнеса. По мнению Аркадия Воложа, главы компании «Яндекс», половина всех денег в Интернете — это поисковая реклама. Несмотря на то, что поиск в Сети такое доходное дело, умение решать подобные задачи есть не у многих. Ведь эффективность работы поисковиков в первую очередь связана с используемыми в них алгоритмами. «Разработка поисковой машины требует серьезного человеческого труда: оценить, правильно поисковик ответил на запрос или нет, понять, что именно привело к неверному результату, научить машину отвечать на данный запрос лучше. Это можно делать вручную, добавляя правила в программный код, а можно автоматически, предъявляя системе набор запросов с вручную подготовленными хорошими ответами», — поясняет Владислав Шабанов, руководитель проекта Поиск@Mail Ru. Игорь Ашманов, генеральный директор компании «Ашманов и партнеры», добавляет, что большинство статистических данных о свойствах текстов, связях между сайтами и поведении пользователей можно получить только опытным путем, что достаточно дорого и долго.

    Если в США безусловно лидирует поисковик Google, то российские пользователи Интернета гораздо чаще смотрят на мир «глазами» «Яндекса». Согласно счетчику Liveinternet, в июле 2010 года «Яндексу» принадлежало 64,5 процента поискового рынка, Google — 22,1 процента, а Mail.Ru — 7,4 процента. Рыночную долю поисковика отчасти можно считать и показателем его качества. Если поисковик ищет хорошо, то пользователь экономит время и быстро находит нужное. «Есть специальные методы измерения качества поиска, которые основаны на ручном анализе результатов независимыми экспертами, так называемыми асессорами. Есть и автоматические методы, которые применяет компания «Ашманов и партнеры», — замечает руководитель команды разработчиков Нигма.РФ Виктор Лавренко.

    Большинство экспертов сходятся во мнении, что одной из устойчивых тенденций развития поисковых машин становится учет информации о пользователе — история поиска, история серфинга, социально-демографические данные, географическое положение, культурные особенности жителей определенной страны и т. д. С этим согласна и директор компании WebAdvance Елизавета Трибунская, которая полагает, что основной тренд сейчас — персонализация. «По регионам, по интересам, по полу, по кругу друзей, по тому, ищет ли человек с компьютера или с коммуникатора, по наличию детей и уровню образования. Хорошая поисковая система не выдает «страницы, содержащие ключевое слово», а понимает, что надо пользователю, и предоставляет ему именно это», — говорит она.

    Важным фактором, существенно влияющим на результаты выдачи поисковиков, является так называемая поисковая оптимизация — SEO (Search Engine Optimization), используемая для платного продвижения коммерческих сайтов в Сети. Если «белая» SEO старается учесть требования поисковиков к качеству оформления и наполнения сайтов, то «черная» не признает никаких правил, а ставит своей единственной целью улучшить ранжирование конкретного ресурса любыми техническими способами, используя для этого недоработки или «слабые» места существующих алгоритмов. По словам главного редактора SEOnews.ru Анны Лебедевой, «SEO-сообщество, объединяющее примерно три сотни компаний и около трех тысяч частных лиц, осваивает рынок объемом не менее 300 миллионов долларов».

    Сами поисковые системы разделяют нерелевантные результаты (поисковый спам) на несколько видов. Так, например, дорвеи, которых чаще всего и называют «черной» SEO, подсовывают пользователю страницу, на которой нет ответа на его запрос, зато есть обильная реклама или вирусы. Как отмечает руководитель отдела веб-поиска «Яндекс» Александр Садовский, «долю «черной» оптимизации удается удерживать на низком уровне. В среднем около одного процента страниц, доступных пользователю в первой десятке, относятся к этому типу». Другие типы сайтов, также относящиеся к спаму, хотя и содержат ответ на вопрос пользователя, но пытаются манипулировать результатами поиска. Кроме того, есть сайты, которые обычно релевантны запросу, но для продвижения в результатах выдачи также пытаются «подкрутить» свою позицию при помощи ссылочного «мусора» или иных приемов. Что же касается нормальных коммерческих сайтов, то требования поисковика сводятся к тому, чтобы их оптимизация была направлена на реальное улучшение качества контента в интересах пользователей. Тем не менее именно вопросы обеспечения безопасности и фильтрации нежелательного содержимого, получаемого из Интернета, возможно, и породили разговоры о так называемом государственном поисковике. Сегодня появилась информация, что Минкомсвязи от этой идеи готово отказаться, и многие эксперты этот шаг считают оправданным. Поисковые системы постоянно совершенствуются. «Для того чтобы удовлетворить запросы миллионов пользователей по тысячам разных тематик, потребуется разработка специализированных вертикальных поисковых систем, — рассказывает Павел Черкашин, директор департамента потребительских программных продуктов и онлайн-сервисов Microsoft в России. Тысячи компаний построят свои узкоспециализированные решения, которые будут подключаться к результатам выдачи основных поисковых систем». В том, что поисковик будущего сможет сам отвечать на задаваемые вопросы, уверен Виктор Лавренко: «Пользователям не потребуется перерывать огромное количество ссылок и читать содержимое найденных сайтов». Но и SEO-оптимизаторы не сидят сложа руки. Они знают, где и как «копать», потому что ни один поисковик никогда не поделится, каким образом в нем устроена выдача результатов.

    Так ждет ли нас непрекращающаяся война роботов, когда самообучающиеся поисковые машины противостоят автоматически адаптируемым системам продвижения сайтов? В том, что такие войны уже идут, сомнений ни у кого сейчас нет. «С обеих сторон самообучающиеся машины, вычислительные мощности, сотрудничество с учеными-математиками. А поисковики все увеличивают количество факторов, стараясь учитывать как можно больше таких, на которые не может быстро и недорого повлиять оптимизатор», — говорит Елизавета Трибунская. Игорь Ашманов настроен более оптимистично: «В будущем отношения в поиске будут все более «очеловечиваться». Современное кредо, что все в поиске должны делать роботы, постепенно уступит место представлению, что хороший поиск создается не только разработчиками поисковых систем, но и веб-мастерами, поставляющими в Сеть ее основное содержание. Мы надеемся, что будущее поиска — это все же взаимодействие людей, а не война машин». С последним высказыванием трудно не согласиться, поскольку порядком набившие оскомину голливудские сценарии «войны машин» хороши только на экранах кинотеатров, а не в реальной жизни.

    Нужен ли Рунету государственный поисковик?


    Елизавета Трибунская, директор компании WebAdvance: Частные поисковики вполне справляются со своими задачами, и государственный поисковик вряд ли сможет решать их более эффективно. Из всех моих контрагентов наименее комфортны с точки зрения взаимодействия именно государственные организации. Не думаю, что поисковик должен заниматься цензурой. Но, как мама, я считаю, что эффективный фильтр должен быть. Тогда можно быть спокойным, что дети не попадут туда, где мне не хотелось бы их видеть. Для решения этой задачи также нужно понимать, о чем говорится на той или иной странице, но это не задача поиска.

    Игорь Ашманов, генеральный директор компании «Ашманов и партнеры»: Поисковая система консолидирует огромное количество информации о своих пользователях. Эти данные представляют не только коммерческую ценность. На их основе можно делать множество аналитических исследований, выводы которых очень интересны любой разведке. Поэтому хранение и использование их действительно государственная проблема. Но и любой популярный поисковик представляет собой СМИ с гигантским тиражом, что также интересно всем идеологическим силам. Говорить же о функциях поисковика, которого нет пока даже на бумаге, преждевременно.

    Виктор Лавренко, руководитель коман­ды разработчиков Ниг­ма.РФ: Относительно реализации проекта так называемого государственного поисковика у меня большие сомнения. Насколько мне известно, в этом поисковике работают довольно виртуальные люди, и у него очень виртуальное финансирование. О какой-либо материализации данного проекта мне неизвестно. Поможет ли государственный поисковик избавиться от поискового спама, зависит от алгоритмов и методов, которые в нем будут использоваться. Например, если его сотрудники будут высылать спецназ в офисы к «черным» оптимизаторам, то спама будет гораздо меньше.

    Главное — не переобучиться


    Машинное обучение стало использоваться в поисковых технологиях с начала этого века. Одна из проблем, которая возникает при таком обучении, — переобучение. Говорят, что переобучившаяся машина похожа на студента, который перезанимался и пытается объяснить простые поступки слишком сложными моделями поведения. В 2009 году компания «Яндекс» внедрила новый метод машинного обучения — «Матрикснет». Важная особенность этой технологии заключается в ее устойчивости к переобучению. С помощью данного метода можно построить очень длинную и сложную формулу ранжирования, которая учитывает множество различных факторов и их комбинаций, что в конечном итоге позволяет реализовать существенно более точный поиск. «Сотни факторов ранжирования, описывающих сайты, страницы, запросы, пользователя, комбинируются «Матрикснет» в формулу ранжирования, которая очень хорошо отделяет качественные страницы, интересные пользователю, от нерелевантных, менее качественных и спама», — рассказывает руководитель отдела веб-поиска «Яндекс» Александр Садовский. Используя «Матрикснет», сотрудники «Яндекса» заняли первое, третье и десятое места в мировом чемпионате по ранжированию, проводимом компанией Yahoo!..

    Поговори со мной, машина!


    Борис Хвостиченко, менеджер по продук­там Google в России: Современные мобильные устройства предлагают нам разные способы взаимодействия с ними. При этом речь остается самым естественным — ведь говорим мы обычно гораздо быстрее, чем вводим символы на крошечной клавиатуре. Сегодня услуга голосового поиска становится одной из самых востребованных. Рост популярности этого вида поиска будет обеспечиваться как за счет постоянно увеличивающегося количества пользователей этой услуги, так и благодаря росту объемов мобильного трафика. Чтобы голосовой поиск работал корректно, для каждого языка в Google собирают фрагменты, из которых потом создаются специальные модели речи. Для этого мы просим носителей языка произнести часто употребляемые фразы в самых разных акустических условиях. Для каждого языка мы создаем словарь, содержащий более миллиона распознаваемых слов.

    Теперь узнать погоду, проверить, кто был автором известного афоризма, или найти ближайший ресторан не составит никакого труда. Мобильный телефон лишь записывает звук и отправляет его на серверы Google, где и происходит дальнейшая обработка информации. Это позволяет быстрее получить результат и освободить мощности телефона для выполнения других операций.

    В свою очередь новая система индексирования сайтов Caffeine позволяет анализировать информацию в Интернете «по частям» и непрерывно обновлять поисковый индекс. Каждую секунду система обрабатывает сотни тысяч страниц. Если мы представим себе, что эти страницы бумажные, стопка из них росла бы со скоростью около 5 километров в секунду. В базе данных Caffeine содержится порядка 100 миллионов гигабайт данных, а новая информация добавляется со скоростью нескольких сотен тысяч гигабайт в день.

    В России услуга голосового поиска Google появилась в конце сентября этого года. Судя по первым откликам, многие уже активно ею пользуются и довольны результатом.
    По материалам: itogi.ru



    Дочитали статью до конца? Пожалуйста, примите участие в обсуждении, выскажите свою точку зрения, либо просто проставьте оценку статье.

    Вы также можете:

    • Перейти на главную и ознакомиться с самыми интересными постами дня
    • Добавить статью в заметки на: Добавить эту статью в TwitterДобавить эту статью ВконтактеДобавить эту статью в FacebookПоделиться В Моем Мире

    • 0
    • 05 ноября 2010, 13:05
    • patron

    Комментарии (0)

    RSSсвернуть / развернуть

    Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.

    Специальные предложения


    Резиновая плитка для пола «Модуль»

    Вулканизированная резина для пола в тренажерном зале обладает исключительной прочностью и укладывается как полы для занятий штангой и спортивные мобильные тяжелоатлетические площадки на улице. Покрытие не крошится и не впитывает влагу, это литая вулканизированная резина, не крошка! Покрытие послужит незаменимым полом в ангары для хранения мотоциклов, снегоходов, лодок, гидроциклов, катеров и яхт…

    Резиновое покрытие Трансформер «ЗЕРНО»

    Уникальное напольное покрытие из резины для быстрой и самостоятельной сборки пола в гараже. Полы в личном гараже Вы можете собрать своими руками, без привлечения строителей. Удобный предустановленный замок, позволит произвести монтаж резиновых плит без применения клея. Покрытие устойчиво к шипам, износу и проливу технических масел и бензина…

    Модульная плитка ПВХ для пола

    Модульная плитка ПВХ для пола в гараж, автосервис, цех, торгово-развлекательный центр, офис, фитнес и тренажерный зал, зрительный зал кинотеатра, склад. Модульные плитки ПВХ настолько просты в монтаже, что не требуют специальных навыков для своей установки. Неподготовленный человек может собрать более 100 кв.м. напольного покрытия за один рабочий день. Для сборки не требуется клей, цемент и другие крепежные материалы...


    +7 (495) 969-75-83

    +7 (495) 969-75-83

    +7 (495) 969-75-83

    Смотреть все предложения...

    Новостная сеть блогов MyWebS - это всё самое актуальное: основные мировые новости, лучшие фотографии из последних новостей. А также просто полезная и занимательная информация: о событиях в России, о достижениях в мире технологий, о загадочном и непостижимом, об исторических фактах и просто о знаменательных событиях.

    © Copyright 2010–2020