Найди 10 отличий. О наполнении многостраничного сайта.

Продвижение многостраничного ресурса, решение задачи наполнения на примере Интернет-магазина электроники

Прежде всего, о Интернет-магазинах электроники. В настоящее время это наиболее развитый кластер интернет магазинов. Кроме того, товары таких интернет магазинов в большей степени изучены пользователями, а технические характеристики стандартизированы. Одновременно с этим, это и максимально конкурентная среда для оптимизации.

Теперь поговорим о задаче наполнения.

Современные поисковые системы, к сожалению, далеки от совершенства, поэтому не могут в полной мере анализировать юзабилити сайта или его дизайн для определения его качества. Другое дело – текстовая составляющая ресурса, с которой даже поисковые роботы могут работать на удовлетворительном уровне распознания и разделения качественного и уникального контента от заимствованного или несоответствующего основным требованиям современного пользователя.

Обращаясь к многочисленным исследованиям поисковой системы Яндекс доступным в Сети, мы можем определить, что качество контента является одним из важнейших показателей ранжирования, иначе подробные исследования в этой области попросту не проводились бы. В последнее время и мы неоднократно слышали от представителей поисковых систем термин информативности сайта. Однако, как она определяется? Если определить показатель информативности как критерий ранжирования сайта в поисковой выдаче, то логично предположить, что наиболее информативные статьи должны находиться среди первых результатов поиска. Вместе с тем высокое положение страницы в поиске определяется также наличием в статье структурированного ответа на запрос пользователя, быть связана с уже имеющимися знаниями интернет-пользователей для данной тематики.

Высокие позиции в выдаче поисковой системы – наличие всей необходимой для тематики информации (КАНОНИЧЕСКОЙ ФОРМЫ СОДЕРЖАНИЯ САЙТА) в сочетании с уникальным контентом.

Мы можем убедиться в этом при обращении в поисковую систему Яндекс, по стандартному «рабочему» запросу Как можно видеть высокие позиции занимают страницы обзоров и подробных описаний, далее следуют страницы содержащие, дополнительный (помимо технических характеристик) контент.

Cамая популярная страница

Как обозначено в теме моего доклада, мы рассматриваем пример Интернет-магазина. Самая популярная страница здесь – карточка товара. Именно работа с карточками товаров определяет уровень посещаемости и как следствие объем продаж. В тоже время процентная составляющая страниц карточек в числе страниц сайта Интернет-магазина настолько велика, что именно их уникальность определяет уникальность всего сайта в целом.

Представленная карточка, не содержит никакой оригинальной информации, технические характеристики и фото стандартные для тематики и не являются уникальными.

Найди 10 отличий

К сожалению, стандартные карточки товаров в интернет магазине похожи друг на друга как две капли воды. Если поставить две карточки на разных интернет-магазинах, посвященные одному и тому же товару, мы получим картинку из детской книжки «Найди 10 отличий». Одни и те же фото, одни и те же описания взятые с сайтов производителей. По сути отличие здесь только одно – цена. В соответствии с приведенным выше параметром информативности, карточка товара должна давать пользователям всю необходимую информацию о товаре (технические и качественные характеристики) и дополнительный оригинальный контент.

Стандартные решения

Конечно, сегодня существуют стандартные решения наполнения страниц карточек, повышения их разнообразия. В первую очередь стоит отметить следующие, ставшие каноническими решения.

  • Мета-данные (title, keywords, description ) – автогенератор
  • URL – ЧПУ через modrewrite
  • Хлебные крошки

Многие пошли еще дальше, добавляя на страницы карточек общую информацию о покупке и доставке с вкраплениями уникальных для этой страницы параметров – как правило, это название товара.

Вы можете купить «название товара », позвонив по телефону указанному на сайте …

По факту это дублирующийся на каждой карточке текст, не способствующий повышению уникальности ресурса.

Где взять уникальный контент?

  • Написать – очень долго, требуется специалист
  • Купить – очень дорого или нет гарантий качества материала
  • Генерировать — относительно быстро, человек требуется только на этапе настройки

Очевидно, первое, что приходит в голову – нанять копирайтера для наполнения сайта. Однако в случае многостраничного сайта с тысячами страниц, это представляется как титанический труд. Кроме того необходимы огромные затраты времени и денег. Более того при составлении описаний к товарам, которые могут быть сняты с продажи в ограниченный период времени подобная схема работы не имеет смысла.

Второй вариант – купить уже готовый контент. Опять же для наполнения сайта с большим страниц, схема покупки контента может оказаться очень затратной. Если взять минимальную стоимость копирайта в размере 100рубрей для страницы (по оценкам бирж) и умножить на 1000 страниц товаров мы получим сотни тысяч рублей.

Третий вариант – генерация. В идеале, быстрое и равномерное наполнение сайта с любым количеством страниц. Именно это вариант наполнения мы и будем рассматривать.

Какие данные можно использовать для генерации текстов?

Если рассматривать минимальный объем данных, которые можно использовать для генерации текстов в Интернет-магазине, то этими данными будут свойства карточек – категория товаров, название товара, цена. Такая ограниченность характеристик вызвана тем, что многие магазины до сих пор не используют общие технические характеристики для всего ассортимента, копируя их с официальных сайтов каждого производителя без разбора и структурирования. Как раз такой вариант мы и будем рассматривать.

Что еще можно использовать?

Добавляя тексты на страницы, мы стремимся также предоставить дополнительную полезную информацию, если не о конкретном товаре, то о самом магазине. Такими данными могут стать условия доставки, контактные телефоны, данные об ассортименте, рубрике. Кроме того, мы хотим увеличить видимость сайта по транзакционным поисковым запросам, а значит, в добавляемых текстах мы должны предусмотреть использование наиболее популярных для тематики транзакционных маркеров. Так в целом для тематики Интернет-магазина мобильной электроники, наиболее популярными транзакционными маркерами будут купить, заказать, продажа, цена и т.д. Таким образом, мы получаем достаточное число параметров для составления шаблона для целой рубрики каталога.

Составляем шаблон

Шаблон сформирован из 4-х текстовых пассажей, которые содержат общую информацию о товаре и товарной группе, к которой он принадлежит, информацию о цене товара, стоимости и способах доставки, контактных данных магазина. В тексте используются популярные транзакционные маркеры и данные о товаре, передаваемые непосредственно страницей.

Использован стандартный наиболее распространенный синтаксис для текстовых регулярных выражений, который подразумевает создание текстов путем перебора вариантов в каждом массиве значений.

Простым перемножением чисел различных элементов в массивах, можно определить, что максимальное число отличных друг от друга вариантов текста составляет чуть больше, чем 17 млрд. Сроки генерации текстов в таком объеме также, вполне, приемлемые. На машине со средними характеристиками этот процесс займет чуть менее трех лет. Казалось бы, можно залить все эти варианты на сайт и проблема наполнения решена. Текстов хватит на весь срок существования магазина и на все, включая вновь появляющиеся, товары. Но это не так.

Большинство генерированных текстов будут отличаться друг от друга, крайне незначительно, ведь в число вариантов входят и отличные лишь одним или несколькими элементами. А так как мы поставили задачу получить максимально уникальные тексты, возникает вопрос фильтрации результатов перебора.

Как проверить тексты на уникальность в Интернете и Между собой?

При подготовке нового шаблона мы можем не беспокоиться о его уникальности в Интернет, ведь подавляющее большинство используемых данных берется непосредственно с нашего сайта. Здесь мы не будем останавливаться. Другой момент уникальность текстов между собой. Также следует учитывать необходимость фильтрации уже на этапе генерации текстов. Так как это позволит существенно сократить процесс по времени. Снизить требования к компьютеру, который мы используем для генерации.

Алгоритм шинглов

Для проверки уникальности текстов между собой мы используем алгоритм шинглов. Аналогичный алгоритм используют сами поисковые системы. Суть алгоритма заключается в постепенном переборе отрезков текста 5-7 слов, сравнении их между собой. Шаг между отрезками выбирается равным одному слову. Таким образом, только после первой итерации мы сокращаем число вариантов в 5 раз.

Кроме того, мы отказываемся от последовательного перебора вариантов при генерации в пользу случайного перебора. Все это позволяет получить до 80% уникальных текстов уже на третьем часе работы алгоритма. Однако, в результате работы алгоритма с заданными параметрами уникальности текстов в 95% на выходе мы получаем чуть более 500 вариантов. Количество обусловлено вкраплениями в шаблоне служебных переменных, которые снижают общий параметр уникальности. Чтобы увеличить число вариантов, раскрыть потенциал шаблона, мы будем учитывать наличие служебных слов, стоп-слов при определении допустимого параметра уникальности.

Допустимый процент схожести

Допустимый процент схожести рассчитывается по принципу:

ДПС=95% — КСП/(ОЧС-СС)

где ДПС- допустимый процент схожести текстов, КСП – общее количество служебных слов параметров, ОЧС – общее число слов, СС –стоп слова.

При средних 100 словах на выходе, 25 стоп словах и 6 служебных, допустимый

Процент схожести текстов составляет 85%. На практике потерянные проценты уникальности будут восполнены за счет данных передаваемых самой страницей, так как они априори уникальные между собой.

В результате сокращения параметра допустимого процента схожести за те же 3 часа мы получаем около 1000 уникальных между собой текстов, которые мы можем использовать для сайта. Этого числа вполне хватит для наполнения карточек товаров в рамках отдельно взятой категории.

Размещение на сайте

Основные моменты размещения текстов на сайте:

  • Одна страница – один текст навсегда
    Тексты хранятся на сервере и маркируются по категориям товаров. При первом запросе страницы на сайте (пользователем или роботом поисковой системы), странице присваивается один единственный текст, актуальный для данной категории товаров.
  • Каждый текст уникален
  • Новая страница получает текст
  • Для каждой группы товаров работают свои шаблоны

Результаты

  • технология быстрого наполнения сайта с большим количеством страниц, без потери качества.
  • собраны необходимые данные для будущих модулей, перелинковки.
  • увеличена средняя уникальность карточек товаров и, как следствие, всего сайта.
  • использование транзакционных связок в текстах увеличило показатели видимости сайта по средне- и низкочастотным запросам

Коментарии