— Сколько уже существуют социальные сети, сколько они развиваются, тем не менее, их начали активно обсуждать буквально в этом году. Как работает процесс рекомендаций в социальных сетях? По какому принципу? Не обязательно же только по лайкам?
— Рекомендательные алгоритмы — это отдельный раздел в прикладных науках по разработке информационных систем. Что самое интересное — алгоритмы рекомендаций могут быть понятны даже ребенку. Есть такой термин — коллаборативная фильтрация, который даже использовали в одной из реклам, которую крутили в том числе и в кинотеатрах.
В чем основная идея? Есть, например, 100 видеороликов. И я посмотрел, например, пять из них, мой друг посмотрел несколько, другой друг посмотрел несколько. Вопрос — какие рекомендовать видео мне? Возникает такая идея, что мне надо рекомендовать то, что я не смотрел, но другие люди, похожие на меня, посмотрели.
А как посчитать «похожесть»? У меня иных данных кроме просмотров нет. Не только лайки, но и просмотры тоже сохраняются. Любая соцсеть может просто запомнить, что вы были в этой группе — это несложная операция. Если вы много времени проводите в определённой группе — это вполне можно легко отследить без каких-либо «страшных» отслеживающих вещей. Просто нужно хранить историю посещения, а сайт может сделать это очень легко.
Есть простая формула, как сравнить интересы двух пользователей. В ней используются такие данные, как количество общих видео, которые мы посмотрели, и сумма моих просмотров и просмотров другого пользователи. Если мы посмотрели принципиально разные ролики, то совпадений не будет и в результате мы получим ноль. Если же мы посмотрели один набор видеороликов, то в результате мы получим единицу, то есть полное совпадение.
Я могу по этой формуле посчитать разных пользователей, посмотреть, кто на меня больше похож, посмотреть то, что смотрел каждый из них в разрезе популярности — нельзя рекомендовать какое-то частное видео. Но вот если все они похожи на меня и смотрели что-то, что я еще не посмотрел — мне это надо подбросить.
И это только одна формула, а есть другие виды рекомендаций, коллаборативной фильтрации, есть алгоритм машинного обучения, который на неявных признаках пытается группы найти. Но можно даже использовать простой алгоритм, который будет подбрасывать мне контент.
И соцсети решили этим воспользоваться. Если я хочу привлекать людей, тогда мне нужно «бить» в определенную целевую аудиторию, чтобы им было интересно время проводить. Откуда у соцсетей деньги? Например, реклама. Контекстную рекламу можно купить в соцсетях, чтобы пользователи ее смотрели.
Соответственно, мне нужно, чтобы они больше времени проводили в соцсетях. Поэтому нужно генерить интересный для них контент. А как найти интерес? Посмотреть среди других пользователей, которые были. Все. Идеальная схема.
— А как тогда людей объединяют в одну группу по общим интересам? По информации в профиле?
— Есть разные алгоритмы. Можно смотреть по тому, что человек посещал. Например, он посетил 100 групп, из них 80 политического толка, 20 про искусство. Возможно, что люди с примерно таким же соотношением чем-то на него похожи. Или как узнать студента? Студента можно узнать по возрасту, потому что он состоит в группе какого-то вуза, он может быть подписан на ресурсы наподобие «Готовлюсь к экзаменам». А школьник, выпускник, тем более — там «Готовлюсь к ЕГЭ».
Я могу понять что-то про пользователя, опираясь только на данные его анкеты, при этом не зная о нем этого. Это может быть анкета, это может быть просмотр видео, это могут быть лайки, это может быть тот факт, что он сидит в соцсетях ночью.
— Можно создать алгоритм на основе чего угодно? Даже на основе семейного положения?
— Все, что мы вбиваем в соцсети, там сохраняется. Мы абсолютно легально передаем свои данные соцсети, и она может делать с этими данными все, что угодно. Также все данные, которые туда вводятся, могут быть превращены в числа и над ними может быть проведена операция, которая будет измерять сходство.
— Можно задать любую формулу и искать целевую аудиторию?
— Да, но обычно это зависит от самого рекомендательного алгоритма. Есть разный коэффициент сходства, он бывает по стилю текста. Например, как автоматически проверить сочинение и поставить ему оценку, как к нему подступиться с точки зрения автоматизированной проверки?
Один из вариантов такой: есть текст, как понять на эту тему или нет? Наверняка на конкретную тему есть статья в «Википедии», а там есть факты и ссылки. Если написать сочинение на тему Отечественной войны 1812 года, там должны быть Кутузов и Наполеон. Если я просто проведу анализ этих слов и если их там не будет, то, значит, человек написал текст на другую тему. Точно также я могу сравнить два текста.
Есть такие алгоритмы, которые обрабатывают текст, они очищают его от знаков препинания, союзов и предлогов, слова превращаются в нормальную форму, затем тексты анализируются на совпадение важных слов. Можно даже померить, насколько слово в тексте важно относительно других слов.
Я ищу важные слова, проверяю два текста на общие слова, если они там есть — значит, люди пишут о похожих вещах. Или я могу автоматически пост с призывом о чем-то или политический пост по общим словам найти.
— Получается, что некоторые данные пользователи передают сами, целенаправленно через заполнение анкеты. Некоторые очевидные данные, как, например, лайки, мы также сами передаем. А есть скрытые данные?
— Они не нужны. На самом деле сделать это не сложно. Но если внезапно выяснится, что одна из соцсетей следила за пользователями, за их действиями, тогда сами пользователи возмутятся.
Например, TikTok ловит мои просмотры, потому что там я могу только смотреть контент. И потому, как я задержался на странице, он мне дальше рекомендует. Я сам недавно проверял — посмотришь видео по какой-то тематике, подольше задержишься на одном-двух видео, сразу начинают прилетать видео с тем же смыслом. И почему TikTok получил такую популярность — потому что там рекомендации работают в отрыве от количества просмотров.
Если в том же «ВКонтакте», когда появилось понятие «интересные фото», «рекомендованные статьи», у них было много лайков, в TikToke это работает чуть-чуть по-другому. Там если какое-то видео собирает несколько просмотров — 10-20-30-100, оно все равно может прилететь в рекомендации человеку, похожему как-то на тех, кто посмотрел это видео. Или, допустим, до этого я смотрел похожее видео.
— В чем выгода соцсети самой продвигать контент-мейкеров? Чтобы потом продавать рекламу?
— Если в соцсети вам нравится быть, то вы совершаете больше действий. При этом чем вы больше там сидите, тем вы больше генерируете данных, тем точнее алгоритмы. Вы улучшаете соцсеть своим же присутствием.
Во-вторых, для рекламодателей выгодна соцсеть, где больше всего пользователей. Например, некая организация предлагает услуги по подготовке к ЕГЭ, а соцсеть заявляет, что может показать эту рекламу, например, всем школьникам такого-то города.
Такого раньше не было. Нельзя было таргетировано выйти на аудиторию. До появления соцсетей не было никакой возможности это сделать. Не было возможности попасть в массу конкретных людей, которым интересны конкретные вещи.
Раньше целевую аудиторию нужно было как-то завлекать. Условно — магазинам делать огромные яркие вывески. А сейчас мы можем независимо от места, города, от страны попасть в целевую аудиторию.
— Получается, соцсети не передают данные рекламодателям, но помогают распространить среди них рекламу?
— Реклама будет иметь больше эффективности. Однажды мы обновили рекламную компанию в соцсетях — нам нужно было собрать определенную группу в несколько тысяч человек. Реклама лучше всего с этим справлялась. «ВКонтакте» позволял подбирать, кому будет показываться эта реклама, естественно, платно. По возрасту, региону, интересам — все это можно настроить.
— Социальная сеть в принципе может передавать данные третьим лицам?
— По закону — правоохранительным органам. Другое дело, что она может продавать анонимные данные. Например, маркетинговую статистику — вполне может быть. Например, что у меня в России 60% пользователей находятся в группах, которые посвящены, например, туризму. Значит, выгодно в России, условно, открывать какое-то производство или бизнес. По сути, это маркетинговое исследование, и в этом смысле соцсети могут быть источниками этих данных, которые, конечно, стоят денег.
— Когда я установил на смартфон приложение с музыкой, мне сразу начали выдаваться те композиции, которые мне нравятся. А единственное место, где эти данные были размещены, — одна из соцстей.
— Возьмем сервисы такси и их приложения. Известно, что одни сервисы ловили на просмотре за другими сервисами. Если мы открываем несколько приложений, то одно из приложений следило за другими и подстраивалось под ситуацию. Например, ускоряло поиск такси. На одном телефоне приложения в принципе могут перехватывать данные. Но это достаточно быстро можно установить, и тогда будут репутационные проблемы.
Факт в том, что на телефоне некоторые приложения умеют читать данные других, но также приложения умеют защищаться от этого.
— А телефоны могут собирать данные?
— А кому это выгодно? Конечно, некоторые компании сразу оговаривают, что собирают некоторые данные, но не передают их. А телефон может собирать данные как угодно. Это и использование экрана, и снимок экрана. Некоторые говорили, что они отслеживали, как некоторые приложения записывали происходящее на экране и отправлять видео. Да все может быть.
Я уже давно живу с мыслью, что полноценной анонимности нет. Другое дело — кто мои данные будет читать? И кому это надо? Тем более, что нужны целые поля серверов, чтобы эти данные хранить. И телефоны, и приложения могут собирать данные. Есть шпионские приложения, которые собирают нажатие по клавиатуре — это один из способов взлома. Сейчас научились с ним бороться, но раньше это был один из самых популярных способов взлома. Она собирала данные с клавиатуры в тот момент, когда человек заходил на определенный сайт.
— А что с хранением данных? В некоторых соцсетях сотни миллионов пользователей. Записывать их действия — это огромный массив данных.
— Во-первых, биг-дата на месте не стоит. Во-вторых — а надо ли нам все это обрабатывать? В-третьих — а надо ли нам это хранить, если можно обработать налету. Я могу просто классифицировать траффик с социальной сети. Если человек заходил n раз на страницу какого-либо пользователя — мне не нужно хранить n записей, а нужно хранить одну — человек вот эту ссылку посещал условно 10 раз. Провайдеры также могут хранить информацию о том, на какие сайты чаще заходят их пользователи.
— Как происходит утечка данных? Это взломы или другие способы?
— Мы сейчас живем в более безопасное время с точки зрения интернет-безопасности, потому что эта наука развилась. Лет 10 назад в интернете было все плохо с безопасностью.
Условно: я авторизируюсь в соцсети, захожу на левый сайт, а он может понять, что я авторизован в соцсети. И от меня отправить запрос, что я что-то делаю в соцсети. И от этого начали защищаться, в том числе и браузеры запрещают, чтоб один сайт без пре-модерации отправлял запрос на другой сайт. Почти каждый сайт был хоть один раз взломан, там была хоть раз утечка. Эти данные продавались в «даркнете».
Есть такой сайт, где можно проверить был ли слит когда-то ваши почта или пароль — haveibeenpwned.com. И чем человек старше, тем у него, поверьте, будет больше фактов, что его e-mail где-то засветился.
У всех хороших сайтов есть сертификат безопасности. Он указан в браузере, где адрес сайта — замочек и горит зеленым цветом. Если на него кликнуть, выйдет сертификат, который удостоверяет, что вы пришли именно туда, куда хотели.
В чем их еще одна прелесть — если это такой сайт, то трафик между пользователем и сайтом зашифрован. Провайдер видит только факт, что я сижу в конкретной соцсети и не видит больше ничего. А если это сайт без сертификата, тогда все, что я на нем делаю, идет открыто по сети, и провайдер может видеть, что я на нем делаю.
— Я слышал, что даже если у тебя страница закрыта от других пользователей, все равно можно на нее зайти и посмотреть ее.
— Это тоже можно сделать. Эти алгоритмы на самом деле не особо сложные. Вот у вас профиль закрыт, а у всех ваших друзей профили тоже закрыты? Есть открытые программы шпионы, которые можно даже попробовать, которые вычисляют закрытых друзей.
Как это происходит? Ищется в базе информация о том, кто мог бы быть другом пользователя. Раскручиваются друзья этих друзей. Так можно найти скрытых друзей, скрывающих друзей. Это анализ других анкет, которые открыты. Да, я могу скрывать какого-то человека, а он меня тоже скрывает?
Очень много есть лазеек, как это можно сделать. «ВКонтакте»: можно узнать все упоминания себя на всех открытых стенах. Бывает смешно почитать, что ты пять лет назад писал на какой-то стене или о тебе писали что-то.