Программируем коллективный разум [Тоби Сегаран] (pdf) читать постранично, страница - 3

Книга в формате pdf! Изображения и текст могут не отображаться!


 [Настройки текста]  [Cбросить фильтры]

308
Упражнения ........................................................................... 311

12. Сводка алгоритмов .............................................................. 312
Байесовский классификатор...................................................... 312
Классификатор на базе деревьев решений.................................... 316
Нейронные сети ....................................................................... 320
Метод опорных векторов ........................................................... 324
k-ближайшие соседи ................................................................ 329
Кластеризация ........................................................................ 333
Многомерное шкалирование...................................................... 336
Неотрицательная матричная факторизация ................................ 338
Оптимизация .......................................................................... 341

Приложения .............................................................................. 344
А. Дополнительные библиотеки ............................................... 344
В. Математические формулы ................................................... 351
Алфавитный указатель............................................................. 358

Предисловие
Когда журнал Time выбрал в качестве человека 2006 года «вас»1, он утвердил
идею о том, что сущность Web 2.0 – это «контент, генерируемый пользователями», и что такие сайты, как Википедия, YouTube и MySpace, – это столпы революции, совершившейся с приходом Web 2.0. Но истина гораздо сложнее.
Тот контент, который пользователи вводят в Web 2.0 явно, – лишь самая верхушка айсберга. А 80% существенной информации скрыто в темных водах неявно образующихся данных.
Во многих отношениях определяющим моментом революции Web 2.0 стало
изобретение компанией Google «ранга страниц» (PageRank). Это стало результатом осознания того факта, что каждая ссылка во Всемирной паутине наполнена скрытым смыслом: ссылка – это голос в пользу важности сайта. Если принять во внимание сами голоса и относительную важность голосующих сайтов,
то результаты поиска оказываются лучше, чем при анализе одного лишь содержимого страниц. Именно этот прорыв вывел Google на путь, следуя по которому она стала одной из наиболее авторитетных технологических компаний нового столетия. Ранг страницы – один из сотен неявно учитываемых факторов,
которые Google оценивает, решая, как представить результаты поиска.
Никто не назовет компанию Google «генератором пользовательского контента», и тем не менее она, безусловно, находится в самом сердце Web 2.0. Вот
почему я предпочитаю считать краеугольным камнем этой революции «обуздание коллективного разума». Ссылка – это контент, генерируемый пользователями, а PageRank – способ извлечения смысла из этого контента. Это же относится и к алгоритму вычисления «интересности» на сайте Flickr, и к функции «те, кто купил этот товар, купили также» на Amazon, и к алгоритмам нахождения «похожих исполнителей» на Last.fm, и к системе репутационного
рейтингования на eBay, и к рекламной системе Google AdSense.
Я определяю Web 2.0 следующим образом: «методика проектирования систем,
которые путем учета сетевых взаимодействий становятся тем лучше, чем больше людей ими пользуются». Привлечение пользователей – первый шаг. Второй – обучение на основе действий пользователей и адаптация сайта в зависимости от того, какие действия пользователи совершают и на что они обращают
внимание.
В книге «Программируем коллективный разум» Тоби Сегаран рассматривает
алгоритмы и методы извлечения смысла из данных, в том числе и пользовательских. Это инструментарий программиста, работающего в контексте
Web 2.0. Теперь уже недостаточно знать, как создать сайт с хранением данных
в базе. Если вы хотите добиться успеха, то должны знать, как из этих данных
добывать информацию – явно или путем анализа поведения пользователей на
вашем сайте.
С 2004 года, когда мы придумали термин Web 2.0, на эту тему уже написано
очень много, но книга Тоби – первое практическое руководство по программированию приложений для Web 2.0.
Тим О’Рейли
1

На обложке журнала было помещено слово «You» (Вы). – Прим. перев.

Введение
Количество людей, осознанно или случайно пополняющих Интернет
данными, постоянно растет. Они уже создали колоссальный массив
данных, анализируя которые можно многое узнать о пользователях –
как они работают, что предпочитают, какие товары их интересуют, –
да и вообще о человеческом поведении. Эта книга представляет собой
введение в активно развивающуюся науку о коллективном разуме.
В ней рассказывается о том, как получить интересные наборы данных
с многих сайтов, о которых вы, наверное, слышали, о том, как собирать данные от пользователей ваших собственных приложений, и о разнообразных способах анализа этих данных и извлечения из них информации. Цель этой книги – помочь вам перейти от простых приложений, хранящих данные в базе, к написанию более интеллектуальных
программ, способных эффективно пользоваться той информацией, которую вы и другие люди накапливают каждожневно.

Что необходимо знать
Все примеры в этой книге написаны на языке Python. Знакомство с ним
вам не помешало бы, но я объясняю алгоритмы, чтобы и программистам, пишущим на других языках, все было понятно.