lktalks: Поиск

Показаны сообщения с ярлыком Поиск. Показать все сообщения

пятница, мая 01, 2009

Слайды с первой демонстрации WolframAlpha

Я недавно рассказывал про выходящую в мае систему WolframAlpha. Появилось видео с первой демонстрацией возможностей системы.

Прямая ссылка: http://www.youtube.com/watch?v=hYhLsQPHNas

среда, декабря 27, 2006

Всемирная помойка 2: Wikiasari

Некоторое время назад я писал здесь про репутационный поиск - о том что неплохо бы было организовывать поиск не только на основе ссылочного ранжирования, но в первую очередь на основе репутации автора.

Так вот, идея наконец была подхвачена! :-) Вот уже 4-й день все новостные сайты и блоги сообщают о новой инициативе основателя Wikipedia Джимми Уэйлса (Jimmy Wales) - "революционной" поисковой системе - Wikiasari (от слова wiki, что на гавайском означает "быстрый", и слова asari, что переводится как "тщательный поиск" с японского).

Первое сообщение, судя по всему, было сделано британской The Times: Founder of Wikipedia plans search engine to rival Google.

Итак, о чем собственно речь? Вот что говорит по этому поводу сам Джимми:

"Поиск - часть фундаментальной инфраструктуры интернет. И, в настоящее время, он не работает.

Почему он не работает? Он не работает потому же, почему обычно не работает не свободное программное обеспечение: недостаток свободы, слабое участие общественности, недостаток прозрачности. Теперь мы изменим все это.

...

Nutch и Lucene и некоторые другие проекты предоставляют сейчас инфраструктуру для того, чтобы создать новый вид поисковой системы, которая опирается на человеческий интеллект, для достижения тех результатов, которых пока не могут достичь алгоритмы."

И вот ещё цитата (по The Times): "На самом деле, если подумать то одной из основных задач поисковой системой является задача принятия решения - эта страница хорошая или эта страница плохая. У компьютеров очень плохо получается решать эту задачу, зато у самих людей получается очень неплохо! Нам достаточно просто посмотреть на страницу пару секунд мы можем определить хороша страница или плоха".

Реально Джимми предлагает именно репутационый поиск, о котором я писал чуть раньше - с возможностью проставлению рейтингов результатам.

Проект должен стартовать в начале 2007 года и сейчас Уэйлс ищет разработчиков, желающих принять участие в проектах.

четверг, декабря 21, 2006

Пояснение об анонимности в Сети

В ходе дискуссий на RSDN я обнаружил что употребляю термины “анонимность” и не анонимность, применительно к авторству информации в интернет не до конца пояснив что имеется ввиду. В посте “Всемирная помойка или почему поиcк не всегда помогает” я писал о том, что анонимность представляет собой “вещь препятствующую репутации”.

Я не имел ввиду, что необходимо под каждым своим сообщением писать свои имя, фамилию, домашний адрес и номер паспорта. Я имел ввиду, что должна быть возможность определить источник информации однозначно - посмотрев на две заметки или два сообщения в форуме, нужно иметь возможность определить написал ли их один и тот же человек или разные. Будут они подписаны ником, которым человек все время пользуется или его реальным именем и фамилией - неважно.

(я конечно понимаю, что кто-то может написать что-то, “войдя в систему” под ником исходного автора, или сидя за его домашним компьютером, но это, как мне кажется, немного другая тема).

Итак, не анонимная информация - это такая информация, которую можно однозначно идентифицировать с автором, где под автором подразумевается любой тип идентификатора - хоть GUID -нужно только чтобы один и тот же идентификатор использовался постоянно.

P.S. Анонимностью часто называют невозможность вычислить “физического” человека по его присутствию в сети - об этом речи нет. Скажем так человек должен сам решать должен ли его”авторский идентификатор” иметь какое-то отношение к его реальной жизни. Это отдельная большая тема.

RSDN: Влияние интернета на качество знаний

Удивительным образом, сегодня на RSDN обнаружил тему, которая на мой взгляд очень тесно связана с моим последним опусом по поводу поиска и анонимности в интернет. Топик называется “Влияние интернета на качество знаний“. В основном обсуждающие ушли в тему “раньше и трава была зеленее и деревья выше…”, а также в критику этого. Мне же вот кажется что проблема есть. И она как раз в прямую связана с моим предыдущим постом “Всемирная помойка или почему поиск не всегда помогает”. Вот мое мнение (скопировано прямо из указанного топика):

Речь я думаю скорее шла о том, что любыми знаниями и инструментами нужно уметь правильно пользоваться.
То есть гуглом нужно уметь пользоваться и осознавать степень точности, глубины и полноты того, что ты
от него получаешь.

А современное образование не очень этому способствует. Отсюда и получается то самое дилетантство, о котором
говорил автор исходного топика. Люди просто не всегда правильно пользуются хорошим инструментом.

Кроме того, в интернет довольно плохо продумана концепция авторства — то есть читая ту или иную информацию ты не всегда можешь понять
насколько можно доверять ей. Ведь наша оценка во многом основана на субъективном восприятии “репутации” того или иного человека —например если я вижу в форуме C++ сообщения от Павла Кузнецова, то ещё до прочтения я буду доверять ему больше чем сообщению от Васи Пупкина. Потому что “репутация”. В интернет понять кто является автором того или иного сообщения можно не всегда, а соответственно степень доверия этому сообщению может быть довольно трудно определить.Тот кто этого не понимает —вполне может нахвататься разного рода псевдонаучных теорий и быть искренне уверенным что они правдивы — просто потому что “печатному” слову доверие больше чем устному.

Проблема образования и слишком большого количества анонимности в интернет, имхо. Анонимность провоцирует людей на написание непроверенных ине очень выверенных статей, а недостаток умения работать с материалом побуждает других людей верить всему этому.

Всемирная помойка, или почему поиск не всегда помогает

Интернет - это всемирная помойка. Это утверждение уже давно стало общим местом. И ведь действительно - интернет заполнен спамом, огромную долю “информационного” наполнения сайтов составляет порнография. Из оставшегося - неимоверное количество различных форумов и мест общения, качество информационного наполнения которых просто неимоверно низко. Огромное количество непроверенной, неточной, неполной, неприменимой к конкретному случаю и просто ложной информации. Масса псевдонаучных, лживых и популистских ресурсов, на которых рассказывается о вечных двигателях, дармовых источниках энергии, инопланетянах, телепатии и тому подобном.

Все это - явления из реальной жизни, перекочевавшие в виртуальную и нашедшие там свой второй дом. Причем этот второй дом - существенно лучше первого. Огромная разница, благодаря которой все это стало возможным, состоит в анонимности интернета. До появления Сети, многочисленной армии шарлатанов, графоманов (коим принадлежит без сомнения и ваш покорный слуга) и прочих недостаточно компетентных личностей, противостояла армия редакторов, корректоров, рецензентов и так далее. Книга статья или заметка не может появиться, без того чобы её прочел редактор, корректор, возможно один или несколько научных консультантов. Попасть “в печать” было трудно. Многие не справлялись с этими трудностями и просто не могли проникнуть на страницы изданий и стать доступными широким массам читателей. Конечно, в этом было много плохого - можно было пользоваться всеми этими “заградотрядами” как цензурой, отсекать инакомыслящих и “не давать дороги молодым перспективным ученым”. Но было в этом и хорошее - псевдонаучные, безграмотные теории не могли пройти редакторов и консультантов. А самое главное - автор не мог остаться в тени. Уже если книга или статья выходила, и оказывалось что её научное “качество” не заслуживает никакой критики, то репутация автора очень страдала. И наоборот, хорошая работа, выполненная на высоком уровне, давала автору заслуженную славу и уважение коллег. Репутация автора - очень важная вещь. При помощи репутации автора мы выбираем книги, музыку, фильмы. Это не всегда может быть правлиьный подход, но это подход которым пользуются люди - даже современный мир шоу-бизнеса основан на репутации раскрученных звезд. Собственно “раскрутка” - это и есть способ искуственного поднятия репутации.

Наш способ первоначального “нахождения” вещей основан на репутации - мы смотрим кто автор того или иного произведения искусства, теории или гипотезы и на основании личности автора часто делаем вывод, заслуживает ли его создание дальнейшего рассмотрения. Мы идем на “Дениса Мацуева”, а не на Ивана Иванова, если мы ничего не знаем про Иванова. Мы выбираем учебник “Фихтенгольца”, потому что у него заслуженная репутация.

Анонимность - это вещь препятствующая репутации. Как можно выбрать между двумя учебниками, если неизвестно кто написал их - студент второго курса или маститый ученый? Как можно решить пойти ли смотреть фильм Иванова или Петрова, если мы ничего не знаем ни про Иванова, ни про Петрова? Только одним способом - посмотреть оба фильма, выбрать лучший и в следующий раз у вас уже будет знание… А что если фильм не подписан? Очень трудно сделать осознанный выбор, имея только анонимные данные.

С другой стороны, для некомпетентного автора, анонимность - лучший подарок. Можно совершенно не опасаться последствий.

Мне кажется что именно из-за того, что Интернет-технологии не предлагают никаких простых механизмов для обеспечения авторства и получается это самое наполнение Сети мусором.
Необходимо разрабатывать системы, обеспечивающие наличие и обеспечение авторства, тогда и поиск будет работать как надо.

( Между прочим такие системы вроде бы уже есть и разрабатываются, но конечно до массового применения им пока далеко. Проект пионера гипертекста Теда Нельсона Xanadu включал в себя обязательный copyright, то есть по сути систему гарантирующую авторство. Надо признать, что это очень интересный (особенно учитывая тот факт что он зародился ещё в 60-е годы), но совершенно провальный проект. )

Заметим, что поиск информации - это тот же выбор. Системы поиска, ранжирующие результаты по количеству внешних ссылок, по сути пользуются вторичным индексом. Человек, как мне кажется, ищет пользуясь репутационными критериями. А уже в результате этих репутационных критериев возникает желание сослаться натого или иного автора. Но не наоборот! Я включу книгу Страуструпа в свою библиографию не потому что его книгу уже включили другие, а потому что его репутация в моих глазах достаточно высока!

Поиск должен быть репутационным, документы следует ранжировать не по ссылочной популярности, а по репутационной, то есть по степени уважаемости автора данной страницы. Для этого конечно необходима соответствующая техническая поддержка авторства, которая обеспечивала бы необходимую и неизменяемую технологию подписи и соответствия подписи реальному человеку или компании. Тогда, неподписанные, анонимные статьи попадали бы на более низкие места в поисковых запросах, и может быть стали бы исчезать.

lktalks

пятница, мая 01, 2009

Слайды с первой демонстрации WolframAlpha

среда, декабря 27, 2006

Всемирная помойка 2: Wikiasari

четверг, декабря 21, 2006

Пояснение об анонимности в Сети

RSDN: Влияние интернета на качество знаний

Всемирная помойка, или почему поиск не всегда помогает

Поиск по этому блогу

Категории

Архив блога

Интересное в блогах

Меня читают

Мой список блогов

я читаю

Syndication

О себе