ПоискПочтаКалендарьДеньгиМой КругФоткиНародОткрытки
Войти


Чтобы получить доступ ко всем возможностям Я.ру, создайте страницу или , если у вас она уже есть.
userpic

клуб  

Присоединившись к клубу, вы сможете вывешивать фотки в галерее и создавать новые темы для обсуждения. Обсуждаемые темы клуба будут появляться на странице «Что нового».
Вступить в клуб

записи по  

месяцам · меткам · типам

выделить все / снять выделение

Показать
Sailor написал
изменено 2 февраля, в 13:54
userpic
Mining Opinions in Twitter
Может кому-нибудь будет интересно. Во всяком случае, распознавание и анализ мнений в Твитере  имеет отношение и к интернету и к математике:
---------- Forwarded message ----------
From: dokondr <dokondr@gmail.com>
Date: Thu, Feb 2, 2012 at 12:54 AM
Subject: ANN: NubFinder : Mining Opinions on the Web
To: nlp@projects.haskell.org
Hello,
I am pleased to announce NubFinder research project.
Goal: develop technology to search and analyze user opinions on the Web.
NubFinder and NubTrend are research prototypes trying first to accomplish a more 'simple' task  - classification of emotions in Twitter messages, and then approach opinion mining.
NubFinder project site:
https://sites.google.com/site/nubfinder
NubFinder discussion group:
http://groups.google.com/group/nubfinder
Thanks for your interest in NubFinder Research!
--
All the best,
Dmitri O. Kondratiev
"This is what keeps me going: discovery"
dokondr@gmail.com
http://sites.google.com/site/dokondr/welcome
stadov.ilya написало
17 января, 00:58
userpic
Приветики
Sasha Artemyev написало
30 декабря 2011 года, 15:28
userpic
Нужна консультация по анализу логов пользователей на сайте

Здравствуйте!

Начинаю проект по анализу взаимодействия пользователей с коммерческим сайтом.

Задача родственна теме конкурса.

 

mfigurnov написал
23 декабря 2011 года, 21:45
userpic
Итоговый рейтинг и участники, состоящие более, чем в одной команде

18 декабря участникам конкурса было разослано письмо следующего содержания: "We would like to remind you that it is not allowed to be registered in more than one team. If some participant is registered in more than one team, both teams are not eligible for prizes and must be banned from participation." (перевод: "Напоминаем вам, что нельзя регистрироваться более, чем в одной команде. Если какой-то участник зарегистрирован более, чем в одной команде, обе команды не имеют права на получение призов и отстраняются от участия.")

Я обратил внимание на некоторые странные факты в рейтинге:

1) Ясно, что если в решении переставить документы для каждой пары запрос-регион в обратном порядке, то рейтинг изменится с X на 1-X. В последний день соревнования команды helltheclick и clickmodel стали отправлять решения, которые отправили их в самый конец рейтинга, хотя до этого они занимали неплохие места.

2) Итоговый результат keinorhasen и (1 - итоговый результат helltheclick) на валидационной выборке равны, соответственно, 0.667619 и 0.66748 (расхождение 0.000139); на контрольной выборке - 0.660982 и 0.661259 (расхождение 0.000277).

3) Аналогично, (1 - итоговый результат clickmodel) на валидационной и контрольной выборке равны, соответственно, 0.666749 и 0.660892, что тоже очень близко к результату keinorhasen.

4) Скорее всего, helltheclick мог бы занять первое место среди участников конкурса, просто переставив документы в своём решении в обратном порядке, но вместо этого занял предпоследнее место.

5) По моим наблюдениям, весь конкурс команды helltheclick, ailab, и Take it and go загружали решения практически синхронно. В рейтинге, доступном на сайте, у них равное число попыток, что также достаточно нетипично.

На основании этих фактов я считаю, что команда keinorhasen использовала команды helltheclick и clickmodel для "дополнительных отправок". Возможно, то же относится и к командам ailab и Take it and go.

Также мне кажется, что команды omg, OMG!!, OMG!!!, aaa и aaaaiiii могут принадлежать одним и тем же людям: у этих команд похожи названия, итоговые результаты, четыре команды из пяти были созданы в последний день и имеют одну отправку.

Я отправил письмо администрации с указанием этих фактов и получил ответ, что доказательства с использованием математической статистики не являются достаточными для исключения команд из конкурса, а также что обмен опытом и идеями между командами не запрещён.

На мой взгляд, такая позиция формально соответствует правилам, но противоречит им по духу. Аналогичная ситуация возникла также в одном из конкурсов kaggle, после чего в правила тех соревнований был включён пункт пункт 3.6: «No individual or entity may share solutions or code for any competition, or collaborate in any way, with any other individual or entity that is participating as a separate individual or entity for the same competition. The foregoing shall not apply to any public communications, such as forum participation or blog posts.», т.е. был запрещён обмен опытом и кодом между командами любым способом, кроме сообщений на общедоступных форумах и в блогах. Предлагаю добавить аналогичный пункт в правила будущих конкурсов «Интернет-математика».

Я считаю, что участники конкурса должны знать об этих фактах. Также мне очень хотелось бы услышать комментарии от команды keinorhasen как от победителей конкурса.

ya.victor71 написал
изменено 22 декабря 2011 года, в 12:33
userpic
Конкурс завершён досрочно

Необязательность в организации конкурса оставляет негативное впечатление.

Если объявлено, что завершение конкурса в 13-00, то почему в 12-15 при попытке загрузить решение пишется, что конкурс завершён?

AlekseyA.D написал
10 декабря 2011 года, 07:50
userpic
Загрузка решения

Скажите, пожалуйста, как понять,что решение загружено?

Я отправляю файл, после загрузки идет преренаправление на пустую страницу.

На почту уведомления о загрузке не приходит.

 (просто я один раз ввел не тот пароль, а ответ на загрузку был такой же, как и при корректном пароле, поэтому не могу поянть успешно загружено решение или нет). 

 

Спасибо. 

МЕГА БОТАН написал
21 ноября 2011 года, 11:15
userpic
Уточнение данных для оценки

Здравствуйте! В условии конкурса нашел фразу:


"Обратите внимание, что в тренировочной части данных есть запросы с оценками только одного вида и запросы с более чем 300 показанными урлами. В тестовой части данных таких запросов нет."


При этом среди (Запросов+Регион), которые нужно оценить есть большое количество таких, для которых было показано более 300 урлов. Пример: (1003 1; 10241 0; 103 1  и многие другие).

 

Разъясните, пожалуйста, на какую информацию ориентироваться?

 

Большое спасибо!

Сам написал
8 ноября 2011 года, 16:11
userpic
Об общем количестве "правильных" URLID

Уважаемые
организаторы, можете ли Вы предоставить участникам дополнительную полезную "контрольную
сумму"? Речь идет об общем количестве "правильных"
URLID,
которые должны присутствовать в файле результата с тем, чтобы оценка не была искусственно
ухудшена. Наличие этого количества позволит участникам удостовериться, что они
правильно понимают условия отбора документов для запросов.

n0mad поделился ссылкой
3 ноября 2011 года, 16:03
userpic
Ссылки на статьи по тематике ИМат
Обзор конечно же не полный, буду рад дополнениям.
serdyukovpavel написало
31 октября 2011 года, 14:17
userpic
Стартовала новая "Интернет-Математика"

Второй раз в этом году мы проводим конкурс "Интернет-математика". 


Цель этого конкретного конкурса — предоставить всем желающим возможность провести исследования по предсказанию релевантности документов по пользовательскому поведению. Специально для конкурса Яндекс предоставляет уникальный набор данных — информацию о переходах на документы из результатов поиска и асессорские оценки релевантности этих документов. Все данные о поисковом поведении принципиально обезличены, а в данных, предоставляемых для данного конкурса, удалены также тексты запросов и адреса сайтов (путем замены на случайные числовые идентификаторы). Таким образом, конкурсная задача представлена в максимально абстрактном математическом виде.


Как и раньше, участвовать можно в одиночку или командой, за первые три места участников ждет приз. Лучшему российскому участнику мы оплатим полет в Сиэтл, США, где пройдет презентация лучших решений, и регистрацию на ведущую конференцию по веб поиску – WSDM 2012.

Подробная информация о конкурсе, данные и рейтинг решений — на сайте imat-relpred.yandex.ru, общение участников — в клубе.

Решайтесь решать!


Павел Сердюков

pbras написал
15 августа 2011 года, 17:42
userpic
Дорожка РОМИПа на данных ИМАТ2011?

Возможно, вы знаете, что есть такая инициатива по оценке методов информационного поиска - РОМИП. В рамках РОМИПа есть дорожки поиска по изображениям.

Было бы вам интересно поучаствовать в дорожке РОМИПа на данных ИМАТ2011? Задача - например, кластеризация всех картинок набора (а не только внутри серий).

Депутат Госдумы написал
26 июня 2011 года, 23:47
userpic
Выведение интерполяционного многочлена имея лишь точки-экстремумы и точки с нулевым градиентом

Подскажите, пожалуйста, метод, что я делаю неправильно. Ато математику уже подзабыл основательно.

Дано: известны 3 точки: (-3;4), (0;2), (2;-4). Известно, что первая и третья - экстремумы, а вторая - не экструмум, но производная там = 0. График выглядит примерно так.

( мои рассуждения )

=====================

Попытка №1: По идее, раз речь идёт о 3-ёх точках, имеем 3 полинома образующих систему уравнений. Но в такой системе уравнений может быть только 3 неизвестных, а значит найденный полином может выглядеть максимум, как

f(x)=a*x^2 + b*x + c

Не то, ибо это парабола. Правильно, я же не воспользовался информацией о производных!

Имея в виду производные получаю систему из 6 уравнений:

f(-3)=4

f(0)=2

f(2)=-4

f '(-3)=0

f '(0)=0

f '(2)=0

Плюс, судя по картинке, седьмое

f ''(0)=0

Таким образом я могу иметь функцию f(x) полиномом с максимальной степенью 6. Но интуиция мне подсказывает, что это многовато.

Давайте обратим внимание на гиперболу. У этой функции f '(0)=0 и f ''(0)=0, поэтому у этого полинома и есть только один член - со степенью 3 - для остальных членов коэфициенты = 0. Стало быть если для нашей функции, для первого экстремума (-3;4) нужен 1 член полинома для левой ветки и 1 для правой, для второго экстремума (2;-4) тоже нужны 2 члена, то для точки между ними нужны 1 член разделяемый с экстремумом слева, 1 член разделяемый с экстремумом справа, и один дополнительный член для серёдки (наподобии, как у геперболы). Итого всего 5 членов.

Плюс константа. Значит, действительно 6 переменных.

f(x)=a*x^5 + b*x^4+ c*x^3 + d*x^2 + e*x + f

, где коэфиценты a-f - неизвестны и их можно найти из системы уравнений.

НО УРАВНЕНИЙ-ТО 7 !!!

Ладно, 7 - так 7. Образовал матрицу для решения системы уравнений методом Гаусса для 7 неизвестных (последний столбец - то что стоит за знаком равенства; последние 2 строчки - f '(0)=0 и f ''(0)=0):):

729    -243    81    -27    9    -3    1    4

0    0    0    0    0    0    1    2

64    32    16    8    4    2    1    -4

-1458    405    -108    27    -6    1    0    0

192    80    32    12    4    1    0    0

0    0    0    0    0    1    0    0

0    0    0    0    1    0    0    0

Решил с помощью онлайн-решалки методом Гаусса

Корни:

a = 0,052851852

b = 0,199185185

c = -0,305962963

d = -1,35762963

e = 0

f = 0

g = 2

Нарисовал:

Не то. Лишняя переменная таки сказалась, и между точками (-3;4), (0;2) появился никому не нужный экстремум. Что делать? Убрать одно из уравнений? Но тогда теряется логика. Где ошибка?

Дополнительно, когда решу эту задачу, нужно ещё будет решить с тем усложнением, чтобы после самого правого экстремума линия не просто вверх уходила, а под определённым углом...

Наверное тут тоже через доп. уравнение с производной. Но опять же, куда новую неизвестную "примостить"? Сдаётся мне, в моих рассуждениях про применение производных где-то ошибка, но где? Прошу, помогите!





Алексей написал
27 мая 2011 года, 15:27
userpic
Корректировка финального рейтинга

Уважаемые участники!

В скрипт оценки решений финального этапа закралась опечатка, которая привела к неправильному подсчету рейтингов. Пожалуйста, не волнуйтесь: порядок команд в рейтинге правильный, победитель не изменился. Ошибка в формуле была с точностью до коэффициента, который остался от тренировочного этапа (25000 вместо 30000).

Мы храним все решения команд, поэтому нам удалось произвести пересчет оценок. Поскольку упомянутый коэффициент находится в знаменателе формулы, результаты всех команд несколько выросли - надеюсь, это хотя бы немного скомпенсирует вам неудовольствие от вынужденного пересчета.

С момента публикации этой записи все новые решения принимаются по правильной формуле.

От лица организаторов приношу извинения всем участникам, мы постараемся не допустить подобных случаев в дальнейшем.

pbras написал
26 мая 2011 года, 16:38
userpic
Опубликованы финальные результаты конкурса

Как видно из таблицы, победителем стала команда «Мифический Нижний Новгород» в составе: Илья Лысенков (капитан), Анатолий Бакшеев и Мария Димашова, все — компания Itseez. Рузультат победителей — 0.99324. Наши поздравления!

PS Мы снова открыли прием решений для финального набора данных.

Сергей Гуда написал
17 мая 2011 года, 16:08
userpic
Конкурс закончился, можно раскрыть карты

Предлагаю поделиться использованными методами.
Вот некоторые из наших:
1. Вместо того, чтобы сразу находить лишние фото в группе из пяти, для каждого возможного ответа оценивалась вероятность его правильности. Затем работала функция, которая выбирала не самый вероятный ответ, а тот, который с большей вероятностью в среднем принесет наименьшую ошибку (сравнивались матожидания ошибки).
2. Для оценки вероятностей фотографий быть лишними использовалось несколько подходов.
Лучшим оказался тот, который делил пять фотографий группы на две подгруппы так, чтобы максимальная похожесть фотографий из разных подгрупп была минимальной. Это хорошо работало на тестовой выборке, зато на финальной дало сбой. Дело в том, что в тестовой выборке два лишних фото всегда (почти?) были из одной панорамы, а в финальной - из разных. Пришлось в срочном порядке исправлять нашу ошибку.
3. Похожесть (метрику) между фотографиями можно считать множеством различных способов. Мы испробовали:
   
    а) Сравнение полноцветных гистограмм - количеств точек одного цвета. Вычислялась сумма по всем цветам минимального из количеств пикселей на одной и на другой фотографии этого цвета ( sum_{i=1}^n min(k1(i),k2(i)) ). Это основная составляющая. Чтобы быстро сравнивать гистограммы, их строили заранее, причем не по всем 16 млн. цветам, а по тем цветам, которые участвуют в фотографиях группы (их гораздо меньше). Такой подход позволил свести время разметки 5000 групп до нескольких секунд на обычной персоналке. Трудности вносила 32х-битная ОС, не позволяющая загрузить все в память. Для сравнения, время чтения jpg-файлов и построения гистограмм на этой же персоналке составляло 2 часа.
    Уменьшение количества используемых цветов (100 по H и S в HSV), а также введения всего 10 уровней яркости (V в HSV) позволило улучшить рейтинг и еще ускорило программу.
    К сожалению, подход с гистограммами не учитывает месторасположение пикселей на фотографиях. Большинство ошибок были связаны с наличием различных объектов одинакового цвета. Попытка делить фото горизонтальными линиями на 3 части повысила рейтинг, но не намного.
   
    б) Выделение множеств групп с гарантированным качеством разметки дало существенное преимущество и позволило упростить метод, исключив кучу операторов if. Идея в следующем: на этапе чтения jpg-файлов проводится быстрый неточный анализ. В случае, если он с 99% вероятностью уверен в ответе, то мы фиксируем ответ и исключаем группу из дальнейшего рассмотрения. Вероятность и остальные параметры рассчитывались по 1000 групп с известными ответами. Так удалось отделить 70% групп, рейтинг на которых был не меньше 0.99.
   
    в) Поиск наложений - весьма непростая задача. Фото сильно искажены, попытка исправить искажение не увенчалась успехом.  Пришлось программировать метод, учитывающий возможные искажения. Работал он следующим образом: сначала при помощи бегущего маленького (20х20 px) окошка посередине (y=150) фотографий устанавливались возможные величины сдвига, с которым могут накладываться фотографии. Потом эти величины проверялись 12-точечным резиновым шаблоном: брались 12 окошек 20х20 px в разных частях проверяемой общей области двух фото и сравнивались с различными маленькими смещениями от -15 до 15 px (поэтому - резиновый). Скорость метода была доведена до 0,1 с на пару фотографий, точность - 1% для ответа "накладываются" и 20% для ответа "не накладываются". К сожалению, беглая проверка точности метода на финальной выборке показала, что для ответа "накладываются" он стал врать гораздо чаще. Это было очень опасно. Подбирать параметры заново не было времени, и пришлось его отключить.
   
    г) Поиск одинаковых объектов и связанная с ним задача разбиения фото на объекты (кластеры) - очень мощный семантический метод, который был запрограммирован нами раньше, чем "Поиск наложений". Для кластеров можно определить центр, поэтому задача поиска наложений этим методом решалась гораздо быстрее и точнее. Однако, оказалось, что наша функция разбиения объекты на кластеры работает недопустимо большое время - 30с для одной фотографии. Есть методы, работающие гораздо быстрее (см. например, А.Ю. Дорогов, Р.Г. Курбанов, В.В. Разин "Быстродействующий алгоритм семантической классификации JPEG–изображений" - позволяет кластеризовать без декодировки jpg-файла). Но на их реализацию у нас не осталось времени.
   
    д) Поиск похожих групп в первой тысяче - очень интересный метод, позволяющий получить реальные вероятности ответов. Некоторые характеристики рассматриваемой группы сравниваются с аналогичными характеристиками первой тысячи групп. Так находятся несколько (20-50) наиболее похожих групп. По ним вычисляются вероятности ответов. В качестве характеристик мы брали наиболее значимую часть матрицы расстояний между фото. Сравнение нужно производить инвариантно относительно произвольной перестановки фотографий в группе (ответ должен учитывать эту перестановку!). Оказалось, что после подбора параметров наши вероятности хорошо совпадали с реальными, выданными этим методом. Но несмотря на это, заставить работать этот метод лучше, чем то, что было у нас, не удалось.
    Такой подход находит еще одно важное приложение. С его помощью можно найти "необычные" группы, не похожие ни на одну из первой 1000 штук. Подобрав параметры так, чтобы необычных групп получалось 5% от всех, мы получили номера групп в которых содержалась половина от всех наших ошибок. Мы ввели и подобрали для этих групп свои параметры метода. Это произошло 16 мая после 14:00, поэтому я до сих пор не знаю, как это сказалось на общем рейтинге.
    С финальной выборкой нас ждал сюрприз - "необычных" групп при тех же параметрах оказалось 30% ! Сюда вошли все группы, в которых две лишние фотографии были из разных панорам. Именно таким образом нам удалось найти ошибку в своем первом методе.

kokonoka написал
17 мая 2011 года, 14:13
userpic
Разошлите на почту хотя бы предварительный рейтинг

Разошлите, пожалуйста на почту хотя бы предварительный рейтинг. Без имен. Просто столбик со скором и место.

pbras опубликовал новость
13 мая 2011 года, 16:13
userpic
Доступен архив с финальным набором данных

См. http://imat2011.yandex.ru/datasets, пароль к архиву будет опубликован в 14.00 по московскому времени 16 мая 2011 г.

pbras написал
13 мая 2011 года, 13:38
userpic
Летняя школа EDBT/RuSSIR и «Интернет-математика»

Приглашаю участников «Интернет-математики» на совместную школу EDBT/RuSSIR, которая пройдет 15-19 августа в Санкт-Петербурге. Программа очень сильная, к тому же есть курс по индексированию и поиску мультимедийной информации. Ваши методы решения конкурсного задания — хорошая тема для постера или полноценной статьи. Авторам сильных заявок организаторы готовы предоставить гранты на участие, заявки принимаются до 25 мая.

Александр Чигорин написал
14 апреля 2011 года, 12:06
userpic
Летняя школа по компьютерному зрению

Добрый день!

 

Этим летом в МГУ будет проходить школа по компьютерному зрению. Среди лекторов - топые учёные с мировым именем (Andrew Blake, Andrew Zisserman и т.д.) Участие в школе абсолютно бесплатно. Кроме того бесплатны питание и развлекательная программа. Иногородним студентам предоставляется общежитие в главном здании МГУ. Лекции будут читаться частично на русском, частично на английском языках.

Все, кто интересуется компьютерным зрением или хочет узнать, как повысить процент верно сгруппированных панорам - подавайте заявки тут!

Удачи!

 

Александр написал
2 апреля 2011 года, 13:35
userpic
Вычисление метрики

Как получить указанное в примере http://imat2011.yandex.ru/datasets значение метрики 0,68068 для пустого файла результатов?

Правильно ли я понимаю, что значение метрики Q = (TP + TN) / (P + N), где 

P - число изображений, относящихся к панорамам

N - число "лишних" изображений

TP - число изображений, правильно классифицированных алгоритмом как часть панорам

TN - число изображений, праивльно классифицированных алгоритмом как лишние

Т.к. learning.txt содержит 1616 записей, то для примера "лишних нет" TP = 3384, TN = 0, P = 3384, N = 1616, тогда Q = 0.6768

Ошибка в моих рассуждениях или приведенных данных?

 

 

Что получается:    изменить 
Подписаться на комментарии к записи

Получать уведомления о всех ответах в этом обсуждении.

 
Отписаться от комментарев к записи

Получать уведомления только о тех ответах в этом обсуждении, которые адресованы лично вам.

 
К сожалению, комментарий не удалось отправить. Попробуйте ещё раз.я в курсе