Олимпиада для аналитиков от ТКС.
Не надо эту мерзость тут постить.
2 часа 12 минут!
что-то призовой фонд маленький
кто придумал задачу хуево подошел к подбору данных
В задаче про паспорта
29679 742047 УВД КАЛИНИНСКОГО Р-НА Г ЧЕЛЯБИНСКА 12M2004
если мы посмотрим другие данные коих большинство, получается что этот код принадлежит УВД ТРАКТОРОЗАВОДСКОГО РАЙОНА Г ЧЕЛЯБИНСКА
а у калининского района другой код подразделения.
походу там сидят горе аналитики =) данные они снимали скорее всего с продакшена и эталоны сняли шлаковые и самый пиздец в том что такие расхождения не единственные.
так народ выше и написал: Нахуй ТКС и Тинькова.
походу там сидят горе аналитики =) данные они снимали скорее всего с продакшена и эталоны сняли шлаковые и самый пиздец в том что такие расхождения не единственные.
как будто номера паспорта мало. ну ладно, пусть будет еще и код отделения, но расшифровать этот код еще нахрена?
конечно можно покумекать как их данные поправить, но чето уже лень, щас как только Олег напишет в фейсбуке про нее, в коменты ему насру, что халтурно подошли к заданиям

но расшифровать этот код еще нахрена?чтобы аналитиков нанимать!

вроде задача как раз про поправить?
нигде же не обещается, что обучающие данные должны быть 100% верными.
Можно сверить, может сдвигом )
Реальные данные раскрывать нельзяКоды подразделений УФМС - это секретные данные? Давно ли?
Мб не хотели как-то попасть под ФЗ о защите персональных данных.
нигде же не обещается, что обучающие данные должны быть 100% верными.это понятно, но я не думал что будет такой факап с ключами(код подразделения который), то что там написано далее это не важно, машинка обучается нормально.
пришлось обучить еще шлаковые модельные данные прочищать
Важно понимать, не ошибся ли клиент, заполняя другие поля: «код подразделения»
Может в этом причина?
в коменты ему насру, что я не умею решать такие заданияFixed
Напомню: олимпиада для аналитиков, а не программистов.
Напомню: олимпиада для аналитиков, а не программистов.да весьма ценное замечание, учту
походу там сидят горе аналитики =) данные они снимали скорее всего с продакшена и эталоны сняли шлаковые и самый пиздец в том что такие расхождения не единственные.был уже где-то ответ, что обучающая выборка в этой задаче - это то, что реально в анкетах
то есть надо как-то статистически выделить правдоподобные значения, а уже потом применять их к тестовой выборке
какой бы тогда был смысл в 50.000 обучающей?
самому интересно сколько будет правильно

ты Денис?)

вообще по моим подсчетам у меня должно было получится в районе 830-840 тысяч, где-то ошибся, ошибку хрен найдешь

я тут вот чо хотел спросить, остается лучшей результат в таблице верно? а письмом приходят результаты проверки версии которую послал.
там методики из data mining надо использовать? или достаточно ввести правила и на основе корреляций подбирать эти правила?
PS это задача чистоганом из интернет-банка, чтобы там отображать эмблемы продавцов рядом с операциями по карте. Но в реальности она решается проще - изначально по ТОП-100 создал справочник "код" - "продавец" на основе описаний транзакций - ex."Pokupka po karte na 100 RUR v McCafe"- и все. Такого, чтобы были отдельно коды и отдельно названия продавцов сложно себе представить в реальности.
по опыту могу сказать что сеть может быть распиздяйской и когда подключают точку бывают путают mcc. в ветке тинькова на банках про это кстати пишут.
сеть может быть распиздяйской и когда подключают точку бывают путают mccда, mcc они могут перепутать, но id сети постоянно и известно. его и можно занести в справочник.
ты решал на основании самообучающейся программы? или статистики? просто интересно.
типа М и Ж, страны, средний чек ну и так далее.
вот с задачей про паспорта у меня прога самообучающая, я вчера второе решение отослал и еще есть доп алгоритм, если понадобится его применю. третью даже не смотрел пока
сначала отобрать для названий сетей наиболее характерные для них mcc.
потом сопоставит названия с множеством возможных id (на основе mcc)
аналогично по возрасту: на заправках скорее всего покупают от 18 до 50, детские вещи - от 20 до 35. И точно так же по среднему возрасту сопоставить названиям множества id
потом по среднему чеку
потом по периодичности платежей одним человеком - за телефон, инет и заправки - платят с некоторой периодичностью
ну и так по остальным параметрам.
в итоге получим названия и соответствующие им id по каждому разрезу. Пересечения id для одного названия в итоге и будет наиболее вероятным id.
Как-то так.
третью даже не смотрел покав третьей результаты пока достаточно вяленькие, видно, что решений толком нет.
Однако точно определить сеть и нормально ее представить все равно не всегда так просто, т.к. текстовые описания приходят разные в рамках одной сети (и на них не действуют правила МПС, каждый мерчант и еквайр пишет туда что ему вздумается), а айдишники - меняются постоянно.
Кстати, еще момент. Разница не большая, в принципе, но если бы данные выкладывались в csv, было бы удобнее.
ну и принимались бы тоже, но в группе на фейсе пишут что типа эксель самый распространенный
эксель самый распространенныйсамый распространенный инструмент аналитиков))))
запилим csv в понедельник/вторник
самый распространенный инструмент аналитиков))Эксель - лучшая подруга бизнес-аналитика
и в sql сразу плиз
кстати, такой вопрос — а вы сами везде верно проставили мёрчант_ид, или в ваших данных тоже ошибки допускаются?


и можно будет третью делать.
интересно седня будет посмотреть результаты по второй, я свой результат улучшил уже отбивка пришла, вот интересно сколько там можно максимум балов набрать

вот интересно сколько там можно максимум балов набратьТам же написано.
За каждый верно проставленный код подразделения: 1 балл.Максимум при таком раскладе 967541, если нет никаких скрытых оценок.
За отсутствие кода подразделения - 0 баллов.
За каждый неверно проставленный код подразделения: -1 балл
ну начнем с того что всего надо проставить 870 тысяч(в файле шаблона результата) и некоторые проставлять нельзя типа когда стоит УФМС и не более того
и там всё ок отделяется, что продемонстрировал Илья, идущий первым, с первой попытки 45/50, но *инсайд* у него уже 48
ты пока первый с небольшим заделом, сегодня не успели обновиться, завтра с утра будут таблички
ты пока первый с небольшим заделомда я думаю перегенерить результат, есть чето подозрение что у меня факапится обучение где-то и я не досчитываюсь 20-30 тысяч в результатах.
по поводу небольшого задела, чтобы проставить 1000 паспортов, например, руками уйдет минимум часов 5


проставить 870 тысячда, я невнимателен, посмотрел максимальный id, а не количество строк в файле.
Сижу пока над паспортами, вчера вечером отправил кое-что, за сегодня похоже сильно улучшил, но хотелось бы посмотреть результат вчерашнего перед новой посылкой.
ага приходит на почту. я сижу жду результатов по первой
С учетом того, сколько ошибок потом было найдено в использованном алгоритме и тем, что сейчас написан еще один, все не так плохо


сейчас обновим таблицы и добавим .csv
PS бодрячок пока топ-1 по сумме


проверьте решение 1ой только что отослал чековое


P.S. Игорь, если вдруг ты проверяешь решения / имеешь доступ к почте, я там послал два почти одинаковых файла щаз, отличия в том, что в первом я не удалил колонки, в которые я выписывал MCC коды и писал свои забавные комментарии по поводу того, что я думаю об этих компаниях ;-))
P.P.S. пришло уведомление, что неким Анисимовым Даниилом оба письма получены )

короче выслал окончательно нормальный файл и обозвал его уже второй попыткой... давно что-то я не участвовал ни в каких олимпиадах и совсем позабыл, что надо быть внимательным...

я вот начал со второй пока ее проверяли делал первую, вчера отправил первую и седня ее же чек(посмотрел третью и прикинул как буду решать), на первую забил пока, починил паспорта, щас генерю результат новый.
чото не интересные комментарии, я ожидал эксцентрикипо поводу алгоритмов а тетрадочку с записями можно отфотканую предоставить

и насколько будут требоваться досконально описывать их
по поводу алгоритмов а тетрадочку с записями можно отфотканую предоставить ?ты в топе сначала удержись)
и насколько будут требоваться досконально описывать их

кстати сколько всего человек участвует или эта инфа не раскрывается ?
но задроты обычно к концу просыпаются
но задроты обычно к концу просыпаютсяпобороться с бодрячком меня даже немного прельщает. а когда там окончание-то? денек-два есть еще?
19 дней еще
я столько всего нового и интересного узнал про торговлю в нашей славной родине.бггг, я тоже; я наверное почти половине торговых сетей вообще впервые услышал ))))
а уж как расширил знания о геогграфии так вообще неописуенно

мерчанты геморная задача, много читать приходится, чтобы цифры сопоставлять.
я все делал sql запросами, а проганья там ровно на то чтобы все в базу залить.
паспорта у меня в памяти полностью делаются, но тут ссд диски сильно спаают, вся эта шлака грузится у меня около секунды, поэтому дернуть какой-нить код под отладчиком где-нить в середине и посмотреть где он факапит проблемы вообще нет. на фейсе народ пишет, что для некоторой техники тяжеловаты файлики


092002 и 92002 у вас одинаково интерпретируется при проверке данных ?
я чето потерялся: мельком это обнаружил, что у меня эксель 0 сжирает а в csv 092002
просто вот такая регулярка на моем result.csv
[0-9]+[;]{1}0[0-9]{5}$ дает >50000 типа коды которые 092022 пятизначные но начинаются с нуля
14000 у меня определяет как ошибки которые нужно просмотреть руками

ладно пофиг посылаю дубль 3
мельком это обнаружил, что у меня эксель 0 сжирает а в csv 092002Правильно, csv - наш формат, а буржуйский эксель - лесом.

я вот и задумался конечно попыток еще много, но чето мне уже с паспортами надоело возюкацо
Изначально мы хотели сделать 100 и 300, но потом решили, что это слишком и сократили до 50/100ну если дать больше данных описывающих транзакцию(например адрес с вырезанным названием сети) и количества попыток, то это реально было бы.
но тогда 100 процентов нужно было бы автоматизировать
ответь плиз на вопрос в задачи про паспорта
092002 и 92002 у вас одинаково интерпретируется при проверке данных ?
мне тоже очень интересно, ответь плз.
да и где ответы? время уже 12 а ответов все нет!
обед же!

ну что, для оценок на глаз вполне неплохо
запилил тоже данные в sql,
будет не лень постараюсь улучшить
да, при проверке добиваются нули слева, если длина меньше 6 символов.
блин а мне еще отбивки не пришло я вторую ночью отослал, а первую в 7 утра

меня больше всего 1ая щас интересует



я не вижу от тебя сегодня писем на best-talents, как и в спаме
ну давай еще раз перешлю ничего страшного что если два раза прийдет если дойдет
по одному клиенту приходят из разных бюро один договор, например 3жды.
но в одном расхождение в relationship, что это может значить. ошибка в данных ?


до сих пор не могу найти, что перепутано и какой неверный
ну что, кто первый с форума сботает первую на 250?
я не могу понять какие 2 у меня перепутаны.

но щас есть выборка из 4х исходов.

upd: Игорь только что сказал, что 226 :-), т.е. -1 балл от бодрячка, но у меня попыток больше нет (
молодцом, дальше участвуешь? интересно дефка которая вылезла, она с какой попытки 230 набрала ?
ну что, кто первый с форума сботает первую на 250?отправил последнюю попытку. проверь плиз не томи

а вообще говоря, я уже после 5-й попытки своей понял, что на 1ю задачу-то, в отличие от 2 и 3, можно читерить было и отправлять «проверочные» решения с других мыл под другими именами... (Игорь, я так не делал

—
поэтому всё равно, думаю, призы будут разыграны между теми, кто решит хорошо 2 и 3, а 1 в итоге окажется разминкой, как собсно Игорь и предполагал
можно читерить было и отправлять «проверочные» решения с других мыл под другими именами...ну это да я тоже об этом думал, поэтому не исключено что будет много 50к.
ПС. я тоже так не делал
Девушка взяла 230 с первой попытки. До этого с первой был рекорд 225.
gmail.com and so on правильные ответы вычисляла?
ну а откуда ты знаешь, что у неё это первая попытка? может она до этого под именем Василия Петровича с почты 


эммм, объясни-ка как ты определяешь сети без привязки их к нужным порядковым номерам ;-)
дальше было 4ре исходам и я по этим исходам построил финалку. но походу предположения были неверны и финалку я очень сильно слажал.
в ней минимум 25 сетей железно ставятся на своё место и абсолютно однозначно,
в остальных например ты уверен не так сильно,
и от этого начинаешь плясать, думая какие бы заменить / поменять местами, чтобы гарантированно максимально улучшить результат.
я по-крайней мере делал так,
но тоже в силу своей некоей криворукости и тупняка плохо распорядился попытками и в принципе мог бы распорядиться ими лучше и улучшить результат поболее.

щютка, надо как-то отпимизировать написанный перебор за 5 минут ))))
Upd: 85 часов,
не определяется или неверно определяется по прикидкам где-то 1-2%
Upd: 73 часа

Игорь отпишись о том как там дела у остальных? а то я в раздумьях продолжать не продолжать.
и далее захерачил на php код на 15 строк, который считает расстояние Левенштайна от выясняемого КП до обучающих данных, если оно меньше 4, то это автоматом ok и можно приступать к следующему, если от 4 до 9 — ok, но не совсем (вычисленное расстояние записываем в БД на всякий, чтоб потом сделать несколько контрольных проверок), если >10, то шняга; на практике расстояние в 8-9 уже не всегда означает, что подобрано верно, а тех, для которых >10 около 1-3%, но их надо будет рассмотреть другим скриптом потом, который подойдёт более тонко к процессу ))
засада в том, что php не умеет исполнять скрипты дольше 10 минут, даже если в php.ini указать больше, поэтому надо чё-нить ещё хитрое придумать

ну и теоретически, если гонять комп, то до 21 апреля успеваю )))))
ну обновится сегодня табличка к концу рабочего дня, как обычно, но принципиально ничего не изменилось
кстати по поводу идеи левенштайна на всю входную последовательность думаю я ее пременю тоже после того как все прогоню мб она еще че добавит, ну и каждые 100к делаются 15 минут в среднем у меня
мб чо и обломится


Доволен


Пришел ответ по второй задаче: 821381 со второй попытки.так ведь надо еще две решить


821к вряд ли позволят претендовать на Ipad)
вряд ли позволят претендовать на Ipadна айпад тока сиськи претендуют

Начал поздно, "пилю" из спортивного интереса...
те кто не решат скажем одну из задач но при этом будут в топе они же вылетают по правилам и все остальные подползают вверх?
как вы будите считать?Считается ли решением задачи "случайное" решение с ненулевым результатом?
те кто не решат скажем одну из задач но при этом будут в топе они же вылетают по правилам и все остальные подползают вверх?


можно решить только одну, заняв первое место
для того чтобы мне не выбыть мне надо прислать 2а фейковых решения 2 и 3.
я же по правилам выбываю верно ?где написано что надо решить все три?
где написано что надо решить все три?Условия участия
Со всеми вопросами обращайтесь на best-tcsbank.ru c темой письма «Олимпиада».
Претенденты на приз должны прислать решение трех задач до 21.04.2013.
по смыслу фраза о конечном сроке, а не о кол-ве задач.

но суть в том, что можно решать одну, поправим
забил на третью по этому поводу и стал допиливать паспорта

запустил перегенерацию паспортов, два решения завтра сможете проверить ?
отослал 4 версию 2ой, щас досчитывается 5ая версия ориентировачно 2 часа считать еще будет.
Ай Ай Ай хочу инсайда че там во второй? кто нить еще больше 830к набрал ? сколько по ней максимум щас?
бодрячог на 4ом
(свой пятничный результат в 835к я улучшил тысяч на 5-6 ручками точно



а я кажись с айпадом
сколько во второй набрал ? И ты понял зачем там были даны данные дата выдачи?
И ты понял зачем там были даны данные дата выдачи?Думаю, что со временем код подразделения может поменяться.
На даты вообще не смотрел,
если и действительно может меняться код подразделения у одинаковых строк в зависимости от даты выдачи, то это макс. с 1-2 кодами так.
последние тысячи дались ручками очень тяжело, всю автоматику в пень уже послал )
а вообще по моим оценкам при должном упорстве и сообразительности и 850 набрать можно было
а так да молодец чо! офер может дадут кроме айпада


меня ещё напрягало, когда явно для вроде как разных подразделений (1-е отделением милиции мухосранска, 2-е отделением милиции мухосранска, 3-е отделение милиции мухосранска) давался один и тот же код неоднократно.
вроде как разных подразделений (1-е отделением милиции мухосранска, 2-е отделением милиции мухосранска, 3-е отделение милиции мухосранска) давался один и тот же код неоднократно.ну на самом деле тоже непонятно как разруливать, допустим идет ОМ1 18 ОМ3 20 гугление по ОМ2 показывает что КП 19 его в тренировачной выборке нет, что ставить ?
тоже самое с ОВД и УФМС в выборке в Сочах овд есть, а уфмс нет. гугление показывает что код уфмс сочей найти можно.
*Игорь меня огорчил... не дадут айпад... оказывается, потянуло на денежный приз. А я айпад хотел. Я ж его сам себе не куплю, жаба задушит ))
надо было финальную версию из-под другого человека выкидывать, тогда и ипад тебе, и приз)
а так поздравляю молодцом!
надо было финальную версию из-под другого человека выкидывать, тогда и ипад тебе, и приз)тогда бы меня тоже дисквалифицировали...
гы, 552039 это где-то в Омске, наизусть уже знаю )) УВД №1 ЦАО Г ОМСКА вроде ))))
как?
скажем вот была Елена, которая набрала 250 в первой она видит, что есть результаты первой, который в сумме с другими задачами, лучше ее, она просит знакомых запостить 245 и отжимает у него результат.
а так конечно чтобы серьезно претендовать надо было первую на максимум решать, было бы проще

оно самое
что-то ты какое-то зло на Елену держишь)
а, я что-то пропустил, кого-то дисквалифицировали на этой теме?это пусть Игорь рассказывает, мне он написал, что да, кого-то того собираются, кикнуть за не fair play
как?
а так конечно чтобы серьезно претендовать надо было первую на максимум решать, было бы прощекак видишь, оказалось первую можно вообще не решать в споре за результат, Игорь был прав ) просто в той системе оценки, которую они выбрали (напр., 5 человек запостило 250 и сумма баллов за 1-е 5 мест делится между ними), баллы за макс. результат в первой задаче девальвировались, и стали рулить результаты по другим задачам.
ему просто пришлось выдумать, как бы тебе ипад не отдать)
а так довольно интересно было поучаствовать


как видишь, оказалось первую можно вообще не решать в споре за результат, Игорь был прав )ну имея в загашнике девальнутые баллы и решив 2ую, как Илья сделал, можно было бы попотеть еще.
мошенники - ребята кучу раз пропалились, за 10 попыток взяли 250 по первой оба, пытались решать перебором 3юю из-под кучи почтовых ящиков, итоговое решение выглядело у второго, как pd+rand(0.001) к результату первого по каждому клиенту
наименование органа зависит от даты выдачи, иногда, радикально
пытались решать перебором 3ююoO перебором 3-ю?

кстати, правильный ответ в первой будет опубликован? у меня по особенно по 33-му номеру вообще стопор был, никто не подходил и ещё по нескольким не упомню уже которым
33-му номеру вообще7ой континент? там где владикавказ калининград москва и челябинск с белгородом?
просто во владике есть тц 7ой континент, гугл говорит

Я 7КОНТ на 49 ставил...
http://www.google.ru/search?q=%D1%81%D0%B5%D0%B4%D1%8C%D0%B...
http://www.google.ru/search?q=%D1%81%D0%B5%D0%B4%D1%8C%D0%B...,or.r_cp.r_qf.&bvm=bv.45512109,d.bGE&fp=4893f609f3005ff6&biw=1280&bih=881
1 QIWI
2 M.VIDEO
3 METRO CASH & CARRY
4 LENTA
5 OKEY
6 ELDORADO
7 AMWAY
8 SVYAZNOY
9 PYATEROCHKA
10 PEREKRESTOK
11 DNS
12 RZD
13 PAYPAL
14 IKEA
15 LEROY MERLIN
16 GAZPROMNEFT
17 SPORTMASTER SHOP
18 GM MAGNIT
19 BEELINE
20 KARUSEL
21 MEDIA-MARKT
22 AEROFLOT
23 EVROSET
24 ADIDAS
25 LETUAL
26 PLATEZH.RU
27 POKERSTARS
28 INCITY
29 OBI
30 MCDONALDS
31 S7
32 FONBET
33 SEDMOY KONTINENT
34 MTS
35 MEGAFON
36 MARIYA-RA
37 DETSKIY MIR
38 ULMART
39 LUKOIL
40 YANDEX MONEY
41 ANYWAYANYDAY
42 HYPERGLOBUS
43 ZARA
44 SPAR
45 DIXY
46 TECHNOSILA
47 GLORIYA DZHINS
48 RIV GOSH
49 KVARTAL
50 CASTORAMA
19 MTS
26 RBK MONEY
28 ILE DE BEAUTE SHOP
33 REAL HYPERMARKET
34 BEELINE
41 ONETWOTRIP
46 EKSPERT
49 SEDMOY KONTINENT
почему ты решил, что AWAD, а не ОТТ? логично предположить, что по картам банка тинькофф, когда были совместная акция с 10% кэшбэк ОТТ имеет больший вес + всплеск продаж в октябре — месяце начала акции.
вот у меня сложилось чувство что в самой первой редакции я перепутал всех трех обсосов
я ее проверял одним решением, чето мне не понравилось, хотя все указывало на ott, средний чек в 400 баксов у awd он 450, акция с манибеком, но чето не срослось
вообщем надо просить у Игоря результаты. Чето я не могу прикинуть, как так. но 226 это один не на своем месте и 4 неправильно или 44 правильно и 6 не на своих местах
но 226 это один не на своем месте и 4 неправильнонапример 7конт не на своём месте и 26,28, 33, 46 неправильно
Merchant_id Merchant Name
1 YANDEX MONEY
2 M.VIDEO
3 METRO CASH & CARRY
4 LENTA
5 OKEY
6 ELDORADO
7 AMWAY
8 EVROSET
9 PYATEROCHKA
10 PEREKRESTOK
11 DNS
12 RZD
13 PAYPAL
14 IKEA
15 LEROY MERLIN
16 GAZPROMNEFT
17 SPORTMASTER SHOP
18 GM MAGNIT
19 MEGAFON
20 KARUSEL
21 MEDIA-MARKT
22 AEROFLOT
23 SVYAZNOY
24 ADIDAS
25 LETUAL
26 RBK MONEY
27 POKERSTARS
28 INCITY
29 OBI
30 MCDONALDS
31 OZON TRAVEL
32 FONBET
33 KVARTAL
34 MTS
35 BEELINE
36 MARIYA-RA
37 DETSKIY MIR
38 ULMART
39 LUKOIL
40 QIWI
41 ONETWOTRIP
42 HYPERGLOBUS
43 ZARA
44 SPAR
45 DIXY
46 TECHNOSILA
47 GLORIYA DZHINS
48 RIV GOSH
49 SEDMOY KONTINENT
50 CASTORAMA
2ое не смотри там просто проверочная засранная попытка, на цифры тоже не обращай внимание там они тоже разъехались
211, 198, 227, 218
[image] [/image]
если честно, мне проще дождаться ответов ;-)


Была мысль тоже доковырять паспорта вручную, но лень свое взяла. В субботу отправил ранее посчитанное.
Итого - 831.7К на второй задаче, похоже даже в десятку не попаду

итоговые таблицы на сайте

(а то чего вам просто так то ответ говорить)
тред длинный, какое место занял?

кстати, чё-то я отвлёкся на шампанское, кто кроме меня и бодрячка там себя был с форума? ;-) кто чё скажет? )

Что тебе рассказать?)

сколько вы там работаете по 11-12 часов ?Таких яростных переработок нет, но форс-мажоры бывают везде, не без этого.
evor
ТКС, как и в том году, запилил олимпиаду для аналитиков. В том году парень с форума взял топ-1.