



Песенка, разумеется, моего любимого сорта "пусть у вас в голове крутится тоже".

Ладно, пошла я посмотреть, что там ещё вьетнамский шоу-бизнес предлагает в боковых рекомендациях ютуба, тут-то и открылась бездна звёзд полна.

читать дальшеЛюбовный треугольник между царём, царицей и каким-то фентезийным озёрным духом, однополая любовь, но по большому счёту все со всеми:
Клип внезапно ещё и русскими субтитрами оказался.

Опять любовный треугольник, между обыкновенными

Дальше я уже с некоторым опасением ткнула на клип, где на картинке были изображены два юноши и две девушки, но эта оказалась всего лишь песенка к мыльной опере, где всё гетеронормативно, только люди, естественно, постоянно уходят от одних к другим.

Но следующая рекомендация вернула всё на круги своя. Кажется, что это опять любовный треугольник, только непонятно, гетеро- или фем - ну, таки фем, и даже без треугольника.

Если хотите, продолжайте поиски сами, тем более что в музыкальном отношении мне всё равно нравится только первая песенка про алкоголь.

А вообще ютуб меня в основном терроризирует индийскими клипами.


***
Холиварная часть поста.



Короче, как я поняла то, что случилось, и почему оно так. Исхожу, кстати, из полной добропорядочности судей и благих намерений оргов. Пиздец и проёб проекта был заложен на этапе правил.
читать дальше В общем, кто не в курсе, что случилось - как я понимаю (знакомые судьи меня поправят, я надеюсь), история вкратце такова - в этом году сделали новые правила РСИЯ. Конкурс по большому счёту состоял из трёх этапов: отбор из общей массы поданых работ в лонглист; оценка работ из лонга и на основании оценок отбор в шорт, дополнительная оценка шорта и определение победителя. Революционная идея была в том, что список шорта и победителей должен был определяться автоматически по результатам оценивания, а не по результатам коллективного обсуждения судей.
Этап лонга прошёл более-менее нормально, насколько я могу судить - новость была в том, что отбор тут проводили не читатели-чернорабочие, а сразу судьи, в количестве пяти на каждый текст - смысл привлекать сразу судей от меня ускользает, но сам отбор прошёл так, как и должен был - судьи выставляли оценки "берём-не берём", текст проходил, если большинство голосов было за "берём".
Дальше с помощью ЭВМ судьям распределили тексты на оценивание, они выставили оценки, посчитали среднее арифметическое - результаты среднего арифметического получились странные, попросту невозможные, если бы тексты оценили, как было обещано, по пять человек. Эти странные оценки, как по мне, однозначно свидетельствуют о том, что получить по пять оценок не получилось, кому-то дали по четыре или даже по три оценки - но, честное слово, проблема всё равно не в этом!
Так вот, оценки так или иначе были выставлены, результаты подсчитаны, сформировался шортлист... и оказался каким-то очень странным. Вместо того, чтобы автоматически рассортировать тексты от лучших к худшим, эти средние оценки скорее не рассортировали никак - потому что средние по качеству тексты оказались на верхушке и попали в шортлист, а некоторые явно лучшие по качеству и явно более понравившиеся судьям - ниже средних по позиции и под вопросом попадания в шортлист. Судьи забеспокоились, начали обсуждение с намерением перебрать тексты и заново составить шортлист - орги упёрлись в полученные оценки (мотивируя это ещё и тем, что многие из судей, которые выставляли оценки, сейчас недоступны и не смогут принять участие в обсуждении), и сказали, что в шортлист тексты проходят ровно в порядке убывания оценок, судьи могут лишь определить проходной балл и отрезать список чуть выше или ниже.
Но "отрезать" никак не решало проблему, ибо реальной сортировки так и не произошло - средние и хорошие по качеству тексты явно были перемешаны.
В этот момент, насколько я понимаю, судьи начали делиться на две группы: одни были "эти лыжи не едут, мне это всё не нравится, я ухожу", и другие - "эти лыжи не едут, мне это всё не нравится, но давайте уже как-нибудь доведём конкурс до конца".
То есть - кто-то (немного) из судей ушёл, остальные сделали дополнительные оценки шортлисту (прописанные в правилах), но лыжи так и не поехали - порядок текстов всё равно получался какой-то неудовлетворительный, ну и особая заруба шла, конечно, за призовые места - притом, что, насколько я опять же поняла по скриншотам, наверх списка уже так или иначе выплыли лучшие тексты, но даже если судей устраивал состав призовой тройки, то не устраивал порядок текстов внутри неё.
Орги, начавшие несколько опасаться нового ухода судей и срыва конкурса, предложили открывать так называемые арбитражные посты - где можно было набрать по пять новых судей для дополнительной оценки какого-нибудь определённого текста. Это, по-видимому, было уже против правил, но опять же - проблема не в этом. Проблема случилась раньше.
В этих постах судьи пытались договориться, как им нужно голосовать, чтобы тексты заняли нужное место. Случались и споры - кто-то хотел не поднять, а утопить, но в любом случае судьи хотели расставить тексты по порядку и сделать так, чтобы самый достойный получил главный приз. То есть, судьи просто пытались ВЫПОЛНИТЬ СВОЮ РАБОТУ. Ибо их основная задача на конкурсе в этом и состоит - определить наилучшую работу и наградить её, а также ранжировать следующие за лучшей работы и наградить их чем-нибудь поменьше.
Беда в том, что при заданных правилах выполнить свою основную задачу они могли только путём договорняков и подтасовки результатов.
К этому моменту - когда вот-вот должно было случиться определение победителей - достигло пика напряжение что внутри судейского коллектива, что снаружи среди участников, которые не могли понять ни странных оценок "с округлением", ни диких скачков с места на место текстов внутри шортлиста. В конечном счёте пошли сливы, "извинения" оргов с перекладыванием вины на всех подряд, массовый отказ участников участвовать, закрытие конкурса и финальный аккорд - охота на ведьм.
После формирования шортлиста у оргов уже не было хорошего выхода из ситуации. Вернее, его не было даже раньше - когда работа над шортлистом пошла всерьёз. Плохой, но достойный выход состоял бы в том, что орги поняли и признали бы, что вся система неправильная, и надо либо приостановить конкурс и поменять правила (хотя бы вернуться к предыдущим), либо просто закрыть, если уж возможностей не хватает. Плохой, тупой, но пока ещё не недостойный выход был бы в том, чтобы настаивать на полном соблюдении правил и выкатить результаты конкурса, которые всех бы разозлили. Плохой и недостойный - то, что и случилось, а именно попытка на ходу подтянуть правила, не меняя их по сути, а потом вообще всё вот это.
Итак, в чём же главная проблема? По моему, разумеется, мнению.

Вы не просили, но я, конечно, объясню почему.

И для начала о случайной величине.


Допустим, у нас есть две случайных величины. Одна равна 4±2, а вторая 4,5±2. Кажется, что вторая больше, да? Но в реальности истинное значение этих величин может оказаться для первой 5,5, а для второй 3,1. Потому что интервал для первой от 2 до 6, а для второй от 2,5 до 6,5. И истинное значение первой может оказаться сильно больше второй, даже несмотря на то, что наши честные оценки дают обратные результаты - что вторая якобы больше первой.
В этом-то и состоит сложность ранжирования оценок случайных величин - что мы не может сравнивать голые значения, принимая их за абсолютную истину, мы должны сравнивать их с учётом погрешности.
Думаю, что вы уже догадались, к чему я веду - что оценки текстов нельзя тупо ранжировать. Допустим (хотя это, по-хорошему, бредовая мысль, но допустим), что содержательность текста - некий объективный критерий, который можно оценить в числовой форме. И что существует некое истинное значение содержательности для данного фика. Это случайная величина. Судья делает оценку это величины. По результатам оценок пяти судей формируется среднее арифметическое - 4,2. Для другого текста - 4. А погрешность тут какая? Я не знаю - в принципе, если покопать формулы мастатистики, погрешность можно посчитать именно исходя из разброса оценок, но чтобы эта погрешность была всё-таки чуть-чуть поменьше, чем плюс-минус бесконечность, надо иметь хорошую такую выборку оценок - отнюдь не пять измерений. Но в любом случае погрешность здесь будет большая, в размерах целых баллов. И поэтому оценки 4,2 и 4 с точки зрения корректного анализа являются примерно одинаковыми, мы не можем их ранжировать и считать, что 4,2 однозначно лучше 4.
Плюс тут ещё эти странные оценки 4,3, которые свидетельствуют о том, что судей было меньше, какие-то оправдания про округления - которые тем более дискредитируют точность оценки. Но даже если бы всего этого не было, если бы все тексты оценили бы по 5 судей (и даже одних и тех же судей) - то всё равно погрешность измерения тут настолько велика, что делает их оценки практически бесполезными, а уж ранжирование оценок - бессмысленным самообманом.
Дальше, почему я делаю такой упор на том, что разные тексты оценивали разные судьи, почему это вредно. У каждого судьи есть свои представления об этих "объективных" критериях, есть свои предпочтения в оценках - один доброжелателен и ставит преимущественно высокие оценки, второй сдержан и ставит что-то среднее, третий вообще бросается в крайности - за что-то понравившееся ставит максимум, за что-то неприятное сразу минимум. В результате эти индивидуальные особенности вносят искажения в оценки - если среднему тексту попадётся доброжелательный судья, то он поставит высокую оценку, от 4 до 5, если хорошему сдержанный - то поставит 4, хотя оба судьи при этом будут согласны, что хороший текст лучше среднего.
Смягчить, хоть не до конца нивелировать, индивидуальные особенности судей можно, если заставить всех судей оценивать все тексты. Но это невозможно на практике ввиду объёма работы. Другой способ смягчить индивидуальные особенности - сделать предельно грубую, дискретную шкалу оценок, где разбросы значений настолько радикальны, что судьи перестают колебаться. Именно так было на первом этапе отбора, в лонг - тексты оценивались по принципу "берём-не берём", и понятно, что честный судья, будь он более мягким или более строгим, всё равно однозначно пропустит хороший текст и однозначно зарубит говно, ну а нечто среднее может попасть туда или сюда - но фиг с ним, задача первоначального грубого отсева именно в том, чтобы он был первоначальным и грубым.
И благодаря этому - что отсев грубый, но позволяющий действительно отделить гавно от хорошего - его и можно проводить небольшим количеством людей на текст. И нет никакой особой пользы назначать его именно судьям и изничтожать институт ридерства. Хотя, с другой стороны, никакого вреда (кроме дополнительной нагрузки на судей) от этого нововведения тоже нет.
Но когда уже пошёл отбор в шорт - когда судьи стали выставлять более плавные оценки, при этом каждый текст оценивался разным набором судей - их индивидуальные особенности оценивания полезли влиять полным ходом.
Дальше, конечно, сам набор критериев. Орги называли их объективными, но это совершенно ложное чувство объективности. Не говоря уже о том, что это опять поиски монетки под фонарём, потому что конкурс не про отдельные технические характеристики текста, он выбирает лучший текст вообще - и совершенно неформализуемые хорошее впечатление и удовольствие от текста тут играют роль. Но раз нельзя объективно оценить впечатление и удовольствие, давайте будем как бы объективно оценивать редактуру. А как, простите? Не знаю, были ли среди судей внутренние циркуляры, как расшифровываются все эти оценочные категории, но в правилах ничего нет. В факе я нашла описание аутентичности - это, безусловно, самый загадочный критерий, но если подумать, содержательность или оригинальность ничуть не более понятны. Корректура и редактура, вообще-то, заметны только тогда, когда отсутствуют - если же всё хорошо, то непонятно, это или редактор хороший, или автор от бога и не путается ни в правописании, ни в логике текста.
И в результате, от этой погони за ложной объективностью, вместо того, чтобы честно субъективно оценивать один или два неформализуемых критерия вроде "понравилось-не понравилось" или "хорошо или плохо написано", судьи получили десяток вроде бы более точных и объективных, но по сути таких же невнятных и неформализуемых критериев. Более того, эти критерии между собой по значению и влиянию на итоговую оценку ранжированы каким-то очень странным образом. Корректура и композиция (технические критерии) весят столько же, сколько отношения (сам конкурс про однополую любовь, так что логично, что этот критерий один из главных). Сюжет низведён до особой категории и даёт до двух баллов - сделали это для того, чтобы в жанровых категориях мини можно было легче конкурировать с макси, но даже при сравнении макси между собой сюжет стал ничего не значащей характеристикой.
Ох, ребята, я сдохла.

В общем - в итоге эта балльная оценка привела именно к тому, к чему и должна была - к хаотическому набору текстов, где хорошее было крепко перемешано со средним, а возможных победителей пришлось ещё отдельно, насилуя систему оценок, подтягивать на вершину списка. И при этом вся работа по оценке текстов - коллективная и трудоёмкая - по сути была глючным генератором случайных чисел.
При этом, заметьте, злодеев в этой истории не было вплоть до финальных разборок и скандалов. Все были заинтересованы провести конкурс, честно оценить и выбрать в победители лучшие тексты. Вот только инструмент для этого придумали такой, который заведомо не мог привести к нужному результату.
@темы: Размышлизмы, Мультифандом, Обзорное, Радикальные вещи весьма радикальным тоном (с), Лучшее из моей youtube-рекламы, Видео, Музыка
О, теперь я наконец поняла! Спасибо! А то читала все эти посты от судий с искренним недоумением, а на холиварку было лень идти.
Посмотрела клипы. Они охуенны!
Спасибо. Да главное я, в общем, сказала.
Пирра, О, теперь я наконец поняла! Спасибо!
Ну, справедливости ради, пока никто из участников ситуации моё мнение ни подтвердил, ни опроверг.
А клипчики да, огонь!
Последующее обсуждению не поддается.
Спасибо. Ну, про дальнейшее обсуждать особо и нечего, можно только ужасаться.
И да, тут выплыть практически невозможно с такими исходными данными (особенно вот с такой крохотной выборкой судей). Разве что баллы будут практически однородными и, соответственно, стандартное отклонение маленькое - тогда интервал будет относительно (очень относительно) невелик. Но хотя бы на 95% вероятности получить непересекающиеся доверительные интервалы средних значений в таких условиях - задача практически невозможная, это надо заставлять судей переголосовывать до посинения и полной однородности оценок) и со стороны это бы выглядело тем самым натягиванием баллов, да))
В общем, спасибо за пост, очень наглядно, почему чисто технически такая система не работает.
Интересно, на медианах бы получилось? Ничего не знаю про доверительный интервал на медиану, кроме того, что он тоже должен быть.
Не за что извиняться, всегда пожалуйста.
Интересно, на медианах бы получилось?
Да нет, мне кажется, что сама идея ставить оценки и сравнивать эти оценки между собой была порочной. Тут надо было действовать методами ранжирования - то есть сравнивать между собой тексты и проводить между ними отношения "лучше", "хуже" или "примерно равны". Конкретный алгоритм, который привёл бы эти множественные отношения от разных судей в единое целое, я не готова подсказать, но научная мысль по этому поводу давно думает, возможны множественные алгоритмические извращения.
И вот после такой сортировки на верх списка действительно выплывет всё самое лучшее, а уж там можно определить победителя - но определить его всё равно честнее и лучше всего именно прямым обсуждением судей и коллективным решением.