chispa1707: (Default)
[personal profile] chispa1707
И с этим ничего не поделать: пока не завершу, так и будет.

Главное: понял зачем нужны отрицательные и малые коэффициенты корреляции.
Они прокладывают границу между неродственными группами событий.

По факту, таблица корреляций на 4 млн. ячеек содержит ВСЁ, реально ВСЁ, что надо.
Нужна одна-единственная математическая операция - разделить массив на родственные группы.
Но я этой операции провести не могу - некомпетентен. Да, и ни один домашний комп не потянет.
С горя вчера приболел и понял, как зайти с тыла - именно с тыла.

Делаем файл из 3-х листов: недели, корреляция и корреляция рядов корреляций.
Смотрим в третьем листе, где явно родственные даты, и сливаем их на первом листе.
Результат: именно эти два года сливаются на втором и третьем листах - сами.
Соответственно, меняется ВЕСЬ расклад, а группы формируются сами - без моего участия.
Малое управляет большим.

Date: 2017-01-18 11:15 am (UTC)

Date: 2017-01-18 01:04 pm (UTC)
From: [identity profile] oleg berezin (from livejournal.com)
Хоть мне это и не очень нравится, но.
Данные для выявления групп на Лист4 файла 000 04 КП-9 ряды 3.xlsx?
Дальше идет тупое применение инструмента. Что он выдал я не вникал.
Рекомендованное программой с настройками по умолчанию количество кластеров для алгоритма k-means.
Image

Вариант группировки 1. Группируются похожие друг на друга сущности. Да, видно плохо.
Image

Вариант 2
Image

Ссылка на то, как это было сделано. Там еще есть варианты.
http://www.sthda.com/english/wiki/cluster-analysis-in-r-unsupervised-machine-learning

кореляция

Date: 2017-01-18 01:08 pm (UTC)
From: [identity profile] blog-v-makashov.livejournal.com
Мнение стороннего наблюдателя. Пора уже с корреляциями прекращать!
Вчерашний день. Устарело.

Re: кореляция

Date: 2017-01-18 01:17 pm (UTC)
From: [identity profile] oleg berezin (from livejournal.com)
>Пора уже с корреляциями прекращать!

Еще не учитывается, что "корреляция" на самом деле скорее всего значит "линейная корреляция". Т.е. соотношения 1-2, 2-4, 3-6, 4-8 коррелируют прекрасно, а вот 3-9 , 4-16 и т.д. (т.е. возведение в квадрат) дадут отвратный коэффициент, т.к. связь между переменными нелинейная. Но она от этого не исчезнет, просто останется не выявленной.

Re: кореляция

Date: 2017-01-18 01:37 pm (UTC)
From: [identity profile] blog-v-makashov.livejournal.com
Статистика неумолимо утверждает, что всем, кто применял корреляционные методы,
потребовалась помощь специалиста, и это был математик от министерства медицины.

Date: 2017-01-18 01:40 pm (UTC)
From: [identity profile] chispa1707.livejournal.com
Красиво.
Получается, шкала здесь разбита на объективные (пусть и фальшивые, но объективные) эпохи. Так?
А связи между эпохами есть?

Re: кореляция

Date: 2017-01-18 01:40 pm (UTC)
From: [identity profile] chispa1707.livejournal.com
Ссылку на статистику - в студию )))

Re: кореляция

Date: 2017-01-18 01:42 pm (UTC)
From: [identity profile] chispa1707.livejournal.com
Понятно, что устарело.
Но мне, - просто в силу недостаточности образования, - другие методы недоступны.

Date: 2017-01-18 02:05 pm (UTC)
From: [identity profile] oleg berezin (from livejournal.com)
Не, это, так сказать, демонстратор технологии. Взял как есть и сунул в готовое, получил абы что.
Рекомендую таки поставить себе R с Python-ом и попробовать. Экселем в подобных делах не обойтись.

Date: 2017-01-18 02:08 pm (UTC)
From: [identity profile] tchin-drugitche.livejournal.com
Андрей!
Вы делаете важное и серьезное дело. Продолжайте!

Re: кореляция

Date: 2017-01-18 02:11 pm (UTC)
From: [identity profile] tchin-drugitche.livejournal.com
А я попрошу пруф на примеры помощи ентих самых... "спецЫалистов от медицЫны".

ДешОвый троллинг здесь не прокатит. Автор блога сего имеет к нему стабильный иммунитет.

Re: кореляция

Date: 2017-01-18 03:11 pm (UTC)
From: [identity profile] blog-v-makashov.livejournal.com
Наше дело предупредить. Предупреждён, значит вооружён.
Это дело такое, тарелка на голове помогает конечно, но совсем слабо. Лучше не рисковать.

Date: 2017-01-18 04:01 pm (UTC)
From: [identity profile] necrosfodel.livejournal.com

Там основная сложность будет с тем, чтобы считать эти данные из экселя в многомерный массив, а не с обработкой с помощью этого скрипта.
Я знаю скрипты для работы с xls/xlsx под python, c++, go. Эта хрень (k-means) есть под python или сисиплюс?

Date: 2017-01-18 04:06 pm (UTC)
From: [identity profile] necrosfodel.livejournal.com

Вот это еще нужно будет.
https://github.com/hadley/readxl
Вы же прекрасно понимаете, что Андрей не потянет - это кодинг (все это связать).

Date: 2017-01-18 06:23 pm (UTC)
From: [identity profile] oleg berezin (from livejournal.com)
Я в питоне минимально понимаю. Я вообще не программист :)
K-means есть, конечно, в пакете sklearn . Numpy c matplotlib еще подгрузить. Навскидку нашлось это
http://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_digits.html
https://datasciencelab.wordpress.com/2013/12/12/clustering-with-k-means-in-python/
Но эти кластеры не совсем то, что нужно.

Только мне кажется, сейчас нечего анализировать - в события в базе почти не классифицированы. Опираться только на количество событий по годам - сомнительная стратегия.
Мне кажется, что стоит добавить в базу множество классифицирующих признаков, бинарных (да-нет), каждый в своем поле - тогда одинаковые события будет легко искать. Тогда и в кластеризации появится смысл.
Врукопашную это конечно бессмысленно, но, как выяснилось, машинное обучение неплохо с этой задачей справляется.
Удачное руководство попалось тут:
https://journal.r-project.org/archive/2013-1/collingwood-jurka-boydstun-etal.pdf
но это R. Хотя питон - промышленный стандарт в машинном обучении, там точно все есть.
Edited Date: 2017-01-18 06:30 pm (UTC)

Date: 2017-01-18 06:27 pm (UTC)
From: [identity profile] oleg berezin (from livejournal.com)
>сложность будет с тем, чтобы считать эти данные из экселя в

Да вроде и питон (пакет numpy) и R хорошо понимают csv. И там и там есть пакеты для чтения напрямую экселевских файлов, оба читают нормально. В R , если через оболочку RCommander , так вообще это можно делать из меню на русском языке.

Date: 2017-01-18 07:16 pm (UTC)
From: [identity profile] Женя Разуваев (from livejournal.com)
Уважаемый Автор, Вы не переживайте так! Дело тут вот в чем, утрировано (языком, понятным детям и солдатам) в «двух словах»:
1) Вам здесь предлагают некие решения – «скрипты на питоне», поскольку действительно понятных приложений по вероятностному анализу НЕТ(!!! В природе, мазафака, не существует, или засекречены наглухо). А еще, поскольку ентот анализ каждый раз использует в качестве вводных (исходных) данных саму постановку задачки, то поэтому приложения аналитические все - узко специальные, или - в свободном доступе те самые скрипты на питоне;
2) Все эти вероятностные задачки всегда связаны с комбинаторикой. Дык вот, когда возможных типов (да порой даже количества одного типа) взаимосвязей между элементами системы есть некоторое количество (5-10, и этого иногда много) на значительное количество элементов (как у Вас), то усё – п…ц – «проклятье размерности», «комбинаторный взрыв». Для разрешения которого нужен каждый раз ввод эвристики, далее «проверка на кошечках», далее корректировка метода, и так годами(!!!). И если, вдруг «посчиталось» за приемлемое время (т.е. солнышко на большой задачке, решаемой на супер-пупер компьютере, не успеет потухнуть) – это успех в размерах нобелевской премии (я серьезно), если искомый метод до этого не сочтут вопросом нац.безоп-ти.

Вывод – или продолжайте мучить ексель, или учите питон (это проще, чем кажется). Больше решений нет: или Вы станете системщиком, или найдете талантливого системщика-математика (и еще одного - кодонаберателя-программиста (этого найти проще) – в одном лице их не бывает) и вложите в него всю Вашу концепцию до полного понимания и принятия.
Ну вот – УСПЕХОВ ВАМ!!! (искренне)
Ветлицкая - форева!!!

Date: 2017-01-18 07:23 pm (UTC)
From: [identity profile] oleg berezin (from livejournal.com)
Что-то Вы жути нагоняете :) Инструменты есть, руководства есть, бояться там нечего. Вот, пожалуйста. на русском
https://github.com/ranalytics/r-tutorials/tree/master/Edition_2014/Book

Date: 2017-01-18 07:45 pm (UTC)
From: [identity profile] Женя Разуваев (from livejournal.com)
Ах, ну да. Это продвинутый ексель, который на миллиметр приблизит Автора к решению. Вы вот, Олег, понимаете (на самом деле) постановку задачки в математическом смысле?

Date: 2017-01-18 08:02 pm (UTC)
From: [identity profile] oleg berezin (from livejournal.com)
Конечно нет. Но я уверен, что с любой математикой данная задача не имеет однозначного решения - значит она не решаема в принципе. Как интегрирование, т .е. поиск закономерности по ее видимым результатам, дает семейство кривых, но не одну кривую и только начальные условия позволяют сделать между ними выбор. Особенность решения исторических задач в том, что выбор начальных условий очень субьективен.

Но результат ничто - процесс все, и в таком случае выбор инструмента очень даже имеет значение. С продвинутым экселем можно топтаться на месте чуть выше, чем с обычным.

Date: 2017-01-18 08:35 pm (UTC)
From: [identity profile] Женя Разуваев (from livejournal.com)
Олег, я честно рад Вашему искреннему ответу (даже не представляете как, - я часто встречал Ваши комментарии в журнале Автора, но до сего момента на сто процентов не был уверен в Вашей непредвзятости – процент троллинга велик, к сожалению). Семейства кривых и т.п . тут ни при чем, поверьте, прочтите про «проклятие размерности и комбинаторный взрыв» (найдете без труда). И «таки, да» - задачка не решаема точно до того момента, когда не будет ее формализованной постановки, или пока Автор не станет системным аналитиком («а налито ли?»). 😊

Re: кореляция

Date: 2017-01-18 08:36 pm (UTC)
From: [identity profile] tchin-drugitche.livejournal.com
(Удивленно)

"Тарелка на голове"... Чудны дела твои, Господи!

А зачем Вы ее на голову-то напялили, а?

Просто не понял :-)

Re: кореляция

Date: 2017-01-19 04:03 am (UTC)
From: [identity profile] blog-v-makashov.livejournal.com
Я? Вам? Я Вас сразу с тарелкой на голове увидел. И не имею к ней никакого отношения. Не перекладывайте тарелку с больной головы на здоровую!

Re: кореляция

Date: 2017-01-19 06:50 am (UTC)
From: [identity profile] tchin-drugitche.livejournal.com
(Разочарованно)

О-о-о...

Не, тест на вменяемого собеседника Вы не прошли.

Покедова.

Да. И еще. Трогать владельца блога сего не советую. Во избежание :-)
Edited Date: 2017-01-19 06:51 am (UTC)

Profile

chispa1707: (Default)
chispa1707

January 2026

S M T W T F S
     1 2 3
4 5 6 7 8 910
11 1213 14 15 1617
18 19 2021222324
25262728293031

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 20th, 2026 03:24 pm
Powered by Dreamwidth Studios