chispa1707 (
chispa1707) wrote2017-01-18 02:45 pm
Блог становится узкоспециальным и сухим, увы
И с этим ничего не поделать: пока не завершу, так и будет.
Главное: понял зачем нужны отрицательные и малые коэффициенты корреляции.
Они прокладывают границу между неродственными группами событий.
По факту, таблица корреляций на 4 млн. ячеек содержит ВСЁ, реально ВСЁ, что надо.
Нужна одна-единственная математическая операция - разделить массив на родственные группы.
Но я этой операции провести не могу - некомпетентен. Да, и ни один домашний комп не потянет.
С горя вчера приболел и понял, как зайти с тыла - именно с тыла.
Делаем файл из 3-х листов: недели, корреляция и корреляция рядов корреляций.
Смотрим в третьем листе, где явно родственные даты, и сливаем их на первом листе.
Результат: именно эти два года сливаются на втором и третьем листах - сами.
Соответственно, меняется ВЕСЬ расклад, а группы формируются сами - без моего участия.
Малое управляет большим.
Главное: понял зачем нужны отрицательные и малые коэффициенты корреляции.
Они прокладывают границу между неродственными группами событий.
По факту, таблица корреляций на 4 млн. ячеек содержит ВСЁ, реально ВСЁ, что надо.
Нужна одна-единственная математическая операция - разделить массив на родственные группы.
Но я этой операции провести не могу - некомпетентен. Да, и ни один домашний комп не потянет.
С горя вчера приболел и понял, как зайти с тыла - именно с тыла.
Делаем файл из 3-х листов: недели, корреляция и корреляция рядов корреляций.
Смотрим в третьем листе, где явно родственные даты, и сливаем их на первом листе.
Результат: именно эти два года сливаются на втором и третьем листах - сами.
Соответственно, меняется ВЕСЬ расклад, а группы формируются сами - без моего участия.
Малое управляет большим.
no subject
no subject
Данные для выявления групп на Лист4 файла 000 04 КП-9 ряды 3.xlsx?
Дальше идет тупое применение инструмента. Что он выдал я не вникал.
Рекомендованное программой с настройками по умолчанию количество кластеров для алгоритма k-means.
Вариант группировки 1. Группируются похожие друг на друга сущности. Да, видно плохо.
Вариант 2
Ссылка на то, как это было сделано. Там еще есть варианты.
http://www.sthda.com/english/wiki/cluster-analysis-in-r-unsupervised-machine-learning
no subject
Получается, шкала здесь разбита на объективные (пусть и фальшивые, но объективные) эпохи. Так?
А связи между эпохами есть?
no subject
Рекомендую таки поставить себе R с Python-ом и попробовать. Экселем в подобных делах не обойтись.
no subject
Там основная сложность будет с тем, чтобы считать эти данные из экселя в многомерный массив, а не с обработкой с помощью этого скрипта.
Я знаю скрипты для работы с xls/xlsx под python, c++, go. Эта хрень (k-means) есть под python или сисиплюс?
no subject
K-means есть, конечно, в пакете sklearn . Numpy c matplotlib еще подгрузить. Навскидку нашлось это
http://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_digits.html
https://datasciencelab.wordpress.com/2013/12/12/clustering-with-k-means-in-python/
Но эти кластеры не совсем то, что нужно.
Только мне кажется, сейчас нечего анализировать - в события в базе почти не классифицированы. Опираться только на количество событий по годам - сомнительная стратегия.
Мне кажется, что стоит добавить в базу множество классифицирующих признаков, бинарных (да-нет), каждый в своем поле - тогда одинаковые события будет легко искать. Тогда и в кластеризации появится смысл.
Врукопашную это конечно бессмысленно, но, как выяснилось, машинное обучение неплохо с этой задачей справляется.
Удачное руководство попалось тут:
https://journal.r-project.org/archive/2013-1/collingwood-jurka-boydstun-etal.pdf
но это R. Хотя питон - промышленный стандарт в машинном обучении, там точно все есть.
no subject
Да вроде и питон (пакет numpy) и R хорошо понимают csv. И там и там есть пакеты для чтения напрямую экселевских файлов, оба читают нормально. В R , если через оболочку RCommander , так вообще это можно делать из меню на русском языке.
no subject
Вот это еще нужно будет.
https://github.com/hadley/readxl
Вы же прекрасно понимаете, что Андрей не потянет - это кодинг (все это связать).
кореляция
Вчерашний день. Устарело.
Re: кореляция
Еще не учитывается, что "корреляция" на самом деле скорее всего значит "линейная корреляция". Т.е. соотношения 1-2, 2-4, 3-6, 4-8 коррелируют прекрасно, а вот 3-9 , 4-16 и т.д. (т.е. возведение в квадрат) дадут отвратный коэффициент, т.к. связь между переменными нелинейная. Но она от этого не исчезнет, просто останется не выявленной.
Re: кореляция
потребовалась помощь специалиста, и это был математик от министерства медицины.
Re: кореляция
Re: кореляция
ДешОвый троллинг здесь не прокатит. Автор блога сего имеет к нему стабильный иммунитет.
Re: кореляция
Это дело такое, тарелка на голове помогает конечно, но совсем слабо. Лучше не рисковать.
Re: кореляция
"Тарелка на голове"... Чудны дела твои, Господи!
А зачем Вы ее на голову-то напялили, а?
Просто не понял :-)
Re: кореляция
Re: кореляция
О-о-о...
Не, тест на вменяемого собеседника Вы не прошли.
Покедова.
Да. И еще. Трогать владельца блога сего не советую. Во избежание :-)
Re: кореляция
Но мне, - просто в силу недостаточности образования, - другие методы недоступны.
no subject
Вы делаете важное и серьезное дело. Продолжайте!
no subject
1) Вам здесь предлагают некие решения – «скрипты на питоне», поскольку действительно понятных приложений по вероятностному анализу НЕТ(!!! В природе, мазафака, не существует, или засекречены наглухо). А еще, поскольку ентот анализ каждый раз использует в качестве вводных (исходных) данных саму постановку задачки, то поэтому приложения аналитические все - узко специальные, или - в свободном доступе те самые скрипты на питоне;
2) Все эти вероятностные задачки всегда связаны с комбинаторикой. Дык вот, когда возможных типов (да порой даже количества одного типа) взаимосвязей между элементами системы есть некоторое количество (5-10, и этого иногда много) на значительное количество элементов (как у Вас), то усё – п…ц – «проклятье размерности», «комбинаторный взрыв». Для разрешения которого нужен каждый раз ввод эвристики, далее «проверка на кошечках», далее корректировка метода, и так годами(!!!). И если, вдруг «посчиталось» за приемлемое время (т.е. солнышко на большой задачке, решаемой на супер-пупер компьютере, не успеет потухнуть) – это успех в размерах нобелевской премии (я серьезно), если искомый метод до этого не сочтут вопросом нац.безоп-ти.
Вывод – или продолжайте мучить ексель, или учите питон (это проще, чем кажется). Больше решений нет: или Вы станете системщиком, или найдете талантливого системщика-математика (и еще одного - кодонаберателя-программиста (этого найти проще) – в одном лице их не бывает) и вложите в него всю Вашу концепцию до полного понимания и принятия.
Ну вот – УСПЕХОВ ВАМ!!! (искренне)
Ветлицкая - форева!!!
no subject
https://github.com/ranalytics/r-tutorials/tree/master/Edition_2014/Book
no subject
no subject
Но результат ничто - процесс все, и в таком случае выбор инструмента очень даже имеет значение. С продвинутым экселем можно топтаться на месте чуть выше, чем с обычным.
no subject