И с этим ничего не поделать: пока не завершу, так и будет.
Главное: понял зачем нужны отрицательные и малые коэффициенты корреляции.
Они прокладывают границу между неродственными группами событий.
По факту, таблица корреляций на 4 млн. ячеек содержит ВСЁ, реально ВСЁ, что надо.
Нужна одна-единственная математическая операция - разделить массив на родственные группы.
Но я этой операции провести не могу - некомпетентен. Да, и ни один домашний комп не потянет.
С горя вчера приболел и понял, как зайти с тыла - именно с тыла.
Делаем файл из 3-х листов: недели, корреляция и корреляция рядов корреляций.
Смотрим в третьем листе, где явно родственные даты, и сливаем их на первом листе.
Результат: именно эти два года сливаются на втором и третьем листах - сами.
Соответственно, меняется ВЕСЬ расклад, а группы формируются сами - без моего участия.
Малое управляет большим.
Главное: понял зачем нужны отрицательные и малые коэффициенты корреляции.
Они прокладывают границу между неродственными группами событий.
По факту, таблица корреляций на 4 млн. ячеек содержит ВСЁ, реально ВСЁ, что надо.
Нужна одна-единственная математическая операция - разделить массив на родственные группы.
Но я этой операции провести не могу - некомпетентен. Да, и ни один домашний комп не потянет.
С горя вчера приболел и понял, как зайти с тыла - именно с тыла.
Делаем файл из 3-х листов: недели, корреляция и корреляция рядов корреляций.
Смотрим в третьем листе, где явно родственные даты, и сливаем их на первом листе.
Результат: именно эти два года сливаются на втором и третьем листах - сами.
Соответственно, меняется ВЕСЬ расклад, а группы формируются сами - без моего участия.
Малое управляет большим.
no subject
Date: 2017-01-18 01:40 pm (UTC)Получается, шкала здесь разбита на объективные (пусть и фальшивые, но объективные) эпохи. Так?
А связи между эпохами есть?
no subject
Date: 2017-01-18 02:05 pm (UTC)Рекомендую таки поставить себе R с Python-ом и попробовать. Экселем в подобных делах не обойтись.
no subject
Date: 2017-01-18 04:01 pm (UTC)Там основная сложность будет с тем, чтобы считать эти данные из экселя в многомерный массив, а не с обработкой с помощью этого скрипта.
Я знаю скрипты для работы с xls/xlsx под python, c++, go. Эта хрень (k-means) есть под python или сисиплюс?
no subject
Date: 2017-01-18 06:23 pm (UTC)K-means есть, конечно, в пакете sklearn . Numpy c matplotlib еще подгрузить. Навскидку нашлось это
http://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_digits.html
https://datasciencelab.wordpress.com/2013/12/12/clustering-with-k-means-in-python/
Но эти кластеры не совсем то, что нужно.
Только мне кажется, сейчас нечего анализировать - в события в базе почти не классифицированы. Опираться только на количество событий по годам - сомнительная стратегия.
Мне кажется, что стоит добавить в базу множество классифицирующих признаков, бинарных (да-нет), каждый в своем поле - тогда одинаковые события будет легко искать. Тогда и в кластеризации появится смысл.
Врукопашную это конечно бессмысленно, но, как выяснилось, машинное обучение неплохо с этой задачей справляется.
Удачное руководство попалось тут:
https://journal.r-project.org/archive/2013-1/collingwood-jurka-boydstun-etal.pdf
но это R. Хотя питон - промышленный стандарт в машинном обучении, там точно все есть.
no subject
Date: 2017-01-18 06:27 pm (UTC)Да вроде и питон (пакет numpy) и R хорошо понимают csv. И там и там есть пакеты для чтения напрямую экселевских файлов, оба читают нормально. В R , если через оболочку RCommander , так вообще это можно делать из меню на русском языке.
no subject
Date: 2017-01-18 04:06 pm (UTC)Вот это еще нужно будет.
https://github.com/hadley/readxl
Вы же прекрасно понимаете, что Андрей не потянет - это кодинг (все это связать).