chispa1707

И с этим ничего не поделать: пока не завершу, так и будет.

Главное: понял зачем нужны отрицательные и малые коэффициенты корреляции.
Они прокладывают границу между неродственными группами событий.

По факту, таблица корреляций на 4 млн. ячеек содержит ВСЁ, реально ВСЁ, что надо.
Нужна одна-единственная математическая операция - разделить массив на родственные группы.
Но я этой операции провести не могу - некомпетентен. Да, и ни один домашний комп не потянет.
С горя вчера приболел и понял, как зайти с тыла - именно с тыла.

Делаем файл из 3-х листов: недели, корреляция и корреляция рядов корреляций.
Смотрим в третьем листе, где явно родственные даты, и сливаем их на первом листе.
Результат: именно эти два года сливаются на втором и третьем листах - сами.
Соответственно, меняется ВЕСЬ расклад, а группы формируются сами - без моего участия.
Малое управляет большим.

Flat | Top-Level Comments Only

From:

chispa1707.livejournal.com

Красиво.
Получается, шкала здесь разбита на объективные (пусть и фальшивые, но объективные) эпохи. Так?
А связи между эпохами есть?

oleg berezin (from livejournal.com)

Не, это, так сказать, демонстратор технологии. Взял как есть и сунул в готовое, получил абы что.
Рекомендую таки поставить себе R с Python-ом и попробовать. Экселем в подобных делах не обойтись.

necrosfodel.livejournal.com

Там основная сложность будет с тем, чтобы считать эти данные из экселя в многомерный массив, а не с обработкой с помощью этого скрипта.
Я знаю скрипты для работы с xls/xlsx под python, c++, go. Эта хрень (k-means) есть под python или сисиплюс?

Я в питоне минимально понимаю. Я вообще не программист :)
K-means есть, конечно, в пакете sklearn . Numpy c matplotlib еще подгрузить. Навскидку нашлось это
http://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_digits.html
https://datasciencelab.wordpress.com/2013/12/12/clustering-with-k-means-in-python/
Но эти кластеры не совсем то, что нужно.

Только мне кажется, сейчас нечего анализировать - в события в базе почти не классифицированы. Опираться только на количество событий по годам - сомнительная стратегия.
Мне кажется, что стоит добавить в базу множество классифицирующих признаков, бинарных (да-нет), каждый в своем поле - тогда одинаковые события будет легко искать. Тогда и в кластеризации появится смысл.
Врукопашную это конечно бессмысленно, но, как выяснилось, машинное обучение неплохо с этой задачей справляется.
Удачное руководство попалось тут:
https://journal.r-project.org/archive/2013-1/collingwood-jurka-boydstun-etal.pdf
но это R. Хотя питон - промышленный стандарт в машинном обучении, там точно все есть.

Edited Date: 2017-01-18 06:30 pm (UTC)

>сложность будет с тем, чтобы считать эти данные из экселя в

Да вроде и питон (пакет numpy) и R хорошо понимают csv. И там и там есть пакеты для чтения напрямую экселевских файлов, оба читают нормально. В R , если через оболочку RCommander , так вообще это можно делать из меню на русском языке.

Вот это еще нужно будет.
https://github.com/hadley/readxl
Вы же прекрасно понимаете, что Андрей не потянет - это кодинг (все это связать).

S	M	T	W	T	F	S
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Блог становится узкоспециальным и сухим, увы

Блог становится узкоспециальным и сухим, увы

no subject

no subject

no subject

no subject

no subject

no subject

Profile

January 2026

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags