chispa1707: (Default)
[personal profile] chispa1707
И с этим ничего не поделать: пока не завершу, так и будет.

Главное: понял зачем нужны отрицательные и малые коэффициенты корреляции.
Они прокладывают границу между неродственными группами событий.

По факту, таблица корреляций на 4 млн. ячеек содержит ВСЁ, реально ВСЁ, что надо.
Нужна одна-единственная математическая операция - разделить массив на родственные группы.
Но я этой операции провести не могу - некомпетентен. Да, и ни один домашний комп не потянет.
С горя вчера приболел и понял, как зайти с тыла - именно с тыла.

Делаем файл из 3-х листов: недели, корреляция и корреляция рядов корреляций.
Смотрим в третьем листе, где явно родственные даты, и сливаем их на первом листе.
Результат: именно эти два года сливаются на втором и третьем листах - сами.
Соответственно, меняется ВЕСЬ расклад, а группы формируются сами - без моего участия.
Малое управляет большим.

Date: 2017-01-18 01:40 pm (UTC)
From: [identity profile] chispa1707.livejournal.com
Красиво.
Получается, шкала здесь разбита на объективные (пусть и фальшивые, но объективные) эпохи. Так?
А связи между эпохами есть?

Date: 2017-01-18 02:05 pm (UTC)
From: [identity profile] oleg berezin (from livejournal.com)
Не, это, так сказать, демонстратор технологии. Взял как есть и сунул в готовое, получил абы что.
Рекомендую таки поставить себе R с Python-ом и попробовать. Экселем в подобных делах не обойтись.

Date: 2017-01-18 04:01 pm (UTC)
From: [identity profile] necrosfodel.livejournal.com

Там основная сложность будет с тем, чтобы считать эти данные из экселя в многомерный массив, а не с обработкой с помощью этого скрипта.
Я знаю скрипты для работы с xls/xlsx под python, c++, go. Эта хрень (k-means) есть под python или сисиплюс?

Date: 2017-01-18 06:23 pm (UTC)
From: [identity profile] oleg berezin (from livejournal.com)
Я в питоне минимально понимаю. Я вообще не программист :)
K-means есть, конечно, в пакете sklearn . Numpy c matplotlib еще подгрузить. Навскидку нашлось это
http://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_digits.html
https://datasciencelab.wordpress.com/2013/12/12/clustering-with-k-means-in-python/
Но эти кластеры не совсем то, что нужно.

Только мне кажется, сейчас нечего анализировать - в события в базе почти не классифицированы. Опираться только на количество событий по годам - сомнительная стратегия.
Мне кажется, что стоит добавить в базу множество классифицирующих признаков, бинарных (да-нет), каждый в своем поле - тогда одинаковые события будет легко искать. Тогда и в кластеризации появится смысл.
Врукопашную это конечно бессмысленно, но, как выяснилось, машинное обучение неплохо с этой задачей справляется.
Удачное руководство попалось тут:
https://journal.r-project.org/archive/2013-1/collingwood-jurka-boydstun-etal.pdf
но это R. Хотя питон - промышленный стандарт в машинном обучении, там точно все есть.
Edited Date: 2017-01-18 06:30 pm (UTC)

Date: 2017-01-18 06:27 pm (UTC)
From: [identity profile] oleg berezin (from livejournal.com)
>сложность будет с тем, чтобы считать эти данные из экселя в

Да вроде и питон (пакет numpy) и R хорошо понимают csv. И там и там есть пакеты для чтения напрямую экселевских файлов, оба читают нормально. В R , если через оболочку RCommander , так вообще это можно делать из меню на русском языке.

Date: 2017-01-18 04:06 pm (UTC)
From: [identity profile] necrosfodel.livejournal.com

Вот это еще нужно будет.
https://github.com/hadley/readxl
Вы же прекрасно понимаете, что Андрей не потянет - это кодинг (все это связать).

Profile

chispa1707: (Default)
chispa1707

January 2026

S M T W T F S
     1 2 3
4 5 6 7 8 910
11 1213 14 15 1617
18 19 2021222324
25262728293031

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 20th, 2026 02:28 pm
Powered by Dreamwidth Studios