chispa1707: (Default)
[personal profile] chispa1707
Ищем способ отобразить закономерности, присущие базе датированных исторических событий. По сути, мы ищем способ выявить математические связи между событиями разного типа с целью выявить и логические связи. На сегодня работающий с Питоном Алексей создал порядка полусотни файлов самого разного типа. Получить кластеры машинным способом так и остается проблемой, поэтому мы шли всеми путями. Коротко расскажу, к чему мы пришли.
***
Отдельный индекс типа события, например, mn (активность монголов) может вести себя весьма паскудно. Стоит летописцу указать на монголов во 2-м веке, как все подвязанные на них закономерности сильно сползают в прошлое. Или вот Англия... освободившая крепостных в 13-м веке - за 500-600 лет до того, как это проделали все остальные. А вот пара связанных индексов ведет себя иначе.
***
Связанными индексами мы считаем индексы типов событий, случившихся в один год в одном месте. Чтобы получать более стабильные результаты, мы расширили период до 5 лет: если два типа события случились в одном месте в пределах 5 лет, они связаны. Результат: резко отсеялись неправдоподобные варианты. Например, Англия отчиталась об освобождении крепостных, но не указала ни срока выкупа земли, ни порядка неизбежной отмены патримониальных судебных прав. Поэтому там, где такие связи есть, все работает, а там, где их нет, машина этот индекс игнорирует.
***
Как правило, два индекса совпадают многократно - например, по 10-50 раз. Для каждого совпадения есть своя дата. В середине этого ряда дат расположена медиана - среднее значение, в отличие от среднеарифметической с дробной частью, отвечающая конкретной дате. В таблице анализа периода 1200-1900 годов таких медиан около 5 тысяч. Индекс имеет множество связей с иными индексами, и каждой такой связи отвечает своя медиана (средняя дата). Это уже сейчас позволило Алексею выстроить общую хронологию медиан. Это не истина в последней инстанции, но это математически корректная опора.
***
Собственно остался один шаг - финальная кластеризация. Если удастся обойтись без нее, буду счастлив. Однако пока этот фортель не удавался. Плюс того, что вижу в файле, - ясность и наглядность происходящего. Минус - 5 тысяч медиан. Нормальный читатель этого не осилит. Да и мне требуется нечто более простое и внятное. Одно дело - любоваться красотой массива и совсем другое дело - эту красоту объяснять )
***
А в целом, я такой красоты в Экселе достичь не мог. Теперь требуется еще 1 (один) качественный рывок.

Date: 2022-11-12 01:23 pm (UTC)
From: [identity profile] ratiomaster.livejournal.com

ИМХО
Далее следует обратиться к Фурье нашему Меллину, и дифференцировать (картиночка получится наглядной)
Надежный практический метод

Date: 2022-11-12 01:59 pm (UTC)
From: [identity profile] chispa1707.livejournal.com
Передам Ваше пожелание Алексею. Я здесь сильно не в теме.

Date: 2022-11-13 10:34 am (UTC)
From: [identity profile] jarnikov45.livejournal.com
А если три события или пара из пар?

Date: 2022-11-13 10:56 am (UTC)
From: [identity profile] chispa1707.livejournal.com
Это еще лучше, но математически сложнее.

Date: 2022-11-13 12:09 pm (UTC)
From: [identity profile] jarnikov45.livejournal.com
Но видимо при 3 или 4 (2х2) связях количество блоков сократиться кратно, в общем законы статистики действуют при распределении уже 75 образцов, а у Вас тысячи. А ошибки вольные или невольные в таком массиве могут случаться.

Date: 2022-11-13 12:29 pm (UTC)
From: [identity profile] chispa1707.livejournal.com
Всё верно. Попробуем.

Profile

chispa1707: (Default)
chispa1707

January 2026

S M T W T F S
     1 2 3
4 5 6 7 8 910
11 1213 14 15 1617
18 192021222324
25262728293031

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 19th, 2026 04:53 pm
Powered by Dreamwidth Studios