chispa1707: (Default)
[personal profile] chispa1707
Суть дела: обязана существовать хронологическая связанность событий разного типа:
- сначала к городу подступает армия, и лишь потом заводят речь об откупе от штурма;
- сначала вводят новые юридические нормы, и лишь потом заводят речь о выкупе ленов;
- сначала инквизицию вводят, и лишь потом она приступает к сожжениям еретиков.

Поскольку в каждом случае мы видим два этапа единого процесса, она происходят почти одновременно, местами с разницей до года. То есть, что в половине случаев связанные процессы будут зафиксированы в одном календарном году, а в половине случаев - в двух сопредельных, и второй этап не может наступить раньше первого.

Если сопоставить все индексы со всеми в одном году и в двух сопредельных, будет получена выборка с числовыми значениями, в целом, верными. В тех местах, где итоговые правила последовательности соблюдаться не будут, наиболее вероятно, расположен "шов" между разными массивами. Я, к примеру, держусь гипотезы о 6-летнем шаблоне, и эта гипотеза подтвердится, если "швы" лягут каждые 6 лет. Однако, на деле, где швы лягут, там и будет реальная граница. Те же блоки данных, в которых все правила будут уверенно соблюдены, можно будет сопоставить и точно сказать, которые из них логические дубликаты друг друга.

Задачу можно и укрупнить: ввести индексы регионов, сверить не только сопредельные годы, но и разделенные 1, 2, 3 и так далее годами (лучше, если не более 5). Можно сверять сам факт события, а можно учитывать их общее число в году. Каждая новая порция сверямых данных лишь добавит точности.

Я этот путь уже прошел до конца - успешно. Помеха: трудоемкость. Я сверил массив по одному индексу типа событий, а таковых в моей базе 879, и полная выборка должна составить 879 в квадрате вариантов по всей шкале из 2,5 тысяч дат. Это порядка 2 млрд ячеек, и такой объем Эксель заведомо не тянет. Плюс, моими методами на это надо лет пять )))

Потребуется оптимизация, а еще лучше - новые способы сортировки. Но главное здесь то, что этот подход, вне всяких сомнений, вполне рабочий. Хронология действительно восстановима математическими методами.

Profile

chispa1707: (Default)
chispa1707

May 2022

S M T W T F S
1234567
891011121314
1516171819 20 21
22232425262728
293031    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 16th, 2025 02:06 pm
Powered by Dreamwidth Studios