chispa1707: (Default)
[personal profile] chispa1707
Ребята с cyberforum.ru помогли выбрать все города в именительном падаже.
Вышло 80 тысяч строк и порядка 190 тысяч городов - за 20 минут. Это фантастика.
Мой предыдущий результат - 11 тысяч за 6 часов.
Ясно, что там три четверти - части слов типа Во (есть и такой город), но это по ходу удалится.
Главное, каждый город это в перспективе координаты, и вместе с датами это будет нечто.
***
Но, сразу скажу, главное сейчас не это, не полнота базы.
Главное - модели.

Date: 2017-02-22 10:43 pm (UTC)
From: [identity profile] olga (from livejournal.com)
Я такая зануда... Главное - это метод!!!)))

Date: 2017-02-23 07:34 am (UTC)
From: [identity profile] chispa1707.livejournal.com
Хм... принимается.

Date: 2017-02-23 11:45 am (UTC)
From: [identity profile] poroshokuhodi.livejournal.com
Мне интересно вам помочь в будущем по оптимизации поиска. Есть полнотевстовые поисковые системы 
, можно поднять поисковик основанный на ваших данных - это может упростить вам жизнь

Date: 2017-02-23 03:30 pm (UTC)
From: [identity profile] chispa1707.livejournal.com
Если сумеете, войдете в Историю.
Как это работает?

Date: 2017-02-23 05:40 pm (UTC)
From: [identity profile] poroshokuhodi.livejournal.com
я не знаю как сейчас у вас сделано, но опишу как пример - все данные можно перевести в единую базу, затем сформировать по нужным полям индексы, например по названию события и описанию с номером ячейки.
подключается поисковый скрипт типа Sphinx или ElasticSearch и настраиваются поисковые настройки, вес той или иной ячейки в совпадении.


Второе - как пример что надо найти всё в каком-то падеже, пишется скрипт, который проходится по базе с использованием правил русского языка и еще дополнительных правил. и выводит ячейки совпадающие по условию.

Я веб-программист, по этому под помощью подразумеваю натягивание на базу локального сайта, а может и не локального - как вам удобнее, и помощь в создании этой базы из разрозненных источников.

Date: 2017-02-23 05:44 pm (UTC)
From: [identity profile] poroshokuhodi.livejournal.com
сайт без дизайна, но с функционалом достаточным чтобы вы смогли использовать эти функции самостоятельно - как вариант - YII+bootstrap

Date: 2017-02-23 06:08 pm (UTC)
From: [identity profile] chispa1707.livejournal.com
Уверен, что технически все срастется.
У меня проблема с индексированием - это адова работа. Если вручную.
Можно ли из огромного текста выбрать ВСЕ топонимы, все тех.термины, все имена, все военные термины, а потом их все еще и рассортировать?

Почему спрашиваю.
Вот мне помогли выбрать все названия городов в именительном падеже.
Это порядка 190 тысяч. Когда вручную удалю мусор, получится конфетка.
Но для результата это надо с чем-то сопоставлять:
- с тех.терминами
- с военными терминами
- с торговыми терминами
- с политическими терминами

Только тогда. причем в строгом соответствии с географией расположения и датой события, мы увидим процессы и неоправданные разрывы процессов.

Что скажете?

Date: 2017-02-24 03:40 pm (UTC)
From: [identity profile] poroshokuhodi.livejournal.com
Можно пример структуры? если например по стольцам Id, заголовок, описание, прочие данные. То можно из этого выбрать по совпадениям в нужных столбцах названий - а названия выбрать из какой-то базы геоназваний, они есть в интернете разные. Названия не только же русские? В общем эти названия можно выбрать с разными окончаниями, по тех терминам и прочим ключевым словам - нужны ключевые слова, они есть каким-то списком?


похоже что надо поэтапно выводить... вы хотите , грубо говоря, одну мета таблицу разить на более маленькие по топонимам или по топонимам и годам, а затем подсчитать в них количество пересечений по Ключевым Словам для каждой?

Date: 2017-02-24 04:27 pm (UTC)
From: [identity profile] chispa1707.livejournal.com
думаю.
Ситуация понятна.
Но выбрать все я теперь и сам могу. То есть, надо идти дальше.

///подключается поисковый скрипт типа Sphinx или ElasticSearch и настраиваются поисковые настройки, вес той или иной ячейки в совпадении. ///

Это, в принципе, тоже уже позади.

В массиве есть уникальные сочетания событий на протяжении лет.
Вот взял я отрезок 40 лет и вижу, что через 200 лет ровно порядка 145 катастроф совпадают год в год.
Я уже знаю, что это - тупик.
Но совпадение не случайно - это переносили массивы.

Хронологический массив за 2000 лет состоит из таких кусочков. Где-то одно перенесли на 200 лет. а где-то другое - на 167 лет.

Эти кусочки как-то идентифицировать можно?

Date: 2017-02-24 07:27 pm (UTC)
From: [identity profile] poroshokuhodi.livejournal.com
можно, катастрофа имеет составной ключ без учета года по топониму и характеру катастрофы, можно пробежаться по всему массиву и найти эти цепочки состоящие из кодов катастроф. данные в чем? интересная задача, думаю над алгоритмом, в принципе понятен, нужно понять в чем данные и какого они рода

Date: 2017-02-24 08:38 pm (UTC)
From: [identity profile] chispa1707.livejournal.com
Спрашивайте.
Но есть особенность: разные массивы данных в разных странах тасовали по-разному и датированы они теперь крайне хаотично.
Ясно, что внутренняя логика где-то есть, но вот докопаться до нее бывает тяжеловато.

Date: 2017-02-24 09:22 pm (UTC)
From: [identity profile] olga (from livejournal.com)
Андрей, не мое это дело, но Вам предлагают некий МЕТОД, позволяющий варьировать логику событий, в зависимости от вводных данных. То есть Вам предлагают универсальный инструмент моделирования модели, о чем Вы взывали в своих молитвах)))

И Вы все еще в сомнениях????

Date: 2017-02-24 10:03 pm (UTC)
From: [identity profile] chispa1707.livejournal.com
Сомнений нет. Просто говорю о характере предстоящих проблем.

Date: 2017-02-25 05:35 pm (UTC)
From: [identity profile] poroshokuhodi.livejournal.com
Есть задача. задача интересная, в данный момент не видя перед собой массива, придумал как вывести в кодировку событий, теперь думаю как малой кровью из этой цепочки кодировок найти все, наидлиннейшие и далее по убыванию

Date: 2017-02-25 05:36 pm (UTC)
From: [identity profile] poroshokuhodi.livejournal.com
Можно ли исходники получить?

Date: 2017-02-25 05:57 pm (UTC)
From: [identity profile] chispa1707.livejournal.com
Я прямо сейчас спешно пополняю базу тем, что давно собирался добавить.
После этого намерен, как минимум, выбрать в отдельную колонку все доступные топонимы - хотя бы в именительном падеже. Сегодня-завтра будет готово.
***
Если хотите потренироваться на том. что есть, то база лежит в файлобменнике, найти можно по ссылке внутри недавнего моего поста "новым френдам"

Profile

chispa1707: (Default)
chispa1707

January 2026

S M T W T F S
     1 2 3
4 5 6 7 8 910
11 1213 14 15 1617
18 19 20 21222324
25262728293031

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 21st, 2026 12:00 pm
Powered by Dreamwidth Studios