Получил тех.помощь
Feb. 23rd, 2017 01:29 amРебята с cyberforum.ru помогли выбрать все города в именительном падаже.
Вышло 80 тысяч строк и порядка 190 тысяч городов - за 20 минут. Это фантастика.
Мой предыдущий результат - 11 тысяч за 6 часов.
Ясно, что там три четверти - части слов типа Во (есть и такой город), но это по ходу удалится.
Главное, каждый город это в перспективе координаты, и вместе с датами это будет нечто.
***
Но, сразу скажу, главное сейчас не это, не полнота базы.
Главное - модели.
Вышло 80 тысяч строк и порядка 190 тысяч городов - за 20 минут. Это фантастика.
Мой предыдущий результат - 11 тысяч за 6 часов.
Ясно, что там три четверти - части слов типа Во (есть и такой город), но это по ходу удалится.
Главное, каждый город это в перспективе координаты, и вместе с датами это будет нечто.
***
Но, сразу скажу, главное сейчас не это, не полнота базы.
Главное - модели.
no subject
Date: 2017-02-22 10:43 pm (UTC)no subject
Date: 2017-02-23 07:34 am (UTC)no subject
Date: 2017-02-23 11:45 am (UTC), можно поднять поисковик основанный на ваших данных - это может упростить вам жизнь
no subject
Date: 2017-02-23 03:30 pm (UTC)Как это работает?
no subject
Date: 2017-02-23 05:40 pm (UTC)подключается поисковый скрипт типа Sphinx или ElasticSearch и настраиваются поисковые настройки, вес той или иной ячейки в совпадении.
Второе - как пример что надо найти всё в каком-то падеже, пишется скрипт, который проходится по базе с использованием правил русского языка и еще дополнительных правил. и выводит ячейки совпадающие по условию.
Я веб-программист, по этому под помощью подразумеваю натягивание на базу локального сайта, а может и не локального - как вам удобнее, и помощь в создании этой базы из разрозненных источников.
no subject
Date: 2017-02-23 05:44 pm (UTC)no subject
Date: 2017-02-23 06:08 pm (UTC)У меня проблема с индексированием - это адова работа. Если вручную.
Можно ли из огромного текста выбрать ВСЕ топонимы, все тех.термины, все имена, все военные термины, а потом их все еще и рассортировать?
Почему спрашиваю.
Вот мне помогли выбрать все названия городов в именительном падеже.
Это порядка 190 тысяч. Когда вручную удалю мусор, получится конфетка.
Но для результата это надо с чем-то сопоставлять:
- с тех.терминами
- с военными терминами
- с торговыми терминами
- с политическими терминами
Только тогда. причем в строгом соответствии с географией расположения и датой события, мы увидим процессы и неоправданные разрывы процессов.
Что скажете?
no subject
Date: 2017-02-24 03:40 pm (UTC)похоже что надо поэтапно выводить... вы хотите , грубо говоря, одну мета таблицу разить на более маленькие по топонимам или по топонимам и годам, а затем подсчитать в них количество пересечений по Ключевым Словам для каждой?
no subject
Date: 2017-02-24 04:27 pm (UTC)Ситуация понятна.
Но выбрать все я теперь и сам могу. То есть, надо идти дальше.
///подключается поисковый скрипт типа Sphinx или ElasticSearch и настраиваются поисковые настройки, вес той или иной ячейки в совпадении. ///
Это, в принципе, тоже уже позади.
В массиве есть уникальные сочетания событий на протяжении лет.
Вот взял я отрезок 40 лет и вижу, что через 200 лет ровно порядка 145 катастроф совпадают год в год.
Я уже знаю, что это - тупик.
Но совпадение не случайно - это переносили массивы.
Хронологический массив за 2000 лет состоит из таких кусочков. Где-то одно перенесли на 200 лет. а где-то другое - на 167 лет.
Эти кусочки как-то идентифицировать можно?
no subject
Date: 2017-02-24 07:27 pm (UTC)no subject
Date: 2017-02-24 08:38 pm (UTC)Но есть особенность: разные массивы данных в разных странах тасовали по-разному и датированы они теперь крайне хаотично.
Ясно, что внутренняя логика где-то есть, но вот докопаться до нее бывает тяжеловато.
no subject
Date: 2017-02-24 09:22 pm (UTC)И Вы все еще в сомнениях????
no subject
Date: 2017-02-24 10:03 pm (UTC)no subject
Date: 2017-02-25 05:35 pm (UTC)no subject
Date: 2017-02-25 05:36 pm (UTC)no subject
Date: 2017-02-25 05:57 pm (UTC)После этого намерен, как минимум, выбрать в отдельную колонку все доступные топонимы - хотя бы в именительном падеже. Сегодня-завтра будет готово.
***
Если хотите потренироваться на том. что есть, то база лежит в файлобменнике, найти можно по ссылке внутри недавнего моего поста "новым френдам"