метрические данные что это

Типы данных в статистике

метрические данные что это. Смотреть фото метрические данные что это. Смотреть картинку метрические данные что это. Картинка про метрические данные что это. Фото метрические данные что это

Такие выражения, как минимум, максимум, медиана и процентиль имеют значение лишь для порядковых данных, то есть если данные могут быть отсортированы с малого до большого значения. Высота, ширина, вес, количество голосов избирателей, уровень глюкозы в крови и вообще любые показатели лабораторных анализов являются порядковыми данными. А ответ на вопрос “Ваше отношение к политике Трампа?” не является порядковым. Если, конечно не даны готовые варианты ответов из нескольких значений.

Порядковые (ordinal) данные делятся на метрические (metric) и неметрические (nonmetric).

Метрические (количественные) данные

Метрические данные также называют количественными. Говоря количественные данные, не имеется в виду, что эти данные можно считать натуральными числами. Просто эти данные можно измерять двумя способами. Одним из способов является измерение с помощью интервальной шкалы, разделенной на равные промежутки. Количественно равные промежутки этой шкалы отображают равные промежутки значений, измеряемых характеристик. Если проведение такого измерения не представляется возможным, то можно измерять с помощью шкалы отношений. В таком случае кроме расстояния определяется и порядок значений.

Метрические данные сами делятся на непрерывные (continuous) и дискретные (discrete). Рост или масса детей в классе считаются непрерывными данными, а вот их количество является дискретным значением.

Неметрические (категориальные) данные

Другое название неметрических данных, это категориальные (categorical) данные. Эти данные имеют ограниченное число значений. Они, скорее всего, представляют собой “качественные” данные. В литературе вы можете встретить все эти три названия. Все классификаторы являются категориальными данными. Примером таких данных являются почтовый индекс, пол людей, должность, чин, цвет глаз, и т.д.

Для анализа этих данных иногда им присваивается определенный “вес”. Например, если проводится опрос, то каждому ответу присваивается определенное значение, чтобы потом можно было им оперировать и придавать статистическое значение.

Читайте также

метрические данные что это. Смотреть фото метрические данные что это. Смотреть картинку метрические данные что это. Картинка про метрические данные что это. Фото метрические данные что это

Переменные потока и запасы

Все экономические переменные, которые имеют временное измерение, т.е. величины которых можно измерить по истечении времени называем переменными потока. А запас не имеет временное измерение.

Показатели вариации

Чтобы знать, насколько далеко значение совокупности простирается от центральной тенденции, вычисляют вариацию (на английском dispersion или variability, но не путайте с variation). Есть несколько показателей вариации. Это размах, межквартильный размах, среднее линейное отклонение, дисперсия и стандартное отклонение.

Типы выборки

Для расследования генеральной совокупности применяют два вида выборки. Случайную и неслучайную выборку. Простая, систематическая, стратифицированная и кластерная выборка являются случайными выборками. Стихийная, удобная и квотная выборка являются примером неслучайной выборки.

метрические данные что это. Смотреть фото метрические данные что это. Смотреть картинку метрические данные что это. Картинка про метрические данные что это. Фото метрические данные что это

Скользящее среднее значение

Среди наиболее популярных технических индикаторов чаще всего, скользящее среднее значение используются для измерения направления текущего тренда. Самая простая формула скользящей средней, известна как Простое Скользящее Среднее значение.

Генеральная совокупность и выборка

Генеральной совокупностью называют всё исследуемое множество. На английском языке этот термин называется популяцией (population). Выборкой (на английском sample) называют некоторое случайно отобранное подмножество из генеральной совокупности.

Нулевая гипотеза

Нулевая гипотеза утверждает, что между исследуемыми данными никакой закономерности нет. Пока нулевая гипотеза не опровергнута, она в силе. Альтернативная гипотеза является обратной нулевой гипотезе.

метрические данные что это. Смотреть фото метрические данные что это. Смотреть картинку метрические данные что это. Картинка про метрические данные что это. Фото метрические данные что это

Что такое тренд?

Термины тренд и тенденция используются в различных целях. Люди часто говорят о тенденции относительно роста цен и падения курса какой-то валюты. Здесь мы раскроем статистическое значение этих терминов.

Ошибка репрезентативности

Стандартная ошибка (standard error) и ошибка репрезентативности часто употребляются, как взаимозаменяемые термины. Ошибка репрезентативности показывает, насколько результаты, полученные при выборочном наблюдении отличаются от результатов, полученных при исследовании генеральной совокупности.

Среднее значение, медиана и мода

Все чаще встречаем такие термины, как Бизнес-аналитика, Система поддержки принятия решений, Предсказательная аналитика. Но их уже достаточно распиарили и без нас. Поэтому остановимся на объяснении этих трех терминов: среднее значение, медиана и мода.

© Все права защищены

Все статьи этого сайта написаны Джафаром Н.Алиевым. Перепечатывание любой статьи на стороннем ресурсе должно сопровождаться именем автора и ссылкой на данный ресурс. Сам автор следует этим правилам.

Источник

Генеалогические исследования — метрические книги, переписи, архивы, открытые базы

Не один год я увлекаюсь генеалогией. Практической пользы в этом хобби нет, но интересного очень много. Здесь я хотел поделиться накопленным опытом, частью интересных сведений, не сильно погружаясь в персональные истории. Чтобы текст сильно не распухал, расскажу всего 2 кейса: поиск в военных архивах на основе данных онлайн-баз и продолжительный просмотр и анализ метрических книг одного села периода конца XIX — начала XX вв. вплоть до конца революции и гражданской войны.

Изучение метрических книг, запросы в далекие архивы обычной и электронной почтой, личные походы в архивы, исследование открытых баз в интернете и другие виды поисков дают богатый материал. Иногда поиск и находки похожи на настоящий детектив, только все события были далеко в прошлом.

Осознаю, что некоторым тема публикации может показаться далекой от IT, но в процессе у меня было и программирование, VBA-скриптинг, SQL, и впереди, надеюсь, ML\DS\AI.

метрические данные что это. Смотреть фото метрические данные что это. Смотреть картинку метрические данные что это. Картинка про метрические данные что это. Фото метрические данные что это
Страница метрической книги, рождения в 1898 г. Еще в книгах записывались браки и смерти — до появления ЗАГСов в начале 1920х

В-основном главный источник знаний и ответов на сложные вопросы по генеалогии — это форум ВГД, но есть и много других мест. Время от времени моя активность затухает из-за занятости проблемами реальной жизни или из-за тупиков, нехватки сведений для дальнейших поисков. Иногда же сама жизнь дает новые импульсы. Одно из важных заметных событий — появление портала Память Народа и ряда других открытых баз, ссылки в конце статьи.

Онлайн-базы и архивные учреждения

С очень большой вероятностью эти документы там хранятся и вам удастся их получить, возможно в тот же день. Даже если офицер пропал без вести, или штабные документы дивизии были уничтожены в окружении, копия личного дела и УПК со всеми повышениями и переводами с начала службы в РККА скорее всего сохранилась и лежит в ЦАМО. Документы нельзя фотографировать (поймают по камерам, выгонят навсегда), но можно заказать их ксерокопирование или цифровые копии (еще один визит) и по готовности забрать (и еще один визит). Это все только для офицеров, рядовых и сержантов скорее всего там нет. Для таких поисков придется серьезно копаться в делах частей, брать большой отпуск и снимать жилье в Подольске — я читал о таких случаях. Или заказывать поиск профессионалу, это может быть не быстро и не дешево.

Таких итерационных поездок для получения личного дела прадеда-комбата оказалось в моем случае 3, с некоторым везением. В общем случае с копированием требуется 4 ходки. Для этого удалось пару раз отпроситься на работе до обеда и только на первую поездку брать день отпуска.

метрические данные что это. Смотреть фото метрические данные что это. Смотреть картинку метрические данные что это. Картинка про метрические данные что это. Фото метрические данные что это
Было почти все здорово, пока не выяснилось, что преданность партии Ленина-Сталина и социалистической родине проявляет недостаточно.

В результате удалось получить множество сведений о жизни прадеда, неизвестных никому из родственников: перипетии призыва, обучения, службы, автобиография, анкета с упоминанием родственников, карьерный рост в армии, отрицательная характеристика в 1938 из-за пьянства, перевод на преподавательскую работу в КУКС’З c должности командира саперного батальона, восстановление — и как финал отправку за 3 месяца до войны на запад Украины командовать новым легко-инженерным батальоном в недавно сформированной дивизии…

метрические данные что это. Смотреть фото метрические данные что это. Смотреть картинку метрические данные что это. Картинка про метрические данные что это. Фото метрические данные что это
Последняя страница УПК

Каждое такое открытие новых документов и сведений — как дверь в комнату с новыми закрытыми дверьми. Новые данные открывают возможности для новых направлений исследований и прежде всего в интернете, в открытых базах и на форумах. После переваривания и систематизации большого куска информации через год-два я дозрел до похода в другой военный архив в Москве — РГВА. В нем архивы от конца революции и до начала войны, но включают финскую войну и некоторые другие периоды. Не буду подробно описывать, скажу только, что в РГВА проще работать, он в Москве и меньше сложных неудобных порядков. Там я тоже немало интересного нашел, но уже без такого поражающего эффекта, как в Подольске. В Москве есть еще интересный архив — РГАСПИ. Если человек состоял в партии, можно по емейлу заказать партийную карточку, зная только ее номер (по ФИО не получится). Оплатить квитанцию за услугу в банке, прислать опять же по емейлу ее фотографию и в ответ получить фото 2 оборотов партийной карточки. Это круто, это очень удобно — всем бы архивам работать c таким же комфортом для людей.

Перед походами в архивы стоит изучить массив и статьи с полезными советами, которые или изначально на соответствующей ветке ВГД, или по ссылкам с него.

Из еще очень полезного хочу заметить youtube-канал Виталия Семенова. Человек занимается коммерческой генеалогией, записывает стримы об архивных поисках, проблемами архивов России и СНГ. Просмотров у него десятки и сотни, но лучше бы мне некоторые выпуски посмотреть до первого похода в ЦАМО, и особенно — до момента начало поиска в метрических книгах.

Метрические книги

Метрические книги предшествовали журналам ЗАГС. До начала 1920х годов вместо ЗАГСов были церкви, в книгах священники регистрировали рождения, браки и смерти, а также проводили все должные церковные обряды. Батюшка крестил младенцев, давал имя по святцам, делал запись в книге с порядковым номером, датой, родителями и крестными(восприемниками). В начале статьи приведена страница с крещениями. Фамилии засвечивались в имени отца и ФИО крестного отца и матери. У матери фамилия, ясное дело, по мужу. Я встречал книгу, в которой уже в начале 20 века на Урале у людей не было фамилий — только имя и отчество, хотя к этому времени уже почти у всех она должны была быть. Все имена записывались в церковно-славянском написании и дореформенной орфографии: Иулитта — это Юлия, Иоанн — Иван, и так далее — Симеон, Iаков, множество вышедших из использования имен.

Если ребенок рождался вне регистрированного брака, в графе над именем крупными буквами писали НЕЗАКОННОРОЖДЕННЫЙ. А гражданских браков, так популярных сейчас, тогда и не было-то — особенно в селах. Прим.рецензента: церковными правилами запрещалось писать «незаконнорожденный», а только «вне брака». Но на местах все равно так писали… Гражданские браки были, в-основном в городах, но церковью сильно не поощрялись.

Точно так же регистрировались браки с указанием возраста жениха и невесты. Пример записи брака в книге, село Еленовка, 1907 год.

Смерти. Батюшка отпевал, писал возраст — когда точно, когда приблизительно, на глаз, и точно так же на глаз писал причину смерти без всяких медиков. Ошибки в возрасте могли быть в десятилетия — если нет записи о рождении в той же церкви или если некогда. «От старости», от маразма, воспаления легкого, чахотки, паралича от разрыва сердца, от простуды — и больше всего от десятка инфекций. Пример.

В конце года подводил итоги и рисовал статистическую таблицу — сколько родилось, сколько умерло, и из тех, кто умер — в каких возрастах.

Первый мой подход к анализу книг был попыткой выявить всех людей в одном селе, из которого происходят предки по отцовской линии. Итак, село Еленовка Мариупольского уезда Екатеринославской губернии. По некоторым сведениям основана в 1840 году.

Откуда берутся оцифрованные книги? Это длинная обширная история, но я перескажу совсем вкратце. В 90х годах представители американской секты мормонов пришли в областные архивы Украины и РФ и предложили бесплатно микрофильмировать метрические книги на своем качественном оборудовании. Полученные пленки увозились в их центр в штате Юта, но копии оставались в архивах. Как видно по количеству оцифрованных книг, нанятыми копировальщиками была проделана просто колоссальная работа. В 21 веке пленки были оцифрованы и выложены на сайт с возможностью поиска по названию церкви, населенному пункту и году.

Причины, по которым это надо было мормонам не ясны, но, очевидно связаны с этой религией.
В России их сайт с поиском по базе недоступен из-за протестов российских архивов как правообладателей, но найти книги, конечно, можно.

Кроме метрических книг еще бывают т.н. ревизские сказки — подворовые переписи крестьян, исповедные ведомости — списки проходивших исповедь в церкви. Еще есть «брачные обыски» — результаты проверок крестных на близость родства. Иногда такие документы доступны прямо в сети, основной массив хранится в архивах, но всех таких документов дошло до нас значительно меньше, чем метрических книг.

Прим.рецензента: брачные обыски — проверки перед браком, что жених и невеста имеют право вступать в брак. Причин запрета могло быть много, одна из них — духовное родство(приходятся друг другу кумовьями или отношение крестник-крестная), но было и много других, например, превышение допустимого церковью количества браков.

Общие сделанные допущения при анализе метрических книг Еленовки:

1. В селе с населением около 1000 человек с одной церковью у человека с не самой распространенной фамилией строка с его именем и отчеством — уникальный идентификатор. Если вдруг встретится 2 одинаковых ФИО — они должны родиться и жить сильно далеко друг от друга по времени.

2. В диапазонах лет имеющихся книг некоторые неполные, изредка — с очень большими пропусками записей. Это плохо, но это отправная точка, ничего сверх имеющегося скорее всего никогда не появится:

Считаем, что разыскиваемые люди хотя бы раз должны встречаться в метрических записях доступных для изучения книг — хоть в роли крестных. Вообще-то оказалось, что это не так, самый интересный период 1901-1906 пропал. Можно совсем выпасть из истории, если книги пропали или если в них есть лакуны.

Есть областные архивы России и Украины, сгоревшие уже в 21 веке или в конце 90х. Я читал о Полтавском архиве, в войну потерявший 80..90% фондов. Не успели эвакуировать или спрятать при отступлении, потом пожар или же метрические книги пошли на растопку в голодные и холодные военные зимы.

метрические данные что это. Смотреть фото метрические данные что это. Смотреть картинку метрические данные что это. Картинка про метрические данные что это. Фото метрические данные что это
Форма Excel, которую я разработал для построения всевозможных цепочек людей с одной фамилией в одном селе

Через некоторое время я пришел к такой таблице. Сначала выписки в блокнот, затем через какое-то время поиск хотя бы одной записи с нужной фамилией стал чуть технологичнее.
Я просматривал pdf книги на большом планшете, когда попадалась фамилия, я делал скриншот одновременным нажатием Power и Volume-Down. Скриншоты падают в свою папку, потом я их собираю. На скриншоте всегда виден запись года от руки в заголовке таблицы, месяц и номера записей. После прохода всех книг со скриншотов данные переносятся в Excel.

Заполнение таблицы для удобства дополнено условным форматированием цвета фона и выпадающими списками некоторых столбцов, где значение из перечислимого множества значений (Роль, событие и др). Реально в Excel получается использовать всего лишь несколько десятков цветов фона.

Несколько процедур VBA раскрашивают ячейки с Именем-Отчеством, вычисляя целочисленный хэш от строки и обрезают делением по модулю на число цветов. Также надо удалить из списка цветов слишком темные цвета, мешающие разглядеть текст, и найти новый хэш-код из оставшихся. Потом оставить тех, кто встречается более 1 раза.

Таблица, построенная в таком виде позволяет, во-первых получить некоторую статистику средствами самого Excel, во-вторых легко переносится в любую СУБД. Я использовал MS SQL. Иерархический SQL-запрос вытаскивает короткие деревья отец-сын, иногда 3-уровневые дед-отец-сын.

Большинство записей, правда, единичные. Человек мог встретиться всего лишь раз во всех доступных книгах с учетом того, что мог родиться в другом месте, книги доступны не за все года, крупные периоды утеряны полностью. В некоторых книгах часть событий не сохранилось, рождения, например, могут быть за несколько месяцев. Кроме этого человек мог раз мелькнуть в роли крестного (восприемника в старом наименовании) или поручителем на свадьбе от жениха или невесты — и все, даже если отбросить детскую смертность, когда родился и почти сразу же умер.

Также есть некоторое небольшое число однофамильцев, умерших в старости, после 50-60 лет,
Имея неподтвержденный год основания села 1840 можно считать, что они могут быть из числа первых поселенцев. Здесь некий Петр и Яков Стефанович родились до основания села и вполне могут быть в числе основателей села, если не подтянулись позже. Но из прореженных самой историей метрических книг этого уже не узнать.

метрические данные что это. Смотреть фото метрические данные что это. Смотреть картинку метрические данные что это. Картинка про метрические данные что это. Фото метрические данные что это

Некоторые наблюдения

После нескольких часов просмотра книг глаза быстро привыкают и к дореволюционному написанию. Распознаются характерные слова и фразы, которых там 80%, но очень трудно привыкнуть к безумному почерку. Время от времени к записи допускаются, скажем так, новички. Тогда, например, в прописных буквах «а», «д», «о» не дорисовываются окружности вверху, и они становятся неотличимыми от букв «и», «у». И так не быстрое выполнение fullscan глазами превращается в глазной fullscan + белковый OCR/HTR. К счастью такое не очень часто встречается.

От трети до половины смертей каждый месяц и каждый год — младенцы младше 1 года и до 3 лет. Я уже писал в вводной по книгам, что причину в поле «От чего умер» батюшка писал на глаз и проверять было некому. Прим.рецензента: если были признаки насильственной смерти, должны были вызвать врача для постановки диагноза. Паспорта в Российской империи были, но, видимо, не у всех, и в них не было фотографий. Для детей самая распространенная причина смерти — «от младенческой [слабости]» или «слабого рождения», далее — инфекционные заболевания: от кори, от коклюша, дифтерита, тифа, «от поноса». Те, кто смог выжить до 3 лет, до 6-7 лет тоже часто гибли от оспы, холеры, и тех же детских инфекций — все то, против чего направлены АКДС и другие прививки до года. Со страниц этих книг передается большой привет современным антипривочникам — коллективная номинация на премию Дарвина!

Что характерно, насильственных смертей почти нет. Один или два раза встречаются причины вроде «убит в драке», также отпевали труп неизвестного, найденного на развилке дороги близ села. Чуть чаще, но все-таки в общем редко люди гибли от происшествий: убита паровозом в 18 лет, убита молнией, убит конем.

Детская смертность 30..50% — настолько обыденное явление, что видимо не воспринималась как трагедия — Бог дал, Бог и взял. Но иногда на страницах разыгрываются настоящие драмы, и глаз их выцепляет из череды событий. Например — у вдовы рождается двойня, мальчики. Их записывают незаконнорожденными, находятся крестные — и на следующий год оба умирают от инфекций с разницей в несколько месяцев.

География. Происхождение засветившихся в книгах взрослых записывалось обязательно. Кроме самих еленовских, которых больше всего, естественно соседние села и хутора Мариупольского уезда и Мариуполя, уезды «родной» Екатеринославской губернии, дальше широкий разброс украинских губерний, даже иногда с западных — Волыни и в то время австро-венгерской Львовщины, примыкающей области Войска Донского, российских и белорусских губерний. Особенно заметны выходцы из Орловской и Курской, иногда Смоленщины и Подмосковья. Совсем редко встречаются что-то выдающееся: кто-то из Казахстана, потом брак дворянки(!) — не помню уж с кем, мещанином или даже крестьянином (значит сразу отбирают все регалии и дворянские права), и совсем уж из ряда вон — брак гражданина Италии с местной…

Прим.рецензента: к концу 19 века все уже не было так строго, привилегии не отбирались, крепостым никто не становился (как до отмены крепостного права), но дети от такого брака не получали дворянский титул.

Революции 1917 г. не отразились как-либо в книгах, слишком далеко от центра. Но в 1918-1919 гг. у всех большие перемены и большие проблемы. С сентября 1918 от сословных характеристик «крестьянин» или «мещанин» отказываются, все становятся гражданами. Некоторые блоки страниц рождений перестают содержать информацию о крестных, а записи становятся слева направо на всю страницу без разделения на поля. Почему-то в начале 1918 г. очень много женились и много рожали детей, женились сильно больше предыдущих лет и тем более страшного 1919-го. Весной 1919 в Еленовке масштабные эпидемии оспы (до 38 человек в мае) и тифа, огромная детская смертность даже по дореволюционным беспрививочным меркам. От записей тушью переходят на еле заметный простой карандаш. Священники часто меняются, за предыдущие года с конца 19 века сменился один или два. Может с ними происходит что-нибудь печальное или им приходится убегать. В том же году отпевают и хоронят большое число солдат. На территории Донбасса власть в населенных пунктах очень часто переходит между крупными игроками (красные, белые, махновцы) и мелкими бандами. Но в метрических книгах это не отражено, просто гибнет много людей. Некоторые солдаты из очень дальних мест («амурского полка рядовой»), причины смертей: убит в бою, погиб от ран, убит большевиками, итд.

Я готовлю продолжение, намного более IT-шное, но не могу обещать, что будет скоро готово. Есть еще кейсы с успешным поиском, но пусть пока будут в заготовках. Если вам интересна тема, пожалуйста, напишите в комментариях: во-первых, стоит ли на ваш взгляд писать это именно здесь, во-вторых, конкретные вопросы — постараюсь ответить.

Основные ссылки

Я намеренно не даю много ссылок, оставляя только самые важные. Полезных намного большое, но поначалу лучше не загромождать.

0. Всероссийское Генеалогическое Древо — ВГД. forum.vgd.ru — колоссальный кладезь полезного. Здесь тусуются и отвечают на вопросы множество людей со знаниями и опытом генеалогических исследований и архивных поисков. Иногда даже можно получить в ответ на вопрос фотоскан архивного документа.

1. Память Народа. pamyat-naroda.ru Основаны на базе ОБД Мемориал (статья в Википедии)
2. Портал о Первой Мировой Войне. База gwar.mil.ru/heroes
3. Перед Geni сейчас главный и более обширный сервис — MyHeritage. Geni — сайт, содержащий сотни миллионов аккаунтов и десятки миллионов построенных генеалогических деревьев. Функции сложного поиска платные, но бесплатные базовые тоже позволяют очень многое.
4. Древо Жизни — самая известная и распространенная российская генеалогическая программа. Платная, но свою тысячу рублей явно стоит.
5. FamilySearch.org — мормонский сайт с поиском по пленкам метрических книг, оцифрованными ими в архивах России и Украины.
6. Есть интересный онлайн-курс по генеалогии на британском FutureLearn, но вообще лучше в рунете искать, стартуя с ВГД. В курсе очень много местной специфики.

UPD По советам добавлю еще немного

7. База данных Мемориала по репрессированным.
8. Некоторые областные архивы сами цифруют и открывают часть фондов. Пример, который мне пригодился — Башкирский Архив открыл свои ревизские сказки и сделал простой поиск по населенному пункту.
9. dokst — немецкая онлайн база советских военнопленных и остарбайтеров в ВОВ. А также самая важная и пополняемая — архив пленных и остарбайтеров в Bad-Arolsen
10. etomesto.ru Старые карты России, городов РИ, губерний, итд. — вплоть до древних. Еще есть retromap.ru
11. Хороший генеалогический форум по Украине forum.genoua.name

UPD2 После рецензии специалиста несколько замечаний по тексту.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *