Блог - «Декларатор» пополнили данными Минобороны за четыре года

«Декларатор» пополнили данными Минобороны за четыре года

24.01.2019

Специально разработанная система на основе нейросетей позволила добавить более 133 тысяч деклараций, которые 35 тысяч сотрудников Министерства обороны РФ подали с 2014 по 2017 год. В результате в базе проекта содержатся записи о 127 тысячах публичных должностных лиц.

Почему декларации Минобороны — особенные
Минобороны размещает антикоррупционные декларации с пофамильным списком служащих и сотрудников подведомственных организаций с 2010 года. При этом военное ведомство на особом счету. Во-первых, у него больше всех деклараций: в сводном файле ежегодно размещаются данные о более чем тридцати тысячах человек. Это не только военнослужащие, но и государственные гражданские служащие, и сотрудники бюджетных учреждений. Во-вторых, вопреки приказу Минтруда, в декларациях не указываются должности декларантов на том основании, что у некоторых подотчетных лиц должность представляет гостайну. Поэтому в исходных документах указаны только инициалы служащих Минобороны и подведомственных учреждений. Для нас это представляет особую сложность: зачастую невозможно установить, кем именно является то или иное подотчетное лицо, или определить, что две записи разных лет относятся к одному и тому же году. Как мы уже писали, это сужает возможности для общественного антикоррупционного контроля.

«Из-за ошибок в текстах деклараций и разнообразия лексики, мы не можем полностью автоматизировать составление таблиц для «Декларатора». Мы считаем, что такой подход к декларированию говорит о крайней неэффективности использования человеческих ресурсов в ведомстве. Если кто-то действительно вручную вносит данные о тысячах человек в декларации Минобороны, то в составе вооруженных сил должна существовать отдельная антикоррупционная рота, чьей боевой задачей является составления таблицы подобного размера», — комментирует руководитель проекта «Декларатор» Андрей Жвирблис.

Нейросеть и парсер «Декларатора»
Чтобы связать декларации разных лет между собой и сформировать профили должностных лиц, программисты «Декларатора» разработали специальный алгоритм, который очищает данные от ошибок и дубликатов, пытается определить тип недвижимости и транспортного средства и анализирует содержимое декларации. Он автоматически определил и «склеил» 29987 профилей (в общей сложности — около 80000 деклараций). Мы будем использовать нейросети в будущем, что позволит существенно автоматизировать и ускорить наполнение базы данных. Еще мы сделали несколько парсеров для специфических файлов деклараций (вот инструкция по работе с ними и нашим API) и работаем над универсальным парсером.

Мы предполагаем, что при импорте данных могли произойти ошибки. Их наверняка меньше, чем при ручном переносе данных, но если вы обнаружите ошибку или захотите принять участие в разработке — обязательно напишите нам. Вы можете поддержать развитие проекта, подписавшись на регулярные пожертвования «Трансперенси».

Другие записи в блоге

По всем вопросам: [email protected]

Открытые данные

Сведения, представленные на сайте, собраны из открытых
источников и носят справочный характер.

Партнеры Декларатора