June 1, 2018
Декларатор ищет программиста для сотрудничества в рамках проекта, реализуемого совместно с Университетом Джорджа Вашингтона. Нам нужно идентифицировать субъектов 300 тысяч антикоррупционных деклараций, на основе её содержания: состава имущества, места работы и должности, имени должностного лица. Заявки заинтересованных исполнителей принимаются до 12 июня.
Проект “Декларатор” ищет программиста для сотрудничества в рамках проекта, реализуемого совместно с Университетом Джорджа Вашингтона.
Мы занимаемся парсингом антикоррупционных деклараций для их импорта в единую базу данных Декларатора, всего мы планируем внести более 300 тысяч антикоррупционных деклараций. Записи за разные годы необходимо объединить в цепочки, представляющие собой профили должностных лиц (идентифицировать декларацию). Идентификация проводится на основе содержания самой декларации и данных о ней: имени должностного лица, места работы и должности, состава имущества. Все эти параметры меняются из года в год, но как правило, это происходит не единовременно, а частями. Кроме того, присутствуют случаи разного описания одних и тех же объектов (например, площадь недвижимости может указываться с точностью до сотой или десятой доли квадратного метра, в одной декларации указано полное ФИО, во второй - только инициалы, и пр.).
Идеальный кандидат:
Обладает превосходными навыками работы с данными
Имеет опыт решения задач методами машинного обучения
На отличном уровне умеет программировать на Питоне и/или C#;
Знаком с алгоритмами кластеризации, предназначенными для связывания записей, включая нечеткое сопоставление и классификацию
Если вы заинтересованы в сотрудничестве, пришлите нам короткое письмо о себе и своё резюме до 12 июня по адресу [email protected]