0
Answered
Андрей Горшков 4 months ago in Поиск дублей • updated by Антон 4 months ago 5

Воспользовались сервисом по поиску дублей. Есть несколько вопросов по файлу с результатами:

1. Можно ли в выгрузках адрес разбивать по полям: страна, регион, город, улица, номер дома, номер квартиры?
2. Можно ли для коммуникационных данных и дат рождения в заголовках полей указывать в общей склейки имя файла источника?

3. Можно ли настраивать алгоритм для определения похожих? Например, исключить из выборок людей с разными датами рождения и/или отчествами? Это существенно уменьшит объем работы для ручного разбора. Сейчас встречаются такие записи, которые однозначно нельзя объединять (но они помечены как похожие и выделены цветом):

Александров Виталий

Александров Виталий Евгеньевич 08.12.19ХХ

Александров Виталий Юрьевич 11.06.19ХХ



Answer

Answer

Андрей, спасибо большое за замечания! Действительно, отмечать как похожие такие совпадения (с заведомо разными отчествами и датами рождения) неправильно — исправим это. Думаю, тогда и настройка алгоритма не потребуется.


Насчёт понимания «какой емейл откуда взялся» тоже подумаю, как это можно сделать.


Я вижу, что вы в итоге сделали большую обработку 22 июня, на 700 тысяч записей. Что скажете о результатах? Какие ещё есть замечания?


Буду признателен, если вы напишете, как именно использовали результат обработки. Работаете с экселем? Загрузили в какую-то другую систему? Что дальше делаете с этими данными? В общем, хотел бы узнать ваш бизнес-процесс, чтобы понять, как сделать поиск дублей Дадаты более полезным.


Со своей стороны, предлагаю вам бесплатную повторную обработку по всем данным после того, как поиск дублей будет доработан ツ

Under review

Андрей,

1. В поиске дублей такой возможности нет. Вы можете воспользоваться сервисом Стандартизации, он разбивает адрес по полям.

2. Такой возможности нет. Уточните, пожалуйста, как бы вы это использовали?

3. Настраивать алгоритм нельзя. 

Валерия,

1. Очень жаль. Адрес составляется по маске ?

2. Сейчас все столбцы телефонов / email на листе "После слияния" выглядят одинаково: создаются пары (для email) "Исходный email" - "Email" для каждого из файлов источников. Непонятно какие столбцы относятся к какому файлу источнику. Однако это важно понимать, тк например email собранный по каналу интернет более актуален, чем email собранный по другому каналу (например через анкеты).

3. Очень жаль

1. К сожалению, не очень поняла вопрос про маску. После того, как вы получили файл с результатами обработки дублей, вы можете взять столбец с адресами и обработать его в Стандартизации. После обработки в файле получите полную разбивку по гранулярным полям адреса, геокоординаты и коды ФИАС/КЛАДР. Вот инструкция, как обработать файл.


По поводу пунктов 2 и 3 – сервис поиска дублей у нас в процессе разработки. Я передам ваши пожелания по сервису менеджеру продукта Антону Жиянову. Возможно, он вернется к вам с уточнением требований через неделю (сейчас он в отпуске).

Answer

Андрей, спасибо большое за замечания! Действительно, отмечать как похожие такие совпадения (с заведомо разными отчествами и датами рождения) неправильно — исправим это. Думаю, тогда и настройка алгоритма не потребуется.


Насчёт понимания «какой емейл откуда взялся» тоже подумаю, как это можно сделать.


Я вижу, что вы в итоге сделали большую обработку 22 июня, на 700 тысяч записей. Что скажете о результатах? Какие ещё есть замечания?


Буду признателен, если вы напишете, как именно использовали результат обработки. Работаете с экселем? Загрузили в какую-то другую систему? Что дальше делаете с этими данными? В общем, хотел бы узнать ваш бизнес-процесс, чтобы понять, как сделать поиск дублей Дадаты более полезным.


Со своей стороны, предлагаю вам бесплатную повторную обработку по всем данным после того, как поиск дублей будет доработан ツ

Answered

Ну не хотите — как хотите.