7 сентября 2023

Многоступенчатый фильтр: как очистить огромный массив данных от дубликатов

Рассказали, как удалить дубликаты в огромной базе данных, и о том, как обработать большой объем данных невысокого качества.

Дедупликация необходима для повышения комфорта и эффективности при использовании данных потребителями, а также при решении задач, связанных с хранением данных, аналитикой. В крупных проектах наиболее эффективен комплексный подход к дедупликации, включающий в себя несколько этапов очистки и сочетающий разные методы.

Разработчик компании IT_One Анна Зверькова рассказывает о нюансах этой процедуры и способах обработки большого объема данных невысокого уровня качества на примере из финансовой отрасли.

Общие сведения

Дедупликация – это процесс поиска и удаления дублирующихся записей в наборе данных. При этом дубликаты записей могут как быть абсолютными, то есть полностью идентичными по всем полям, так и неполными, когда несколько различающиеся записи тем не менее, относятся к одной сущности и должны быть интерпретированы как одна запись.

Пример абсолютных дубликатов:

Полный текст на сайте TProger

Читайте наш кейс на РБК: как ИТ-компании прокачать бренд работодателя

16 июля 2024

Как вырастить штат ИТ-компании в 15 раз за 3 года - рассказываем в совместном кейсе с IT_ONE

 

Ася Власова – в шоу «Стражи Леса» на радио «ЭХО лОСЕЙ»

10 июля 2024

Ася Власова, сооснователь и управляющий партнёр агентства iTrend, приняла участие в шоу “Стражи Леса” на радио "ЭХО лОСЕЙ". Вместе с Еленой Бочеровой из компании "Киберпротект" поговорили о том, как выстраивать PR и коммуникации в ИТ.

 

Приглашаем на конференцию для директоров по маркетингу и PR-руководителей ИТ-компаний 

5 июня 2024

На мероприятии встретятся директора по маркетингу и PR-руководители крупных российских ИТ-компаний.

 

Экс-редактор Comnews присоединился к команде iTrend

30 мая 2024

На позицию руководителя проектов коммуникационного агентства iTrend вышел Денис Шишулин – ранее многолетний выпускающий редактор издательской группы ComNews, одного из самых авторитетных ИТ-изданий в России. В iTrend Денис будет отвечать за стратегическое руководство ряда PR-проектов с ИТ-компаниями, оперативное взаимодействие со СМИ, координацию работы команд, а также за качество проектов, которыми руководит в агентстве.

 

iTrend — в числе топ-агентств России по версии «Рейтинга Рунета»

28 мая 2024

Опубликованы итоги ранкинга коммуникационных агентств от «Рейтинга Рунета–2024». iTrend занял лидирующие места в ключевых для агентства срезах — PR в ИТ-отрасли, SMM в ИТ-отрасли, PR и SMM на аудиторию b2b enterprise, PR-аналитика, PR первых лиц и др.

 
Все новости iTrend