ник: Explorer
в общем случае такой подход защищает данные, конечно. но
декартово произведение записей таблиц гарантировано вернет гарантировано валидные данные
постепенно по ряду признаков можно отбрасывать варианты заведомо недопустимые(первый шаг - по полу, например) в общем зависит от количества данных и характера идентифицирующих признаков.
потом отделить варианты заведомо известные и уплотнить метаданные выборки - отобрать заведомо валидные сочетания по известным ФИО например, ФИО+город, телефон+город и т.п.
потом ранжировать варианты в функции статистической вероятности (например по дню рождения - сравнить с распеределением дней рождения в какой-то опорной статистической выборке и т.п.)
потом варианты легко уточняемые, лесенкой "степ-бай-степ" (по дню рождения, например, про номеру автомобиля, адресу, телефону, адресу и-мейл (например если и-мейл содержит признаки имени-фамилии и т.п.))
в конце концов возможно получить чистые или с небольшой "примесью" данные
это называется дэйта инвестигейшн или дэйта майнинг
ЗЫ
помится мы с osmor'ом на выставке Softool послушали презентацию системы Albatros - они какой-то схожий механизм используют - распределенное хранение данных, режут таблицы вдоль (как у тебя) и поперек и разбрасывают по разным БД.
не помю только точно как их потом собирают
они кажется на файрберде
ЗЗЫ
кстати - очень многое завист от того, как будут порезаны таблицы - как сгруппировать разные признаки - <имя+отчество+пол> - <фамилия+город+телефон> - <номер паспорта+дата рожденя> и т.п.