|
|
|
| Здравствуйте, помогите, пожалуйста, разобраться.
Имеются тринадцать файлов csv (можно объединить в единый файл/столбец), в каждом по одному столбцу (50000-65000 строк) словосочетаний из некоторого количества слов. Надо проанализировать столбцы (или единый столбец, если объединить), точнее словосочетания в них, на предмет их повторения, чтобы на выходе выяснить, например, точная фраза «африканские слоны с хоботом» встречается 13 раз, а «африканские слоны с хоботом в Антарктиде» всего в 4-х столбцах.
Прошу помочь. Спасибо. | |
|
| |
|
|
|
| Похоже, после объединения нужно делать групповой запрос, который покажет в одном столбце фразы, а в другом сколько раз она встречается.
Объединенная таблица, на нее групповой запрос в котором один столбец - фраза со слонами, а в другом на все эти фразы count | |
|
| |