Например если текст содержит только кириллицу, то под словом понимаем последовательность из набора символов в диапазоне от а до я количество символов равно 5 начиная с начала слова и заканчивая

В каждом конкретном случае используют разные методы. Все зависит от того, что нам известно (какие входные данные) и какая точность нам нужна.
Если возможно, то разбивают фигуру на более простые тела