На большом объеме сразу видно опечатки, слова с ошибками и другие артефакты. (например глюки сканера и обрывы слов с переносами)
Поэтому удалял этот мусор, которого не бывает в живом тексте. Чем больше исходный объем, тем виднее несовпадения - может яндекс как раз по такой статистике и фильтрует?
Чтобы набрать большое количество разных вариаций. Больше цепей, лучше уникальность - проще вычислить мало употребляемые сочетания и удалить. Пропадает необходимость парсить новые тексты. Даже при совпадении по шинглам источники будут разные.
Что не так со статистикой?
Да.
Нет.
Нет, разбивал только по словам которые больше 3 букв, но сохранял знаки препинания. Сейчас база для сборки больше 2 гигов, это несколько миллионов звеньев. Было обработано больше 10 гигабайт текстов! (книжек, статей, сайтов) Текст очень уникальный - тщательно отфильтрован весь мусор. (зоо, дети и др.) В выдачу залетает нормально, но есть проблемы при подмешивании ключей, думаю как лучше замешать.
Еще немного текста, если надо больше, спрашивайте - выложу еще.
лучше, только надо оставить кнопку "поехали" и убрать все остальное
бизнес пошел?
Ел хорошо, в выдаче маловато.