- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
to Leom:
Телефон напишу - поговорить - мне тоже интересно.
Сотрудничать с большим клиентом много выгоднее - но я, конечно, пытаюсь здраво оценивать свои возможности - поэтому оринтироваться буду просто на людей - т.е. на каждого в отдельности. Тут у меня еще есть, что сказать (точнее про что промолчать).
Насчет объема индексируемой информации - я свои тесты проводил на новостных текстах порядка 140000 html документов объемом около 700mb. Поэтому все что написано выше - подразумевает именно этот мой тест. В ближайшее время сделаю этот тест общедоступным. Конечно при большем объеме будут сложности - т.е. потенциально они могут возникнуть у меня уже при объеме порядка 10gb текста - что примерно будет соответствовать индексу в 2gb - тут уже сложность - поскольку у меня лишь 1 индексный файл в результате. На большие объемы я пока и не замахиваюсь - проблеммы с разростанием индекса - в принципе решаемы - наступит момент я их решу. Скорость индексирования при больших объемах у меня потенциально останется на том же уровне - рост количества документов тут не помеха. Есть у меня еще возможность ускорить индексирование - на данный момент я не ставлю себе такую задачу - быть тут первым. Ну и время поиска - будет сравнимо с чтением нужной индексной информации из файла индекса.
Поскольку даже самые фанатичные коллекционеры различных доков не собирают их больше 5 gb (сужу по себе) - тестирование на 100 gb для меня сейчас не приоритет. И соревноваться с вами тут я не собираюсь. А что возникнут при таких объемах тонкости - 100%. После того как реализую некоторые намеченные фичи - (у остальных подобное уже есть) - я сделаю это по своему - может кто посчитает что для него это то что нужно - можно будет объявить релиз. Сейчас это игрушка которой я что называется - "козыряю" - правда feedback пока небольшой - это нормально - даже хорошо.
Именно скорость индексирования searchinfo заставила меня искать пути как сделать мое индекирование сравнимым по скорости - в принципе на моем тесте ваша программа индексировала минут 5 у меня минут 6. Я тоже считаю скорость индексирования важным показателем - тут вам конечно респект.
To All:
Для любителей конкретных цифр - обещаю - напишу ревью - со сравнительным анализом - когда придет время - оринтироваться буду на 5 может 20 gb текста. Ну и старый тест на 700mb там будет. Повторю еще раз - имею возможность сделать его общедоступным - сделаю это в ближайшее время. Тут не раз упоминался trec.nist.gov - там я не нашел corpusa файлов для тестирования - так же нет такого корпуса в общедоступном - одинаковом для всех виде на схожем по тематике русском треке - типа это коммерческая информация - в общем - если есть заинтересованные - мой корпус бесплатен - первые заинтересовавшиеся - смогут его получить - :) с условием прежде скачать и посмотреть StopKa.
осталось дождаться когда яндекс приобретет данный алгоритм и прощай 90% контентарунета)) поклеит все нафиг как плагиат и копирование контента 😂 🙄
Сотрудничать с большим клиентом много выгоднее - но я, конечно, пытаюсь здраво оценивать свои возможности - поэтому оринтироваться буду просто на людей - т.е. на каждого в отдельности. Тут у меня еще есть, что сказать (точнее про что промолчать).
Насчет объема индексируемой информации - я свои тесты проводил на новостных текстах порядка 140000 html документов объемом около 700mb.
......................
140К документов и 700 мег это совсем мало.
А насчет ориентации на просто пользователей -- смотри чтобы не получилась работа в стол. Это просто совет не более того. Для тех кому надо 1-2 гига всего индексить и на локальном диске вполне устроит бесплатный яндекс или гугл.
В любом софте должно быть то что он решает намного лучше чем конкуренты.
осталось дождаться когда яндекс приобретет данный алгоритм и прощай 90% контентарунета)) поклеит все нафиг как плагиат и копирование контента 😂 🙄
Не яндекс точно не приобретет -- с одной стороны гордость не позволит, а с другой стороны мы уже давно вышли из стадии когда радовались каждому заказику и соответственно уже сегодня стоимость компании SearchInform (капитализация ) достаточно серьезная -- особенно если оценивать не только приходы а все заключенные контракты по которым мы должны проводить работы в 2008 году, так как во многих структрах бюджет сразу на следующий год закладывается.
Так что мы только поможем научить студентов заниматься не только копи-пайстэ :)
Потенциально такая "работа в стол" меня не пугает - поскольку это хобби и здесь я хозяин.