- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Добрый День,
Последние пару лет я занимаюсь созданием поискового движка полнотекстового поиска.
Движок пишется с нуля, на "голом" Си. Первая версия по функциональности достаточно примитивна - обычный инвертированый индекс. В базовом варианте страницы не ранжирует, расстояние между словами не учитывает.
Зачем писать еще один ?
Как обычно, быстрее индексация (60-120мб\сек), компактней индекс (сжатие до 99%), выше скорость поиска (до 1млн простых запросов в секунду).
Что сделано на сегодня, проиндексировано
dou.ua (0.5гб html текста)
Habrahabr.ru (15гб html текста),
Sql.ru (56гб html текста),
Lib.rus.ec (250гб текста),
Всего контента: 320гб
Результирующий индекс: ~4 гб
Вообщем вопрос такой. Я хотел бы этот движок развить в современную поисковую систему, с каки-нибудь интересными фичами. Вообщем мне нужны советы, как это можно сделать, с чего начать, какие фичи можно реализовать для создания уникального движка, где искать инвесторов ?
Ведь потенциал у движка есть стать именно поисковой системой, по моим чисто теоретическим расчетам на обычный 1-2ТБ винт вместится индекс на весь текстовый контент рунета.
Из фич для просто инвертированого индекса, пришла например такая идея.
Поиск по словарям. Пользователь задает словарь, вес каждого слова в словаре и отискивает все документы, где встречается наибольшее количество слов из словаря. В идеале такой поиск должен отискивать на запросы "ругают ФК Спартак" все страницы где болельщики ругают Спартак (ругают в запросе это не точное вхождение, а словарь слов).
Такое гдето уже реализовано ? Стоит ли за это браться ?
Вообщем хотелось бы просто пообщатся с толковыми людьми на эту тему.
Спасибо за любые ответы !
ЗЫ:
Также открыт для переписки support[сбк]pikosec.com
начинайте сразу с поисков инвестора. Только вот эти ваши "я молодец, но что дальше" разверните в нормальный документ.
The_Curious, да что там разворачивать то? ТС же просит накидать ему функционал.
Значит он не найдет инвестора :) И Яндекс не будет попячен. За это надо выпить. Не чокаясь.
Спасибо за ответы.
Все правильно, меня сейчас больше интересует "правильное" расширение функциональности.
Просто занять нишу гугла или яндекса, такой цели не ставится, эти поисковики на мой взгляд написаны хорошо и улучшить с точки зрения пользователя врядли чтото удасться (Хотя может у Вас другие мысли ?).
В качестве пилотной идеи меня больше сейчас интересует реализация семантического поиска, или поиска по словарям. Гугление ничего конкретного пока не дало, но с практической точки зрения, наверняка работы в этой области ведутся.
Из фич для просто инвертированого индекса, пришла например такая идея.
Поиск по словарям. Пользователь задает словарь, вес каждого слова в словаре и отискивает все документы, где встречается наибольшее количество слов из словаря. В идеале такой поиск должен отискивать на запросы "ругают ФК Спартак" все страницы где болельщики ругают Спартак (ругают в запросе это не точное вхождение, а словарь слов).
Такое гдето уже реализовано ? Стоит ли за это браться ?
Если сделать упор в основном на ПФ 90, и исключить такое понятие, как трастовость сайта?
Проблема поисковиков сейчас в том, что в ТОП попадают не качественный контент а с большим количеством ссылок.
Или например в выдаче будут две колонки. Одна колонка это запросы с хорошим ПФ, другая молодые, но качественные сайты.
ТС веб бетки еще нет? Я бы посоветовал посмотреть в сторону Я.Островов и реализовать что-то подобное в узкой нише. Например те же энциклопедии, проиндексировать википедию и оттачивать на ней релевантность ответов. Постепенно можно государственные сайты индексировать их сейчас достаточно много. Или социальные сети, тот же контакт там можно поиграться с ранжированием по лайкам/репостам. На самом деле много чего можно сделать, главное делать а не слушать флудеров на форумах;-)
+1 за семантический поиск по википедии. Исключительно хорошая идея ИМХО.
Нишевый поиск по товарам, чтобы не по маркету искать и топам. А по всем торг.точкам результаты выдавались, с авито и прочими. Только на продажах и прибыли это плохо скажется. Зато покупатели довольны будут. Ну и подобно Островам, чтобы не отставать от Я.
Идеи должны быть свои. А вот исполнителей можно найти на стороне. За свои деньги.
Об инвесторах думать рано, пока у вас ничего нет, что можно тестировать.
+1 за семантический поиск по википедии. Исключительно хорошая идея ИМХО.
Википедия задумывалась как кладезь структурированой информации.
Как по мне, проблемы поиска там нет, любую инфу можно искать и по вхождениям и по категориям и по похожим статьям.
---------- Добавлено 18.01.2014 в 22:14 ----------
Если сделать упор в основном на ПФ 90
Что такое ПФ 90 ?
---------- Добавлено 18.01.2014 в 22:18 ----------
Нишевый поиск по товарам, чтобы не по маркету искать и топам. А по всем торг.точкам результаты выдавались, с авито и прочими. Только на продажах и прибыли это плохо скажется. Зато покупатели довольны будут. Ну и подобно Островам, чтобы не отставать от Я.
Думал про это, но натолкнулся на сайт, например prom.ua.
Сама по себе идея интересная, особенно фасетного поиска, поиск товаров по большому количеству разных параметров. Множество вебмагазинов достаточно уныло выглядят в плане поиска, часто поиск только по категории товара. Но пока задача трудно реализуемая, посколько прийдется писать море парсеров.
---------- Добавлено 18.01.2014 в 22:19 ----------
PS: Проиндексирован еще один форум
http://www.skoda-club.org.ua/forum/
Общее количестве html страниц - 214 571
Общий обьем данных - 12 гб
Результирующий индекс - 75мб