firacet

firacet
Рейтинг
68
Регистрация
23.07.2008
Oshparennij:
а можно посмотреть выдачу с профилями

Конечно можно, гугл вроде не запрещает смотреть выдачу. Или у Вас не получается и это?

Есть много аков на qip, moemesto, memori. Если еще надо, пишите в ЛС.

bliiiiiiiiina:
1 дорвей = 1 новый шаблон

Потянулся в нижний правый угол поставить + и блин не нашел такого :)

Обязательно 1 шаб на один дор!

Я член велосипедного сообщества, умею натягивать цепь и устранять восьмерки на колесах!

Возьму базу за отзыв :D

Kyzmit4:
Если это касаицо Красной кнопки, то вполне согласен.Касательно ДМИ, то тут как раз наоборот, чем мощнее серв, тем лучше. Потом же опять, есть 2 варианта привязки этого доргена:
1 - Тегер установлен на твоем сервере.
2 - Привязка к тегеру установленому на сервере ДМИ.
В случае 1-го варианта, тебе как раз и нужен сервер помощнее, ибо от этого будет зависеть насколько быстро у тебя будет происходить сбор словарей, а сам алгоритм достаточно прожорливый, а именно сам процесс разбиения на части речи, посему файл на 5-10 Мб напарсенного текста на тухлой тачке может сутками жужать.
В случае 2 все намного быстрее, ибо создатель ДМИ непоскупился на сервер:)скрипт только отсилает запросы на сервер ДМИ и получает уже готовые словари.Исключая, конечно, многими упомянутый минус - лежит сервер ДМИ, соответственно дорген не работает:)
К 3-му можно добавить, так как дорген все делает сам те. парсит картинки, текст... то при покупке сервера, надо еще и учитывать количество трафега, это конечно , кто работает масово на потоке, а не так, просто, пару раз в день запускает под настроение :)

Не видал вариантов привязки №1. Я про Dmi3Static - то что на нуледе ( динамик ) он идет с тагером и старые версии были с локальным таггером. Но текущий, актуальный Dmi3Static только с таггингом на сервере Dmi3.

4arger:
разве <noindex> не применяется для этих целей? или nofollow?

Ну для гугла nofollow уже не помогает, так как вес делится даже на ссылки которые rel=nofollow 🙅

Kyzmit4:
процесс сбора словарей ложит вполне приличный сервер

Информация к размышлению:

Самое ресурсоемкое в сборе словаря это так называемый tag`гинг и этот процес не совершается на вашем серваке. Собранный текст по ФТП отправляется на сервер ДмиТрия и там уже происходит таггинг и потом Вам возвращается результат по http. Дальше идет простая вставка в базу sqlite.

Не знаю что у вас там за "приличные" сервера, которые не могут справится с обычным инсертом в базу... Может стоит его просто настроить? 🚬

texter:
Вы из-за антенн пропустили более серьезный ляп. В фильме не настоящий Брежнев, а актер! ☝

ОМГ!

.....

ciber:
на случай под 3 гига используем свойство уникальность mysql

CREATE TABLE IF NOT EXISTS `utext` (
`text` varchar(255) NOT NULL,
`id` int(11) NOT NULL auto_increment,
PRIMARY KEY (`id`),
UNIQUE KEY `text` (`text`)
)
<?
mysql_connect('localhost','user','pass');
mysql_select_db('uname');
$handle = fopen("/tmp/inputfile.txt", "r");
while (!feof($handle)) {
$buffer = fgets($handle, 4096);
mysql_query("INSERT INTO `testing`.`text` (`text`, `id`) VALUES ('".trim($buffer)."', NULL)");
}
fclose($handle);
?>

На выходе получаем базу с уникальными значениями

Да я тоже про мускул думал, даже пробовал. Но не через пхп, а напрямую load data in file ( вроде так )

Дооооооолго работает заразО :(

Dmitry HT:
Ну ё-маё, Вы бы еще кол-во символов подсчитали. Там основная часть "консольный интерфейс".

п.с. можно было бы значительно ускорить процесс за счет считывания всего файла в память, но это бы ограничило возможности скрипта размерами свободной оперативной памяти.

Да, действительно, как-то не красиво я поступил.

Прошу прощения что агрессивно отреагировал на ваш скрипт!

Спасибо что выкладываете свои творения, многие даже за такое берут деньги!

А насчет памяти это огромный + Мне надо проверить файл размером 3гб на уникальность строк. Попробую ваш скриптик под это дело.

Всего: 588