Чёт скучно стало – Leon всех обламал :)))

Автор: fedora

Ну что, камрады, как у вас дела? или все положили?

Не знаю как вас, а меня этот марафон ппц как раззадорил :)

- Стал трудиться без напряга … а так же мыть посуду, делать ДЗз и зарядку по утрам )))))

Пока кто-то застрял на 30р. – я буквально ворвался сегодня в данную весовую категорию, каждый день инкрементирую свой заработок на 1р. и при этом не добавляя ни одного сайта :)

Т.к. фигня какая-то – неделю назад добавил 1 сайт на халявном домене – он начал продаваться. на след день добавил ещё 5 на халяве. Но нет – за неделю не продано ни одной ссылки. Зашёл под старым акком – и о чудо – 1-й сайт в сомнительных сайтах, а следующие 5-ть я вообще не нашёл ни в какой базе ))))

Кстати, с халявных доменов ссылки тож не плохо продаются (ну для меня по крайне мере … думал, что будет хуже :) )

=================

оффтоп или на правах рекламы :)

меня тут на программинг пропёрло – ну бывает иногда у программистов… Одни пытаются создать свою ОС, други свой язык программирования,  3-и вообще сумасшедшие – хотят на php+mysql написать свою ПС :) ))

ну я более продвинутый программер – отношусь к 4-й категории … ) – вот тоже решил чёнить грандиозное сварганить, но есть одна проблема – я не знаю что … точнее знаю, но думаю что никто не будет пользоваться, т.к. уже всё есть в фриваре, а писать чисто для себя и никому не показывать – не интересно.

Хочу нафигачить всяких тулзов для ВМ, чтобы облегчить им жизнь :)

От нече делать – уже почти доделал генератор сайтмап.xml/html/подсчёт страниц/бэд урлов/и прочей чепухи, которую можно получить при парсинге сайта…  (так что если кому надо – обращайтесь – тестерами будете ;) ) …

В общем, вебмастера, чего Вам не хватает? )))))) Колитесь! )

3712

Связанные записи

29 комментария(ев) к "Чёт скучно стало – Leon всех обламал :)))"

iNd написал:
7 сентября 2009

насчет программистов точно заметил :)

A написал:
7 сентября 2009

не хватает такой шняги, чтоб парсила сайт, собирала все страницы, и выдавала html списком по 150 линков.
чтоб в сапу весь сайтец целиком загонять.
у спрута есть такая штука, он по сайтмапу это делает, но она не работает чото…

A написал:
7 сентября 2009

немного не понятно объяснил.
1. даешь проге/скрипту адрес сайта.
2. прога/скрипт собирает все внутренние страницы.
3. выдает список html файлов, в каждом из которых 150 ссылок на внутренние страницы.

о как.

fedora написал:
7 сентября 2009

это почти готово. только запара сейчас в автоопределении кодировки страницы – бывает, что при конвертации из одной кодировки в УТФ-8 остаётся символ FFFD и ничего не добавляется в БД… но это сегодня / завтра будет решено :)

SabaN написал:
7 сентября 2009

Ну значит будем с нетерпением поджидать ! )))

Курский бомж написал:
7 сентября 2009

Нужно что-то типа как написал «А», т.е. чтобы указывался сайт, с него парсились статьи и заголовки к ним и все это загонялось бы например в один доковский файл, на одну страницу одна статья.

Leon написал:
7 сентября 2009

Я думаю марафон выиграет сеотоуарег, у него сайтов побольше)))

GogA написал:
7 сентября 2009

Пока можно не паниковать, выпадение из индекса свойственно молодым сайтам.

Я лучше аккуратно буду продавать.

GogA написал:
7 сентября 2009

=)

fedora написал:
7 сентября 2009

так ребятушки. давайте тестить )))

Встречайте: http://seoengines.net/

пока что вывода сайт-мапа нет – я ща просто сайты загоняю и смотрю когда ВДС ляжет )))

в общем – помогите оттестить )

Известные проблемы которые хз как решить:

1). есть хосты, у которых фёрствдс забанет и туда письма не доходят

2). сейчас сделал, чтобы парсилось по 1-й странице со всех сайтов, а не с одного сайта все страницы – работает оч. медленно, но честно для всех будущих пользователей :)

в общем, если кто хочет потестить сырой продукт – милости прошу =)

Оч. буду рад критике, любой моральной поддержке, а так же помощи в поиске и решении проблемных мест тулзы.

P.s. какой вывод sitemap’ы сделать, кроме xml списка и списка всех урл с титлом ( если есть ) … ещё есть какие-нить виды востребованных сайтмапов?

p.s.s. простите за то, что нужно активировать сайт, но продукт ещё не готов, чтобы в него любой мог загнать hotline.ua или кучу чужих сайтов …

fedora написал:
7 сентября 2009

p.s.s.s. – все творения хранятся в БД и завтра / после завтра их можно будет сконвертировать в сайтмап – вы мне только скажите, в каком формате выводить … :)

- это я к тому, что если вдруг случится чудо и чей-то сайт вдруг спарсится, то без сайтмапы вы не уйдёте :) + надо будет проверить линки – так ли парсит, столько ли страниц сколько есть в реале – это всё надо будет проверить…

в общем, надеюсь на вашу помощь :)

A написал:
7 сентября 2009

как вариант, очень полезно многим будет – сайтмап в чисто текстовом виде, т.е. просто тупо список все страниц без никакого хтмля и хмля.

если боишся что упадет сервак (что возможно при большем количестве сайтов индексируемых), можно выкрутиться двумя путями:
1. сделать очередь, чтоб за раз индексировалось не больше 10-15 сайтов, а остальные ждут.
2. сделать аяксный паук. попросту говоря, сайт парсит js на стороне клиента, а серваку отправляет лишь линки.

на будущее, когда все это будет готово и отлажено, можно кроме самого парсинга сайта еще сделать проверку на индексацию в яше. ну как вариант. ахренетительный сервис получится!

пока добавил один сайт, но не совсем понятно что такое «страниц проверено».

если ты отправляешь письма с фирствдс, а он забанен (что логично), то ты можешь сделать ящичек на том же гмеиле, или меил ру, похер где, и от туда по smtp отправлять письма.

на счет активации – очень правильно, имхо. чтоб твой сервис не использовали как аля ддос на конкурентов.

fedora написал:
7 сентября 2009

сейчас парсится 100 страниц для 100 разных сайтов за 1 заход.

-

да – индексация сайта будет.
только не знаю что раньше сделать – панельку для наблюдения за сайтом – типа смотреть сколько бэклинков с сколько страниц в индексе, причём не в последний день, а по дням (когда были изменения) … и в далёком будущем, чтобы по этой инфе можно было строить график :) )

-

можно ещё бы было сделать – чекалку отдельных страниц в индексе яндекса – типа не весь сайт целиком сколько страниц – а сделать карту только из отдельных проиндексированых страниц … но это опять же – в яхе хер все страницы для всех сайтов прочекаешь …

-

в общем – это всё планы …
сейчас же нужно это до ума довести.

-

страниц проверено – это кол-во страниц, со скольких были спарсены ссылки/титл (если был указан)

-

Страниц спарсено – кол-во уникальных линков, найденных на сайте …

-

Парсинг завершается либо тогда, когда будут пройдены все ссылки, либо когда будет достигнут требуемый уровень вложенности страниц.
(сайт на 600 страниц, 3-й уровень вложенности без титлов парсит за 17 мин., всё остальное ~ 1 мин. – 1 стр.)

RaSH написал:
7 сентября 2009

Хотел зарегистрироваться, но чет не пускает) Как можно стать тестером!

fedora написал:
7 сентября 2009

бот забрал всю память и не пущает юзеров ))))

я для бота отключил ограничение по ОЗУ, чтобы брал сколько надо – что б не подвис и не пропали ссылки … а он, падла, всю ОЗУ и своп захавал ))))

это завтра уже буду править – може утечка памяти где…

я ща вдс перегрузил – регайся и добавляй свой сайт на ночь :)

… если не успеешь – пиши в асю :)

fedora написал:
9 сентября 2009

добавил получение сайтмапа, поднял параметры хоста и подшлифовал скрипт, терь вроде не виснит и побыстрей стал парсить … (хотя ща сайтов мало, так что делать выводы оч. рано)
-
народ, кто добавлял сайты и активировал их – отпишитесь сюда или на мыло – как вам сайт-мап – всё ли спарсило, норм ли панелька по созданию самой мапы … ну и если есть какие-нить пожелания – то ессно пишите.

A написал:
9 сентября 2009

есть конечно предложения, и много ;)
но для начала скажу, ты так молодец!
терь что хотелось бы видеть:
1. сайтмапы желательно давать для скачки, а не показывать. (если не умеешь, то тут php.ru/forum/viewtopic.php?t=9221 есть подсказка)
2. сайтмапы, хотя бы html, должны разбиваться на старницы, либо по 150 ссылок, либо сколько укажет пользователь. т.е. я жму на кнопочку, и мне выдается архив, в котором несколько html файлов по 150 ссылок. или не архив, а страница, на которой я могу скачать все страницы.
3. маленькая сессия, надоедает все время вводить логин пароль. увеличь плиз.
4. сделай переиндексацию. т.е. чтоб можно было отправлять сайт на пересчет ссылок. ну вдруг я добавил пару сотен страниц.
5. у моего сайта заголовки не спарсило. хотя для меня это и не сильно важно.

ну вот, для начала, такое маленькое имхо ;)

fedora написал:
9 сентября 2009

1). я пытался так сделать, но немного протупил и не вывел сам текст после отправления заголовков … потому сделал как есть …
-
2). создавать страницы, а тем более сжимать их – для 4-5 пользователей это ничто, но вот если будет кто-нить пользоваться, то мощи процессора вряд ли будет хватать на архивацию … так что сделаю страницу со ссылками на скачку отдельных страниц…

-
3). 10 мин сессия сейчас стоит. я подумал, что если 10 мин ничё не делал, то ушёл :) … но поднять не проблема… :)

-
4). переиндексация – это фактически (автоматически удалить и сразу добавить сайт, минуя активацию, т.к. пользователь мог не только добавить, но и удалить ссылки) …

-
5). упс. эт я боканул при выводе заголовков :) – проверь сейчас. вроде есть.
-
(от себя, чтобы не забыть)нужно ещё сделать:
6). удаление не активированных сайтов по истечению 1 дня
-
7). остановку индексации
-
это всё будет сделано скорее всего после завтра. (может быть завтра, но не обещаю).

-
>>ну вот, для начала, такое маленькое имхо ;)

-
пасиб :) когда кому-то интересно – уже намного веселее что-то делать …

-
у меня тут вот руки разрываются – думаю, как быть, после доделки мапгена …
продолжить делать тулзы или сделать что-нить координально отличающееся?
-
парсер / создатель получитабельного контента из нескольких тематических текстов – интересует? :)
правда его бесплатно смогу выложить только тестово – например 5-10 текстов в день на каждого юзера. всё что свыше – по каким-нить супер-демократичным ценам … т.к. для этих дел прийдётся анлим по трафику брать + ещё расширять вдску …
-
если кого-то что-то интересует что-нить из чёрной области – но боитесь сказать … пишите – будем думать – тут нечего стесняться – все свои :)

A написал:
9 сентября 2009

на счет переиндексации, зачем удалять? просто пройтись по всем ссылка что уже есть в базе.
- если страница есть, и ищем ссылки и сверяем с тем что уже есть, нашли новое- добавляем.
- если страницы нет, удаляем из- базы.
ну как пример, тут уже сам решай. по сути оптимизировать алгоритм нужно только для снижения нагрузки на сервак.

на счет заголовков, теперь он вообще только главную выдает. и заголовок выдает на утф, когда сайт на 1251. было бы не плохо перекодировать.

fedora написал:
9 сентября 2009

>>на счет заголовков, теперь он вообще только главную выдает. и заголовок выдает на утф, когда сайт на 1251. было бы не плохо перекодировать.

какой id сайта? 44 ?

A написал:
9 сентября 2009

дада, именно 44

A написал:
9 сентября 2009

заголовки появились.
я вот тут думаю про перекодировку, нужно ли?
да, оно щас показывает все заголовки в утф, а сайт твой в 1251, но я же карту повешу на свой сайт, который и есть в утф-8. соответственно если ты перекодируешь, то на моем сайте сайтмап будет выглядеть каказябрами…

fedora написал:
9 сентября 2009

да … я ж о том же … я решил хранить титлы в кодировке самого сайта, чтобы не конвертить по 10 раз …

p.s. там в твоём сайте титлы чуть-чуть некоторые урезались и появились символы кривые …

завтра сделаю переиндексацию – всё выровняется…

fedora написал:
9 сентября 2009

ребят, когда добавляете сайты – не забывайте их активировать ;) … если это, конечно, ваши сайты … )

fedora написал:
10 сентября 2009

1-7 – готово.
если ещё кто-то юзает – отпишитесь :) … вроде всё работает, но може чё подправить …

A написал:
12 сентября 2009

пока все работает хорошо, ты молодца!
периодически буду юзать, и если что придумаю или замечу глюк, отпишу тебе.
пасип!

fedora написал:
12 сентября 2009

о’кай )
И тебе спасибо, если будут какие мысли … и не только по поводу сайтмапы … ессно обращайся ;)

fedora написал:
12 сентября 2009

кстати, сколько времени хранить карту сайта? не могу же я все сайты в БД хранить %)
-
неделя, с момента окончания генерации, – подойдёт?

A написал:
13 сентября 2009

я думаю неделя нормально.

Извините, обсуждение на данный момент закрыто.