Master-X
Регистрация
|
Вход
Форум
|
Новости
|
Статьи
Главная
»
Форум
»
Tube сайты
»
Тема:
Инструмент для работы с дампами тубов
Новая тема
Ответить
цитата
02/05/13 в 12:43
ricardo
Тубы предлагают разные инструменты для работы с ембеддами. У многих есть админка с разными фильтрами, есть рссы, есть те, которые выкладывают целые дампы. Например xvideos, насколько я понял выкладывают только дампы. Файл этот размером в несколького гигов на компе даже открывать страшно. Вопрос: что с ним делать, какие есть инструменты для фильтра и обработки по нужным критериям?
цитата
03/05/13 в 19:38
Lexikon
ricardo писал:
насколько я понял выкладывают только дампы. Файл этот размером в несколького гигов
дамп в несколько гигов???
ricardo писал:
Вопрос: что с ним делать, какие есть инструменты для фильтра и обработки по нужным критериям?
режь файл и фильтруй как позволяет возможность
Вы ребят уже и думать не хотите
цитата
03/05/13 в 20:06
ricardo
Lexikon писал:
дамп в несколько гигов???
Ну да, xvideos в распечатанном виде больше гига, что тоже ни мало.
Lexikon писал:
режь файл и фильтруй как позволяет возможность
Вы ребят уже и думать не хотите
Разрезать то дело не хитрое, но разве это по уму?
Даже чтобы отфильтровать строчки по заданным критериям, все-равно мало-мальски нужен какой-то инструментарий для этого. Интересно, народ то чем пользуется, военная тайна что ли? Может чего за деньги есть, ну так можно рассмотреть варианты.
цитата
03/05/13 в 20:13
Stek
Вы упускаете, что дамп мало импортировать, его еще и обновлять надо. Обновление - это не только добавить новое видео. Это еще и второй рсс канал, где публикуется удаленное видео из тюба. Т.е. синхронизация как на добавление, так и удаление.
2 гига дапм - вроде около 300к записей. Загоняется локально в базу, а дальше как душа пожелает
цитата
03/05/13 в 20:20
ricardo
Эх, нашелся бы еще добрый человек, который объяснил, как все это сделать!
upd: Вернее так, в базу то я разберусь как импортировать, а вот что что с ней дальше делать? Что юзать в качестве надстройки?
цитата
03/05/13 в 20:53
idk2045
ricardo писал:
а вот что что с ней дальше делать?
цитата
03/05/13 в 20:57
CyberSEO
Последний раз редактировалось: CyberSEO (
20/06/19 в 12:23
), всего редактировалось 3 раз(а)
цитата
03/05/13 в 21:11
ricardo
CyberSEO писал:
Импортируй RSS фид. Он сам обновляется, а ты отдыхаешь. В чем, собственно, проблема?
Фид это я понимаю для обновлений. А если мне надо из большой базы отфильтровать список с нужной нишей, с нужными словами или еще какими параметрами.
цитата
03/05/13 в 21:13
Lexikon
Stek писал:
2 гига дапм - вроде около 300к записей. Загоняется локально в базу, а дальше как душа пожелает
что то я не допру, я видел дамп от xvideos он был в текстовом формате.
1 символ в это 1 байт.
одна строка если не изменяет память это 1024байт. Т.е. это 1кб.
а там дамповая строка не длинее 1024 символов,
для примере
1 гигабайт = 1*1024*1024 = 1 048 576 килобайт.
Т.е. в дампе должно быть грубо 2 100 000 строк.
Или я что то упускаю или не до понимаю.
Там наверно в *.csv ?
Последний раз редактировалось: Lexikon (
03/05/13 в 21:25
), всего редактировалось 1 раз
цитата
03/05/13 в 21:17
Lexikon
ricardo писал:
Фид это я понимаю для обновлений. А если мне надо из большой базы отфильтровать список с нужной нишей, с нужными словами или еще какими параметрами.
Не помню точно, но вроде "Total Commander" может выдернуть (разделить файл тоже) ну или Эксель там просто фильтронуть.
Другой вариант написать код для отбора и поиска того что тебе нужно.
Ну можно и ручками
цитата
03/05/13 в 21:22
Lexikon
Lexikon писал:
Не помню точно, но вроде "Total Commander" может выдернуть (разделить файл тоже) ну или Эксель там просто фильтронуть.
Другой вариант написать код для отбора и поиска того что тебе нужно.
Ну можно и ручками
ЗЫ:
ricardo писал:
Разрезать то дело не хитрое, но разве это по уму?
если ты задаешь вопросы как достать то что тебе нужно, то это как раз по уму ибо если бы знал не создавал бы топик с этими вопросами.
сейчас глянул дамп который есть он у меня 1.2 гига в *.cvs все там по ячейкам разбросано фильтруешь по нише (кею) и все.
цитата
04/05/13 в 13:51
ricardo
Lexikon писал:
сейчас глянул дамп который есть он у меня 1.2 гига в *.cvs все там по ячейкам разбросано фильтруешь по нише (кею) и все.
Не такая уж плохая идея, спасибо за совет! С базой xvideos такой номер для меня вполне приемлем.
Но я тут на другую проблему обратил внимание:
дамп xvideos содержит всего одну ссылку на тумбу (чаще первую) размером 180px x 135px.
Пример:
http://img100.xvideos.com/videos/thumbs/e7/9e/ea/e79eea3f8b46d5d95a 732f.3.jpg
Методом изменения циферок в конце файла, выясняем, что тумб на самом деле нарезано аж 30 штук.
Изменить размер тумбы до пристойного можно добавлением lll (от одного до трех символов) в конце thumbs.
Пример:
http://img100.xvideos.com/videos/thumbs
lll
/e7/9e/ea/e79eea3f8b46d5d95a0801df2fd7732f/e79eea3f8b46d5d95a0801df2fd7732f.3.jpg
В рсс-ах тоже идет одна тумба. Базы в которой больше одной тумбы, насколько я понял не существует (или для публичного пользования не выложена). Отсюда головоломка: как сделать такую базу?
цитата
04/05/13 в 13:59
Stek
ricardo писал:
Отсюда головоломка: как сделать такую базу?
Как понимаю никак , только самому подбирать, изменяя номер тумбы. Как понимаю в дампе идет первая тумба по номеру и минимальный размер.
Так что парсить регуляркой и далее вытаскивать.
Сейчас выкачал дамп, самая первая картинка
И ее модернизация работает
цитата
04/05/13 в 14:06
ricardo
Stek писал:
Как понимаю никак , только самому подбирать, изменяя номер тумбы.
Ага, ручками!
цитата
04/05/13 в 14:11
CyberSEO
removed by moderator
Последний раз редактировалось: CyberSEO (
20/06/19 в 12:10
), всего редактировалось 3 раз(а)
цитата
04/05/13 в 18:26
ricardo
Парсер хорош для сбора информации. Например, для других тубов, которые не выкладывают полную базу и админку не дают. А зачем парсить то, что и так уже есть в готовом виде? Тут не парсер нужен, а скрипт, который в строке будет находить урл тумбы и заменять ее на несколько в диапазоне от 1 до 30.
цитата
04/05/13 в 20:22
Lexikon
если я правильно понял то в дампе есть ссылка на одну тумбу
и эта ссылка отличается от других только "lll" - это отвечает за размер, и последнее *.число.jpg - это кадр.
Не думаю что есть проблема сделать замену или перегенерить / нагенерить из исходного остальные ссылки.
http://img100.xvideos.com/videos/thumbs/e7/9e/ea/e79eea3f8b46d5d95a 732f.3.jpg
в зависимости от требований меняем скриптом /thumbs/ на /thumbslll/ затем регуляркой и циклом генерим ссылки
************.1.jpg
************.2.jpg
************.3.jpg
************.4.jpg
************.5.jpg
как то не кажется огромной проблемой
цитата
04/05/13 в 21:04
ricardo
Про /thumbs/ на /thumbslll/ я вообще молчу - это чепуха.
Lexikon писал:
как то не кажется огромной проблемой
Поскольку тебе это проблемой не кажется - у тебя ее и нет.
цитата
04/05/13 в 21:12
CyberSEO
Последний раз редактировалось: CyberSEO (
20/06/19 в 12:19
), всего редактировалось 3 раз(а)
цитата
04/05/13 в 21:28
Lexikon
ricardo писал:
Про /thumbs/ на /thumbslll/ я вообще молчу - это чепуха.
Поскольку тебе это проблемой не кажется - у тебя ее и нет.
Так, а кто мешает разобраться с проблемой? Закажи код или сделай сам делов то, напиши ТЗ и я думаю знающие люди ответят и за небольшую сумму выполнят твое ТЗ.
Я в свое время вообще нихера не знал как и с какой стороны подходить к ПХП, на данный момент те крохи знаний которые есть здоровецко помогают.
Если уж решили чем то заняться то будьте готовы на расстраты и т.п. Это биз! А не занятия в подготовительном классе.
цитата
04/05/13 в 21:32
ricardo
Lexikon писал:
напиши ТЗ и я думаю знающие люди ответят и за небольшую сумму выполнят твое ТЗ.
Именно так я и планирую поступить в ближайшее время.
Просто изначально топик с другой, более неопределенной проблемы начинался.
цитата
05/05/13 в 00:28
FXIX
да. лексикон правильно написал. куда вы нахуй лезете без одной извилины. строить дома без строительного образования. строить ракеты без ракетного образования. строить сайты без сайтового образования.
иди кодинг учи. твоя проблема на уровне 2 класса. какой еще нахуй инструментарий. тебе нужны только знания SQL
цитата
08/05/13 в 10:57
fish_ka
"опоздал на 20 лет" "с"
"никогда не поздно выучить пхп" "с"
"будь мужиком выучи регексп" "с"
Новая тема
Ответить
Эта страница в полной версии