|
|
tvsm22 Профессионал |
Зарегистрирован: 03.03.2008
Сообщений: 556
|
Обратиться по нику
|
tvsm22 |
Ответить с цитатой | | |
|
Нужно вытащить содержимое html страниц, которое находится между двумя строками:
<!-- InstanceBeginEditable name="content" -->
текст
<!-- InstanceEndEditable -->
Выдрать и сохранить результат как отдельные html. Тобишь берем страницу html, убираем все лишнее, оставляя только между этими строками, сохраняем страницу.
Кто подскажет, чем это лучше сделать? Всего около 500 страниц. Далее планирую экспортировать это дело в Joomla при помощи zebroid'а |
|
|
|
|
|
sabirovsk.ru - Игровое оборудование для детских садов |
DK + wordpress |
Зарегистрирован: 18.06.2008
Сообщений: 2425
|
Обратиться по нику
|
|
|
|
sydoow V.I.P. |
Зарегистрирован: 29.06.2007
Сообщений: 8213
|
Обратиться по нику
|
sydoow |
Ответить с цитатой | | |
|
Если немного через попу, то я бы сделал так:
1) выкачал все страницы какой нибудь качалкой;
2) выдрал нужное содержимое текстпайпом. |
|
|
|
|
|
|
Yabuti V.I.P. |
Зарегистрирован: 28.11.2008
Сообщений: 16263
|
Обратиться по нику
|
Yabuti |
Ответить с цитатой | | |
|
Два метода:
1) php-функция:
Код: |
function get_content($t) {
$t = "_целевой_урл_";
$html = file_get_contents($t);
$html = charset_x_win($html);
$start_table = '<!-- InstanceBeginEditable name="content" -->';
$end_table = '<!-- InstanceEndEditable -->';
$start = strpos($html, $start_table);
$end = strpos($html, $end_table);
return substr($html, $start, $end - $start);
}
|
2) В Datacol создать новый парсер, указав границы <!-- InstanceBeginEditable name="content" --> и <!-- InstanceEndEditable -->.
Вообще практически любым парсером можно это сделать - ContentDownloader и т.д.
|
|
|
|
|
|
Ксен ВПС и выделенные серверы от PQCService.net с бесплатным администрированием в 7 локациях, icq: 87244588
-- |
DrKronos SEO-доктор |
Зарегистрирован: 11.03.2008
Сообщений: 13024
|
Обратиться по нику
|
|
|
Здесь могла быть ваша реклама |
FreeDomain Свой |
Зарегистрирован: 20.01.2010
Сообщений: 2
|
Обратиться по нику
|
|
|
|
|