Jump to content

SUBIECTE NOI
« 1 / 5 »
RSS
Imprimanta 3D mai "moderna"

Folie anticondens

Hidroizolatie piscina

Am gasit un IPhone
 Eveniment 14-16 iunie nZEB expo

Semnalizare incarcare Pachet acum...

Implantologie & Cityscape (re...

Scurta sinteza a atacurilor posib...
 Cel mai bun antivirus / firewall ...

Honor 200 si 200 Pro

Sfat inchidere spatiu intre cada ...

ANCPI: Scaderi pe piata imobiliara
 Dac+Amp sau DAC/AMP combo pentru ...

Camera cu panou solar 180° field ...

Eroare F16 msh Whirlpool 6 sense

Toyota - inconveniente minore poa...
 

Web Crawler + Database

* - - - - 1 votes
  • Please log in to reply
17 replies to this topic

#1
business11

business11

    Info Austria

  • Grup: Senior Members
  • Posts: 12,104
  • Înscris: 13.07.2011
Sper ca am nimerit categoria corecta, daca nu va rog sa mutati topicul unde trebuie.

Problema se pune in felul urmator:

Pe pagina aceasta de internet https://www.rakwien.at/ se afla in partea dreapta o fereastra cu "Rechtsanwaltssuche". Daca apasati pe "SUCHEN", apar 3565 de rezultate.

Eu am nevoie de toate aceste rezultate intr-o baza de date. Cel mai avantajos intr-un document excel, care ulterior sa il pot folosi pentru a crea automat scrisori din Word catre persoanele respective.

Daca fac acest lucru manual, banuiesc ca imi va lua cateva saptamani, dar cu siguranta exista o solutie cum sa extrag aceste informatii automat si sa le transform intr-un document excel sau ceva asemanator.

Care ar fi cea mai inteligenta solutie?

#2
whiteboy

whiteboy

    Member

  • Grup: Members
  • Posts: 927
  • Înscris: 18.12.2007
Sunt sigur că te poți folosi de IMPORTHTML din Google Sheets.

#3
business11

business11

    Info Austria

  • Grup: Senior Members
  • Posts: 12,104
  • Înscris: 13.07.2011

View Postwhiteboy, on 28 iulie 2022 - 12:24, said:

Sunt sigur că te poți folosi de IMPORTHTML din Google Sheets.

nu functioneaza, rezultatele cautarii nu au un link predefinit. Link-ul original https://www.rakwien.at/ nu se modifica, astfel ca nu reuseste sa importeze.

#4
bai3tzash

bai3tzash

    Membru

  • Grup: Senior Members
  • Posts: 6,611
  • Înscris: 01.08.2006
https://www.octoparse.com/

Este varianta gratuita sau TRIAL de 14 zile pentru optiuni mai multe. Incerci si vezi ce-ti iese.

#5
Flat

Flat

    Bugetar Esențial

  • Grup: Senior Members
  • Posts: 32,875
  • Înscris: 23.06.2006

View Postbusiness11, on 28 iulie 2022 - 12:52, said:


nu functioneaza, rezultatele cautarii nu au un link predefinit. Link-ul original https://www.rakwien.at/ nu se modifica, astfel ca nu reuseste sa importeze.

dai save as html offline la pagina aia

#6
icename

icename

    Member

  • Grup: Members
  • Posts: 634
  • Înscris: 12.02.2005
Se copiaza codul sursa al paginii cu rezultate intr-un fisier txt.

Cu un simplu script php se extrag informatiile dintre instructiunile html de mai sus si se introduc in baza de date proprie. Este simplu.

Am fisierul .txt dar nu-l pot incarca aici.

#7
business11

business11

    Info Austria

  • Grup: Senior Members
  • Posts: 12,104
  • Înscris: 13.07.2011
multumesc mult, exista vreo posibilitate sa ma ajuti sa extrag datele cu script php? Macar sa imi arati cum functioneaza odata, ca dupaia ma descurc.

#8
MarianG

MarianG

    be that as it may

  • Grup: Moderators
  • Posts: 31,579
  • Înscris: 10.08.2005
var results  = document.getElementsByClassName("space");

for(i=0; i<3565; i++)
  {
console.log(results[i].nextElementSibling.textContent);
console.log(results[i].nextElementSibling.nextElementSibling.textContent);
console.log(results[i].nextElementSibling.nextElementSibling.nextElementSibling.nextElementSibling.textContent);
  }

Ceva de genul :)

#9
NikoroB

NikoroB

    Senior Member

  • Grup: Senior Members
  • Posts: 4,566
  • Înscris: 26.05.2022
Sau incerci ceva cu selenium webdriver.

#10
business11

business11

    Info Austria

  • Grup: Senior Members
  • Posts: 12,104
  • Înscris: 13.07.2011

View PostMarianG, on 28 iulie 2022 - 14:09, said:

var results = document.getElementsByClassName("space");

for(i=0; i<3565; i++)
{
console.log(results[i].nextElementSibling.textContent);
console.log(results[i].nextElementSibling.nextElementSibling.textContent);
console.log(results[i].nextElementSibling.nextElementSibling.nextElementSibling.nextElementSibling.textContent);
}

Ceva de genul Posted Image

View PostNikoroB, on 28 iulie 2022 - 14:34, said:

Sau incerci ceva cu selenium webdriver.

ambele metode ma cam depasesc. pe partea de programare sunt 0 barat. incerc sa ma documentez.

#11
MarianG

MarianG

    be that as it may

  • Grup: Moderators
  • Posts: 31,579
  • Înscris: 10.08.2005
var id, contact, about, details;
var results = document.getElementsByClassName("space");

id = results[0].nextElementSibling.textContent;
contact = results[0].nextElementSibling.nextElementSibling.textContent;
about = results[0].nextElementSibling.nextElementSibling.nextElementSibling.nextElementSibling.textContent;
details = id + '\n' + contact + '\n' + about;
console.log (details);

Vezi ce pachet pentru DOM Explorer ai in versiunea instalata de php
cele ~3500 de intarari au aprox 3.2 MB

#12
business11

business11

    Info Austria

  • Grup: Senior Members
  • Posts: 12,104
  • Înscris: 13.07.2011

View PostMarianG, on 28 iulie 2022 - 15:26, said:

var id, contact, about, details;
var results = document.getElementsByClassName("space");

id = results[0].nextElementSibling.textContent;
contact = results[0].nextElementSibling.nextElementSibling.textContent;
about = results[0].nextElementSibling.nextElementSibling.nextElementSibling.nextElementSibling.textContent;
details = id + '\n' + contact + '\n' + about;
console.log (details);

Vezi ce pachet pentru DOM Explorer ai in versiunea instalata de php
cele ~3500 de intarari au aprox 3.2 MB

Da, asta este exact ce am nevoie, dar habar nu am unde sa introduc textul tau. Ti-am spus sunt 0 barat la programare si asa mai departe.

#13
NikoroB

NikoroB

    Senior Member

  • Grup: Senior Members
  • Posts: 4,566
  • Înscris: 26.05.2022
Pai ai vrut php. Instalezi LAMP si rulezi local.

#14
iulian_1976

iulian_1976

    Active Member

  • Grup: Members
  • Posts: 1,601
  • Înscris: 10.05.2008
Nu ai notiuni de DB, atunci cum il incarci in baza ta de data?

Edited by iulian_1976, 28 July 2022 - 18:08.


#15
NikoroB

NikoroB

    Senior Member

  • Grup: Senior Members
  • Posts: 4,566
  • Înscris: 26.05.2022
Pai poate sa salveze un csv apoi le incarca in excel si le procesează mai departe.

#16
pexCom

pexCom

    Senior Member

  • Grup: Senior Members
  • Posts: 2,265
  • Înscris: 15.01.2014
Angajează un indian pe fiverr cu 3 euro și îți face el.

Tu ești cu biznisul nu cu programarea, după câte am înțeles.

Edited by pexCom, 28 July 2022 - 20:09.


#17
iulian_1976

iulian_1976

    Active Member

  • Grup: Members
  • Posts: 1,601
  • Înscris: 10.05.2008

 NikoroB, on 28 iulie 2022 - 18:32, said:

Pai poate sa salveze un csv apoi le incarca in excel si le procesează mai departe.

Da se poate in csv sau alte formate mai ok.Posted Image

Edited by pstdgt, 02 August 2022 - 10:07.


#18
business11

business11

    Info Austria

  • Grup: Senior Members
  • Posts: 12,104
  • Înscris: 13.07.2011
wow, iti multumesc mult mult mult de tot!

Anunturi

Second Opinion Second Opinion

Folosind serviciul second opinion ne puteți trimite RMN-uri, CT -uri, angiografii, fișiere .pdf, documente medicale.

Astfel vă vom putea da o opinie neurochirurgicală, fără ca aceasta să poată înlocui un consult de specialitate. Răspunsurile vor fi date prin e-mail în cel mai scurt timp posibil (de obicei în mai putin de 24 de ore, dar nu mai mult de 48 de ore). Second opinion – Neurohope este un serviciu gratuit.

www.neurohope.ro

0 user(s) are reading this topic

0 members, 0 guests, 0 anonymous users

Forumul Softpedia foloseste "cookies" pentru a imbunatati experienta utilizatorilor Accept
Pentru detalii si optiuni legate de cookies si datele personale, consultati Politica de utilizare cookies si Politica de confidentialitate