Jump to content

SUBIECTE NOI
« 1 / 5 »
RSS
WTF !Comunicare cu animale mo...

Convertit sistem de navigați...

Nu am sunet pe hdmi

Întrebare alunita
 Schimbare tabla acoperis

Trotineta Bolt cu reducere de 3 lei

Aragaz cu plita pe gaz si cuptor ...

Cablu FFC
 Poco F6/F6 Pro

Scurgere catre hazna

De la 24V la 5V DC?

Deducere TVA
 Open WRT nu sincronizeaza ceasul ...

salariu plafonat

sistem actionare electrica pentru...

Sfaturi achizitie auto ~10k€
 

O mica problema de Regex.

* * * - - 2 votes
  • Please log in to reply
4 replies to this topic

#1
ursudepadure

ursudepadure

    Junior Member

  • Grup: Members
  • Posts: 232
  • Înscris: 28.04.2012
Poate ca ar trebui sa studiez mai mult inainte sa intreb dar ma dau batut.
Am ceva de genul.

1. Titlu

Continut, blah blah intr-un paragraph (pana la new line).

Alt Continut....in alt paragraf.

Alt continut....etc.
________________________________________
Mi.ar trebui ceva care sa imi match-uiasca paragrafele (in acest caz 3 si se cunoste numele titlului cum ar fi "introducere" sau "concluzii", etc.)
Ideea este ca intre titlu si paragrafe pot sa fie zero (Titlul sa faca parte din primul paragraf) sau mai multe linii goale.
Patternul ar trebui sa extraga Paragrafele de dupa titlu (care sunt n, un numar dat, sa zicem 3 pentru un caz particular.).
Daca nu e posibil, cel putin sa extraga primul paragraf.

#2
vj_Heaven

vj_Heaven

    Senior Member

  • Grup: Senior Members
  • Posts: 3,068
  • Înscris: 19.07.2005
In ce limbaj vrei sa faci?

iti trebuie o metoda de-a deosebi titlul de restul textului, daca e numerotat atunci faci match la cuvintele care incep cu o cifra. Posibil sa apara si false positive dar... vezi tu.

In python poti folosi with open:  https://stackoverflo...le-line-by-line
Citesti fisierul line by line, verifici daca e titlu, daca e tiltu il stochezi intr-o variabila, apoi continutul in alta variabila pana dai de urmatorul titlu. Cand citesti fiecare linie verifici si daca e goala si ignori daca vrei sa ignori liniile goale.

Edited by vj_Heaven, 27 January 2022 - 21:46.


#3
coniac

coniac

    Member

  • Grup: Members
  • Posts: 497
  • Înscris: 17.12.2019
Cand e vorba de parsat HTML , the way to go is ALWAYS XPATH !!!

#4
aaaa4567

aaaa4567

    Senior Member

  • Grup: Senior Members
  • Posts: 9,560
  • Înscris: 18.10.2011

View Postursudepadure, on 27 ianuarie 2022 - 21:01, said:

Poate ca ar trebui sa studiez mai mult inainte sa intreb dar ma dau batut.
Am ceva de genul.

1. Titlu

Continut, blah blah intr-un paragraph (pana la new line).

Alt Continut....in alt paragraf.

Alt continut....etc.
________________________________________
Mi.ar trebui ceva care sa imi match-uiasca paragrafele (in acest caz 3 si se cunoste numele titlului cum ar fi "introducere" sau "concluzii", etc.)
Ideea este ca intre titlu si paragrafe pot sa fie zero (Titlul sa faca parte din primul paragraf) sau mai multe linii goale.
Patternul ar trebui sa extraga Paragrafele de dupa titlu (care sunt n, un numar dat, sa zicem 3 pentru un caz particular.).
Daca nu e posibil, cel putin sa extraga primul paragraf.
Numele titlului are acel numeral la inceput totdeauna, sub forma asta: "1." ?

#5
ursudepadure

ursudepadure

    Junior Member

  • Grup: Members
  • Posts: 232
  • Înscris: 28.04.2012
Nu neaparat un numar la inceput. Poate sau nu poate sa fi un numar. Ceea ce nu stiu este sa fac un pattern care sa cuprinda toate situatiile posibile (sau cel putin o mare parte din ele) care sa imi extraga continutul unui paragraf atunci cand intalneste un titlu dat. Sau si mai bine, mai multe paragraphe.

Poate nu sunt in sectinuea potrivita. Regex e folosit in toate limbajele si eu am mai pus intrebari la partea de programare in C# dar acolo sunt mai putini utilizatori ai formului.

Limbajul? Nu conetaza deloc. Sunt pe net o groaza de aplicatii online (webtools) cu care sa verifici paternul si merge la fel in web tool ca si in aplicatiile mele. Eu folosesc C# si am creat propriul program care sa imi testeze paternurile si rezultatele sunt ca cele de pe webtool cum e acesta: https://regex101.com/

Anunturi

Neurochirurgie minim invazivă Neurochirurgie minim invazivă

"Primum non nocere" este ideea ce a deschis drumul medicinei spre minim invaziv.

Avansul tehnologic extraordinar din ultimele decenii a permis dezvoltarea tuturor domeniilor medicinei. Microscopul operator, neuronavigația, tehnicile anestezice avansate permit intervenții chirurgicale tot mai precise, tot mai sigure. Neurochirurgia minim invazivă, sau prin "gaura cheii", oferă pacienților posibilitatea de a se opera cu riscuri minime, fie ele neurologice, infecțioase, medicale sau estetice.

www.neurohope.ro

0 user(s) are reading this topic

0 members, 0 guests, 0 anonymous users

Forumul Softpedia foloseste "cookies" pentru a imbunatati experienta utilizatorilor Accept
Pentru detalii si optiuni legate de cookies si datele personale, consultati Politica de utilizare cookies si Politica de confidentialitate