Jump to content

SUBIECTE NOI
« 1 / 5 »
RSS
Termostat frigider - verificare

Mai au PC-urile vreun viitor?

Centrala termica immergas

Amenda in Lipsa ?
 Acoperire gol extrior intre termo...

Intreprindere individuala fara ac...

Marci Biciclete - recomandari

Lipsa Tensiune pe o Faza, bransam...
 Recomandare bicicleta copil 5 ani.

Recomandare kit automat acces usa

[email][nvidia] Your GeForce NOW ...

Site nesigur
 Baghetele ornamentale intre foile...

O recomandare pentru o camera ful...

Pareri magazin online quickmobile?

Unde gasesc banane albastre?
 

O mica problema de Regex.

* * * - - 2 votes
  • Please log in to reply
4 replies to this topic

#1
ursudepadure

ursudepadure

    Junior Member

  • Grup: Members
  • Posts: 232
  • Înscris: 28.04.2012
Poate ca ar trebui sa studiez mai mult inainte sa intreb dar ma dau batut.
Am ceva de genul.

1. Titlu

Continut, blah blah intr-un paragraph (pana la new line).

Alt Continut....in alt paragraf.

Alt continut....etc.
________________________________________
Mi.ar trebui ceva care sa imi match-uiasca paragrafele (in acest caz 3 si se cunoste numele titlului cum ar fi "introducere" sau "concluzii", etc.)
Ideea este ca intre titlu si paragrafe pot sa fie zero (Titlul sa faca parte din primul paragraf) sau mai multe linii goale.
Patternul ar trebui sa extraga Paragrafele de dupa titlu (care sunt n, un numar dat, sa zicem 3 pentru un caz particular.).
Daca nu e posibil, cel putin sa extraga primul paragraf.

#2
vj_Heaven

vj_Heaven

    Senior Member

  • Grup: Senior Members
  • Posts: 3,058
  • Înscris: 19.07.2005
In ce limbaj vrei sa faci?

iti trebuie o metoda de-a deosebi titlul de restul textului, daca e numerotat atunci faci match la cuvintele care incep cu o cifra. Posibil sa apara si false positive dar... vezi tu.

In python poti folosi with open:  https://stackoverflo...le-line-by-line
Citesti fisierul line by line, verifici daca e titlu, daca e tiltu il stochezi intr-o variabila, apoi continutul in alta variabila pana dai de urmatorul titlu. Cand citesti fiecare linie verifici si daca e goala si ignori daca vrei sa ignori liniile goale.

Edited by vj_Heaven, 27 January 2022 - 21:46.


#3
coniac

coniac

    Member

  • Grup: Members
  • Posts: 497
  • Înscris: 17.12.2019
Cand e vorba de parsat HTML , the way to go is ALWAYS XPATH !!!

#4
aaaa4567

aaaa4567

    Senior Member

  • Grup: Senior Members
  • Posts: 9,494
  • Înscris: 18.10.2011

View Postursudepadure, on 27 ianuarie 2022 - 21:01, said:

Poate ca ar trebui sa studiez mai mult inainte sa intreb dar ma dau batut.
Am ceva de genul.

1. Titlu

Continut, blah blah intr-un paragraph (pana la new line).

Alt Continut....in alt paragraf.

Alt continut....etc.
________________________________________
Mi.ar trebui ceva care sa imi match-uiasca paragrafele (in acest caz 3 si se cunoste numele titlului cum ar fi "introducere" sau "concluzii", etc.)
Ideea este ca intre titlu si paragrafe pot sa fie zero (Titlul sa faca parte din primul paragraf) sau mai multe linii goale.
Patternul ar trebui sa extraga Paragrafele de dupa titlu (care sunt n, un numar dat, sa zicem 3 pentru un caz particular.).
Daca nu e posibil, cel putin sa extraga primul paragraf.
Numele titlului are acel numeral la inceput totdeauna, sub forma asta: "1." ?

#5
ursudepadure

ursudepadure

    Junior Member

  • Grup: Members
  • Posts: 232
  • Înscris: 28.04.2012
Nu neaparat un numar la inceput. Poate sau nu poate sa fi un numar. Ceea ce nu stiu este sa fac un pattern care sa cuprinda toate situatiile posibile (sau cel putin o mare parte din ele) care sa imi extraga continutul unui paragraf atunci cand intalneste un titlu dat. Sau si mai bine, mai multe paragraphe.

Poate nu sunt in sectinuea potrivita. Regex e folosit in toate limbajele si eu am mai pus intrebari la partea de programare in C# dar acolo sunt mai putini utilizatori ai formului.

Limbajul? Nu conetaza deloc. Sunt pe net o groaza de aplicatii online (webtools) cu care sa verifici paternul si merge la fel in web tool ca si in aplicatiile mele. Eu folosesc C# si am creat propriul program care sa imi testeze paternurile si rezultatele sunt ca cele de pe webtool cum e acesta: https://regex101.com/

Anunturi

Chirurgia spinală minim invazivă Chirurgia spinală minim invazivă

Chirurgia spinală minim invazivă oferă pacienților oportunitatea unui tratament eficient, permițându-le o recuperare ultra rapidă și nu în ultimul rând minimizând leziunile induse chirurgical.

Echipa noastră utilizează un spectru larg de tehnici minim invazive, din care enumerăm câteva: endoscopia cu variantele ei (transnazală, transtoracică, transmusculară, etc), microscopul operator, abordurile trans tubulare și nu în ultimul rând infiltrațiile la toate nivelurile coloanei vertebrale.

www.neurohope.ro

0 user(s) are reading this topic

0 members, 0 guests, 0 anonymous users

Forumul Softpedia foloseste "cookies" pentru a imbunatati experienta utilizatorilor Accept
Pentru detalii si optiuni legate de cookies si datele personale, consultati Politica de utilizare cookies si Politica de confidentialitate