Spaces:

JaishnaCodz
/

BlogReviewer

Sleeping

App Files Files Community

BlogReviewer / app.py

JaishnaCodz

Update app.py

b63764b verified about 2 months ago

raw

history blame

4.1 kB

	import gradio as gr
	import trafilatura
	from transformers import pipeline
	import pytesseract
	from PIL import Image
	import requests
	from io import BytesIO
	import difflib

	# Load model
	reviewer = pipeline("text2text-generation", model="google/flan-t5-base")

	# OCR from image URL
	def extract_text_from_image_url(img_url):
	try:
	response = requests.get(img_url)
	img = Image.open(BytesIO(response.content))
	text = pytesseract.image_to_string(img)
	return text
	except Exception as e:
	return f"❌ OCR Error: {e}"

	# Extract main blog content from URL
	def extract_text_from_url(url):
	downloaded = trafilatura.fetch_url(url)
	if downloaded:
	return trafilatura.extract(downloaded)
	else:
	return "❌ Blog Error: Could not fetch content from the URL."

	# Highlight diffs using difflib
	def highlight_diffs(orig, suggestion):
	diff = difflib.ndiff(orig.split(), suggestion.split())
	result = []
	for word in diff:
	if word.startswith('- '):
	result.append(f"~~{word[2:]}~~")
	elif word.startswith('+ '):
	result.append(f"{word[2:]}")
	elif word.startswith(' '):
	result.append(word[2:])
	return " ".join(result)

	# Review line-by-line
	def review_lines(text):
	lines = text.strip().split('\n')
	reviewed = []
	for line in lines:
	if not line.strip():
	continue
	prompt = f"Fix grammar, tone, and clarity:\n\n{line}"
	response = reviewer(prompt, max_new_tokens=100)[0]['generated_text'].strip()
	highlighted = highlight_diffs(line.strip(), response)
	reviewed.append((line.strip(), highlighted, response))
	return reviewed

	# Finalize accepted suggestions
	def finalize_text(originals, suggestions, decisions):
	output = []
	for orig, sugg, accepted in zip(originals, suggestions, decisions):
	output.append(sugg if accepted else orig)
	return "\n".join(output)

	# Build Gradio UI
	with gr.Blocks(theme=gr.themes.Soft()) as app:
	gr.Markdown("## ✨ BlogChecker AI\nSmart blog reviewer with OCR + AI suggestions")

	with gr.Row():
	blog_url = gr.Textbox(label="📎 Blog URL")
	image_url = gr.Textbox(label="🖼️ Image URL (optional)")
	extract_btn = gr.Button("🔍 Extract")

	combined_text = gr.Textbox(label="📝 Combined Blog + OCR Text", lines=10)

	with gr.Row():
	review_btn = gr.Button("🧠 Review Content")
	finalize_btn = gr.Button("✅ Finalize Clean Blog")

	review_area = gr.Column(visible=False)
	final_output = gr.Textbox(label="📦 Final Clean Blog", lines=10)

	review_boxes = []

	# Extract combined content
	def extract_both(url, img_url):
	blog = extract_text_from_url(url)
	ocr = extract_text_from_image_url(img_url) if img_url else ""
	return blog + ("\n" + ocr if ocr else "")

	# Review and build UI dynamically
	def do_review(text):
	results = review_lines(text)
	review_area.children.clear()
	review_boxes.clear()
	for idx, (orig, highlighted, clean) in enumerate(results):
	with review_area:
	orig_box = gr.Textbox(value=orig, label=f"Original Line {idx+1}", interactive=False)
	markdown_sugg = gr.Markdown(value=highlighted, label=f"Suggested Edit {idx+1}")
	accept = gr.Checkbox(label="✅ Accept Suggestion", value=False)
	review_boxes.append((orig_box, clean, accept))
	return gr.update(visible=True)

	# Compile final clean version
	def collect_results():
	originals = [box[0].value for box in review_boxes]
	suggestions = [box[1] for box in review_boxes]
	accepts = [box[2].value for box in review_boxes]
	return finalize_text(originals, suggestions, accepts)

	# Wire buttons
	extract_btn.click(fn=extract_both, inputs=[blog_url, image_url], outputs=combined_text)
	review_btn.click(fn=do_review, inputs=combined_text, outputs=review_area)
	finalize_btn.click(fn=collect_results, outputs=final_output)

	app.launch()