디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

헌재게시판 여론 탄핵 반대: 1997, 탄핵 찬성: 82앱에서 작성

야갤러(106.102) 2024.12.19 18:59:24
조회 116 추천 0 댓글 0

import requests

from bs4 import BeautifulSoup

import transformers

import torch

from transformers import BertTokenizer, BertForSequenceClassification, Trainer, TrainingArguments

from datasets import Dataset


train_data = {

'text': [

"탄핵반대 ! 생중계 찬성", "탄핵 결사 반대!!!!", "대통령 탄핵반대 재판 생중계 요청",

"탄핵 반대 생중계하라", "생중계", "탄핵 반대 탄핵찬성하는놈들 CIA 신고하자. 미국 못 간다.",

"윤석열대통령 탄핵반대", "간첩때려잡자", "탄핵 반대 내란죄는 국정을 마비시킨 민주당이다",

"존경하는 6인 재판관님 선거조작 선관위수사를 막지 마세요[탄핵기각]생중계촉구", "탄핵무효",

"존경하는 재판관님 탄핵찬성입니다", "탄핵 찬성입니다", "찬성합니다", "탄핵 찬성합니다.",

"내란수/괴 독재자 사형 탄핵!!!!!!!", "토종한국인은 윤정은의 탄핵 찬성"

],

'labels': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1]

}


# Prepare the dataset

train_dataset = Dataset.from_dict(train_data)


# Load pre-trained KoBERT model and tokenizer

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') # Check if GPU is available

tokenizer = BertTokenizer.from_pretrained('kykim/bert-kor-base')

model = BertForSequenceClassification.from_pretrained('kykim/bert-kor-base', num_labels=2).to(device) # Move model to GPU


# Tokenize the dataset

def tokenize_function(examples):

return tokenizer(examples['text'], padding='max_length', truncation=True)


train_dataset = train_dataset.map(tokenize_function, batched=True)


# Training arguments

training_args = TrainingArguments(

output_dir='./results',

num_train_epochs=3,

per_device_train_batch_size=8,

evaluation_strategy="no",

logging_dir='./logs',

logging_steps=10,

)


# Trainer setup

trainer = Trainer(

model=model,

args=training_args,

train_dataset=train_dataset,

)


# Fine-tuning the model

trainer.train()


# Base URL for the site


anti_count = 0

pro_count = 0

# Initialize a list to store the last 10 titles

recent_titles = []


# Example function for classification

def classify_title(title):

inputs = tokenizer(title, return_tensors="pt", truncation=True, padding=True, max_length=128).to(device) # Move inputs to GPU

with torch.no_grad():

outputs = model(**inputs)

prediction = torch.argmax(outputs.logits, dim=-1).item()

return "찬성" if prediction == 1 else "반대"


# Loop through the first 1000 pages

for page in range(1, 1001):

if (page % 10) == 0:

print(f"{page}페이지까지 분석 | 탄핵 반대: {anti_count}, 탄핵 찬성: {pro_count}")

url = base_url.format(page)

response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')


# Find all rows containing title

rows = soup.select('table tbody tr')


# Extract and count titles

for row in rows:

title = row.select_one('td:nth-child(2)').text.strip()


# Skip the title if it matches any of the last 10 titles

if title in recent_titles:

# print("중복된 title 무시")

continue

# Add the current title to the list of recent titles

recent_titles.append(title)

if len(recent_titles) > 10:

recent_titles.pop(0) # Remove the oldest title if we have more than 10


label = classify_title(title)

if label == "반대":

anti_count += 1

elif label == "찬성":

pro_count += 1


print(f"탄핵 반대: {anti_count}, 탄핵 찬성: {pro_count}")

​실명 인증 든든하다 ㅋㅋㅋㅋ

- dc official App

추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 매니저들에게 가장 잘할 것 같은 스타는? 운영자 25/03/10 - -
17366687 휘성 전할 수 없는 이야기 개띵곡인데 [1] 야갤러(118.235) 03.10 57 0
17366686 사람 이름이 나일강ㅋㅋㅋ ㅇㅇ(211.235) 03.10 47 0
17366685 나일강 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ KIR갤로그로 이동합니다. 03.10 48 0
17366684 나일강 ㅋㅋㅋㅋㅋ ㅇㅇ(211.234) 03.10 43 0
17366683 나훈아가 저런노래를 불렀다고? 깡촌ㅋㅋ ㅇㅇ(211.234) 03.10 49 0
17366682 사람 이름이 나일강ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ(119.202) 03.10 47 0
17366681 이름머냐 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ(223.39) 03.10 55 0
17366679 사람이름이 나일강 ㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ(122.34) 03.10 42 0
17366678 나일강ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ Kojimako갤로그로 이동합니다. 03.10 51 0
17366677 나일강 ㅋㅋㅋㅋㅋㅋ 하아아앙갤로그로 이동합니다. 03.10 48 0
17366676 나일강 ㅋㅋㅋㅋㅋ ㅇㅇ(124.111) 03.10 36 0
17366674 ㅇㅇ 야갤러(119.203) 03.10 61 0
17366673 강촌에살고싶네ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ Kojimako갤로그로 이동합니다. 03.10 48 0
17366672 강촌에살고싶네 ㅋㅋㅋㅋㅋㅋ 하아아앙갤로그로 이동합니다. 03.10 39 0
17366670 강촌에 살고싶네 ㅋㅋㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 03.10 47 0
17366668 뉴진스가 케이팝가수들중에 라이브 실력은 확실히 원탑인듯 [1] ㅇㅇ(118.235) 03.10 73 0
17366667 님님님드라 실베 안되는데??????? [2] ㅇㅇ갤로그로 이동합니다. 03.10 80 0
17366665 국민의힘 한동훈 나오면 이재명 뽑는다는 태극기 부대들 야갤러(114.206) 03.10 68 0
17366664 세비카 5코 3성 찍어버림 야갤러(219.241) 03.10 65 0
17366661 내란수괴....불법계엄 확정ㅋㅋㅋㅋNews ㅇㅇ갤로그로 이동합니다. 03.10 93 2
17366659 노들강변백사장ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ Kojimako갤로그로 이동합니다. 03.10 56 0
17366658 그냥 개추좀 [1] ㅇㅇ갤로그로 이동합니다. 03.10 94 2
17366657 모두가싫어하는 변태한남아 애초에 아빠는 딸을 강간하지않는다. 야순이(118.235) 03.10 61 0
17366656 노래를 개판칠거면 야댄서는 부르던가ㅋㅋㅋ [1] ㅇㅇ(211.234) 03.10 54 0
17366653 틀민주 슴골 ㄷㄷㄷ ㅇㅇ(124.111) 03.10 65 0
17366652 밍구리30년후ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ Kojimako갤로그로 이동합니다. 03.10 73 0
17366651 [속보] 휘성, 자택에서 사망.jpg [1] ㅇㅇ(121.188) 03.10 218 6
17366650 틀민주 ㅋㅋㅋㅋㅋㅋ 하아아앙갤로그로 이동합니다. 03.10 73 0
17366649 다리 왜가림 아오 ㅇㅇ(118.235) 03.10 48 0
17366648 틀민주 ㅋㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 03.10 47 0
17366646 밍구리 안농 ㅌㅋㅋ 나봉갤로그로 이동합니다. 03.10 61 0
17366645 밍구리 30년후ㅋㅋㅋ ㅇㅇ(211.235) 03.10 45 0
17366644 밍구리 30년 후 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ(119.202) 03.10 40 0
17366643 배승희 유튜브 개쩐다 ㅅㅅㅅㅅㅅㅅㅅㅅ ㅇㅇ갤로그로 이동합니다. 03.10 74 0
17366642 틀밍구리 ㅋㅋ ㅇㅇ(124.111) 03.10 47 0
17366641 틀구리 ㅋㅋㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ(121.145) 03.10 47 0
17366640 노? ㅋㅋㅋㅋㅋㅋ 하아아앙갤로그로 이동합니다. 03.10 53 0
17366639 무빙건: 빨갛게 물든 이곳을 위해 큰박수를 ㅇㅇ(211.234) 03.10 44 0
17366638 노들강변 ㅋㅋㅋㅋㅋㅋ 하아아앙갤로그로 이동합니다. 03.10 55 0
17366637 노들강변ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ Kojimako갤로그로 이동합니다. 03.10 60 0
17366636 노 들강변 ㅋㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 03.10 44 0
17366634 주절주절 날먹 타임 ㅋㅋㅋㅋㅋㅋ ㅇㅇ(14.46) 03.10 44 0
17366633 무빙건 주절주절 날먹타임ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ(119.202) 03.10 48 0
17366632 주절주절잔소리타임2 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ KIR갤로그로 이동합니다. 03.10 53 0
17366631 주이댄서가 저기서 체력 제일 좋은듯 ㅇㅇ(211.235) 03.10 59 0
17366630 무빙건 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 03.10 46 0
17366629 무빙건 주절주절 개날먹타임 ㅋㅋㅋㅋㅋㅋ 하아아앙갤로그로 이동합니다. 03.10 54 0
17366628 무빙건 주절주절 날먹타임 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ Kojimako갤로그로 이동합니다. 03.10 55 0
17366627 적폐댄서 찢재명 한방에 보내버릴것같은 저 자존감 ㅇㅇ(211.234) 03.10 56 0
17366626 똥머리누나 뒷문 뚫고싶농ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ Kojimako갤로그로 이동합니다. 03.10 85 0
뉴스 휘성, 오늘(10일) 자택서 심정지로 발견... 소속사 “가슴 아프다” [전문] 디시트렌드 10:00
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2